Ir para o conteúdo principal

Delta Live Tables

Pipelines de dados confiáveis simplificados

O Delta Live Tables (DLT) é uma estrutura ETL declarativa para a plataforma Databricks Lakehouse que ajuda as equipes de dados a simplificar o streaming e o ETL em batch de forma econômica. Basta definir as transformações a serem executadas em seus dados e permitir que os pipelines DLT gerenciem automaticamente a orquestração de tarefas, o gerenciamento de cluster, o monitoramento, a qualidade dos dados e o tratamento de erros.

DLT flow

Ingestão de dados eficiente

A construção de pipelines ETL prontos para produção no lakehouse começa com a ingestão. O DLT alimenta a ingestão fácil e eficiente para toda a sua equipe, de engenheiros de dados e desenvolvedores Python até data scientists e analistas de SQL. Com o DLT, você carrega dados de qualquer fonte de dados compatível com o Apache Spark™ na Databricks. 

"Adoro o Delta Live Tables porque ela vai além dos recursos do Auto Loader para facilitar ainda mais a leitura de arquivos. Fiquei de queixo caído quando conseguimos configurar um pipeline de streaming em 45 minutos."

— Kahveh Saramout, engenheiro de dados sênior, Labelbox

Transformação de dados inteligente e econômica

Com apenas algumas linhas de código, o DLT determina a maneira mais eficiente de criar e executar seus pipelines de dados de streaming ou em batch, otimizando o preço/desempenho(quase 4x a linha de base da Databricks) e reduzindo a complexidade.

"O Delta Live Tables ajudou nossas equipes a economizar tempo e esforço gerenciando dados na escala de vários milhões de registros e melhorando continuamente nossos recursos de engenharia de IA... A Databricks está revolucionando os mercados de ETL e data warehouse."

— Dan Jeavons, gerente-geral de data science, Shell

Configuração e manutenção simples do pipeline

Os pipelines DLT simplificam o desenvolvimento de ETL, automatizando praticamente toda a complexidade operacional inerente. Com os pipelines DLT, os engenheiros podem se concentrar em fornecer dados de alta qualidade em vez de operar e manter pipelines. O DLT lida automaticamente com:

"Arquiteturas complexas, como gerenciamento de esquemas dinâmicos e transformações com e sem estado, são difíceis de implementar com arquiteturas tradicionais de data warehouse multicloud. Agora, tanto data scientists quanto engenheiros de dados podem realizar essas mudanças usando Delta Live Tables escaláveis sem barreiras de entrada."

— Sai Ravuru, gerente sênior de data science e análise de dados, JetBlue

Mecanismo de processamento de stream de última geração

Spark Structured Streaming é a tecnologia principal que desbloqueia pipelines DLT de streaming, fornecendo uma API unificada para processamento em batch e stream. Os pipelines DLT aproveitam a latência inerente de subsegundos do Spark Structured Streaming e a relação preço/desempenho recorde. Embora seja possível construir manualmente seus próprios pipelines de streaming de desempenho com o Spark Structured Streaming, os pipelines DLT podem fornecer retorno de valor mais rápido, melhor velocidade de desenvolvimento contínuo e menor TCO devido à sobrecarga operacional que gerenciam automaticamente.

“Não tivemos que fazer nada para dimensionar o DLT. Mesmo quando fornecemos mais dados ao sistema, ele dá conta. Desde o início, tivemos a confiança de que o sistema poderia lidar com todos os tipos de dados inseridos.”

— Dr. Chris Inkpen, arquiteto de soluções globais, Honeywell

Comparação entre pipelines Delta Live Tables e pipelines Spark Structured Streaming “personalizados”

Spark Structured Streaming pipelines

DLT pipelines

Execução na plataforma Databricks Lakehouse
Baseado no mecanismo Spark Structured Streaming
Integração com o Unity Catalog
Orquestração com o Databricks Workflows
Ingestão de dezenas de fontes, de armazenamento em nuvem até barramentos de mensagens
Orquestração do fluxo de dados

Manual

Automatizado

Verificação e garantia da qualidade dos dados

Manual

Automatizado

Tratamento de erros e recuperação de falhas

Manual

Automatizado

CI/CD e controle de versões

Manual

Automatizado

Dimensionamento automático de compute

Básico

Governança e armazenamento de dados unificados

A execução de pipelines DLT no Databricks significa que você se beneficia dos componentes fundamentais da Plataforma Lakehouse — Unity Catalog e Delta Lake. Seus dados brutos são otimizados com o Delta Lake, a única estrutura de armazenamento de código aberto projetada do zero para dados em batch e streaming. O Unity Catalog inclui governança detalhada para todos os seus dados e ativos de IA com um modelo consistente para descobrir, acessar e compartilhar dados nas nuvens. O Unity Catalog também fornece suporte nativo para Delta Sharing, o primeiro protocolo aberto do setor para compartilhamento de dados fácil e seguro com outras organizações.

"Estamos muito empolgados com a integração do Delta Live Tables com o Unity Catalog. Essa integração nos ajudará a simplificar e automatizar a governança de dados para nossos pipelines DLT, ajudando a atender aos requisitos de segurança e dados confidenciais à medida que ingerimos milhões de eventos em tempo real. Isso abre um mundo de potencial e aprimoramentos para nossos casos de uso de negócios relacionados à modelagem de risco e detecção de fraudes."

— Yue Zhang, engenheiro de software da equipe, Block

Perguntas frequentes

Os pipelines DLT são feitos de dois blocos de construção fundamentais: tabelas de streaming e visualizações materializadas. Eles são construídos de acordo com os padrões confiáveis de Delta Tables e Spark Structured Streaming. 

Recursos