Ir para o conteúdo principal

O que é arquitetura de pipeline de dados?

por Equipe da Databricks

  • Uma arquitetura de pipeline de dados bem projetada separa a ingestão, transformação, armazenamento e disponibilização em camadas distintas, com a escolha do padrão (batch, streaming, medallion, Kappa, etc.) orientada pelos seus requisitos de latência e custo, e não por convenção.
  • O ELT substituiu amplamente o ETL como a abordagem dominante porque as plataformas de nuvem modernas tornam prático carregar primeiro os dados brutos e transformá-los no local, preservando a flexibilidade para reprocessamento e reutilização downstream.
  • A Databricks unifica pipelines de batch e streaming em uma única plataforma (Lakeflow + Delta Lake + Unity Catalog), eliminando a infraestrutura duplicada e as lacunas de governança que tornam as arquiteturas tradicionais do estilo Lambda frágeis.

A arquitetura de pipeline de dados é o design de ponta a ponta de como os dados são coletados, processados, armazenados e entregues dos sistemas de origem para as pessoas, aplicações e modelos que os utilizam. A palavra “arquitetura” refere-se ao projeto (blueprint), não ao pipeline em si. Ela abrange as escolhas sobre como os dados fluem, onde são transformados e quais ferramentas gerenciam cada etapa do caminho.

Uma boa arquitetura é adaptada ao caso de uso, em vez de ser escolhida pronta na prateleira. Um pipeline de dados criado para detecção de fraudes em tempo real é muito diferente de um que gera um relatório de vendas noturno, embora ambos movam dados da origem para o destino. Esta página de glossário aborda as camadas principais que todo pipeline compartilha, os modelos de estágio comuns, os principais padrões arquitetônicos e as melhores práticas que mantêm os pipelines confiáveis à medida que escalam.

Como funciona a arquitetura de pipeline de dados?

Um pipeline de dados move dados por uma série de estágios, e cada estágio tem uma função específica: coletar os dados, limpá-los, armazená-los e torná-los utilizáveis. A arquitetura é o plano de como esses estágios se conectam. Ela define o que acontece com os dados em cada etapa, em qual ordem e sob quais regras.

As decisões de arquitetura ocorrem em dois níveis. O design lógico define quais estágios existem e o que cada um faz: este é o “o quê”. O design físico define quais ferramentas e infraestrutura específicas executam cada estágio: este é o “como”. A orquestração (o agendamento e a coordenação automáticos de cada etapa) e o monitoramento não pertencem a um único estágio. Eles são executados em todo o pipeline. As plataformas modernas também eliminaram uma antiga divisão. Com o Lakeflow, a Databricks unifica pipelines em lote (batch) e streaming em uma única base, para que as equipes não precisem criar e manter dois sistemas paralelos.

As camadas principais de um pipeline de dados

Independentemente do padrão escolhido por uma equipe, todo pipeline de dados é construído sobre as mesmas quatro camadas. Cada camada responde a uma pergunta diferente sobre os dados: como eles entram, como se tornam úteis, onde residem e quem os consome.

Ingestão

A ingestão extrai dados para o pipeline a partir de sistemas de origem: bancos de dados, aplicações, APIs, arquivos em armazenamento em nuvem, fluxos de eventos e sensores. A ingestão de dados vem em dois formatos. A ingestão em lote extrai dados de acordo com um cronograma, como a cada hora ou todas as noites. A ingestão em streaming captura dados continuamente à medida que os eventos ocorrem. Muitos pipelines também usam change data capture (CDC), um método que rastreia alterações no nível da linha em um banco de dados de origem para que o pipeline mova apenas o que é novo ou atualizado, em vez de recarregar tudo.

Processamento e transformação

Esta camada é onde os dados brutos são limpos, remodelados, enriquecidos e preparados para uso. O trabalho típico inclui a correção de valores ausentes, padronização de formatos, junção de conjuntos de dados e aplicação de lógica de negócios, as mesmas tarefas no coração do ETL. O processamento segue a mesma divisão da ingestão. O processamento em lote funciona em grandes blocos de dados juntos, enquanto o processamento de fluxo (stream processing) lida com registros um de cada vez ou em pequenos micro-lotes (micro-batches) à medida que chegam.

Armazenamento

O armazenamento é onde os dados processados chegam para que possam ser consultados, analisados ou fornecidos a modelos. O destino é normalmente um data lake, um data warehouse ou um lakehouse, um sistema único que combina os pontos fortes de ambos. O formato importa tanto quanto o local. Formatos abertos como Lakehouse Storage e Apache Iceberg permitem que várias ferramentas leiam os mesmos dados sem copiá-los de um sistema para outro. O Delta Lake também adiciona recursos de confiabilidade, como transações ACID (uma garantia de que as gravações são totalmente bem-sucedidas ou falham por completo, evitando a corrupção de dados) e time travel (a capacidade de consultar versões mais antigas de uma tabela).

Disponibilização e consumo

A camada final entrega os dados preparados para as pessoas e sistemas que precisam deles: analistas que executam consultas SQL, usuários de negócios que trabalham em dashboards, cientistas de dados que treinam modelos e aplicações que chamam APIs. Os destinos variam de ferramentas de BI a plataformas de ML e sistemas operacionais, com um data warehouse frequentemente no centro das cargas de trabalho de análise (analytics). Em todas as quatro camadas, a orquestração e a observabilidade realizam o trabalho de conexão: agendando tarefas (jobs), rastreando a qualidade dos dados e gerando alertas quando algo falha.

Quantos estágios existem em um pipeline de dados? (3 vs. 4 vs. 5)

Diferentes fontes descrevem os pipelines de dados como tendo três, quatro ou cinco estágios, o que causa bastante confusão. A realidade é mais simples. Todos os três modelos descrevem o mesmo trabalho subjacente em differentes níveis de detalhe.

ModeloEstágiosQuando você o verá em uso
3 estágiosOrigens → Processamento → DestinoExplicações de alto nível, visões gerais executivas, conteúdo de nível introdutório
4 estágiosIngestão → Processamento → Armazenamento → DisponibilizaçãoMais comum na engenharia de dados moderna. Equilibra clareza e detalhes
5 estágiosColeta → Ingestão → Processamento → Armazenamento → AnáliseDetalhamentos técnicos detalhados. Divide a "obtenção de dados" em coleta (da origem) e ingestão (no pipeline)

O número de estágios é uma escolha de nomenclatura. O trabalho que o pipeline realiza é o mesmo.

Padrões comuns de arquitetura de pipeline de dados

Padrões arquitetônicos são os designs estabelecidos que as equipes escolhem ao criar pipelines. O padrão correto depende dos requisitos de latência, do volume de dados e de como os dados serão usados downstream.

Arquitetura em lote

A arquitetura em lote processa dados em blocos agendados: a cada hora, todas as noites ou a cada semana. Ela se adequa a relatórios, análises históricas, dados de treinamento de ML e qualquer caso de uso em que minutos ou horas de atraso sejam aceitáveis. Os pipelines em lote são mais simples de criar, mais baratos de executar e mais fáceis de depurar do que seus equivalentes em streaming. A desvantagem é o frescor dos dados (freshness). Quando as decisões dependem do que aconteceu há segundos, o lote não consegue acompanhar.

Arquitetura de streaming

A arquitetura de streaming processa dados continuamente, registro por registro, à medida que são gerados. Ela atende a casos de uso em que a resposta em menos de um minuto importa: detecção de fraudes, personalização em tempo real e monitoramento de IoT. A desvantagem é o custo. Os pipelines de streaming normalmente custam mais para serem executados e operados do que os pipelines em lote porque exigem uma infraestrutura sempre ativa.

Arquitetura Lambda

A arquitetura Lambda executa dois caminhos paralelos. Um caminho em lote fornece dados históricos precisos, um caminho de streaming fornece dados rápidos e atualizados, e uma camada de disponibilização (serving) mescla os resultados. O design funciona, mas traz uma desvantagem bem conhecida. Manter dois pipelines significa código duplicado, lógica duplicada e o dobro de carga operacional.

Arquitetura Kappa

A arquitetura Kappa simplifica a Lambda usando um único pipeline de streaming para tudo. Quando a análise histórica é necessária, o fluxo é reproduzido desde o início. A Kappa é ideal para equipes que desejam o frescor de dados do nível de streaming sem o custo de manter dois sistemas paralelos.

Arquitetura medalhão (padrão lakehouse)

Arquitetura medalhão é um padrão popular em plataformas lakehouse que organiza os dados em três camadas de qualidade: Bronze (brutos, conforme ingeridos), Silver (limpos e padronizados) e Gold (curados, prontos para os negócios). Como diz a documentação da Databricks, “a arquitetura medalhão usa três camadas: bronze, silver e gold, cada uma servindo a um propósito distinto no pipeline”. Cada camada pode ser executada como seu próprio pipeline, o que facilita o agendamento, o monitoramento e a solução de problemas, pois os problemas permanecem isolados em uma única camada.

ETL vs. ELT: como a ordem de transformação molda a arquitetura

O ETL e o ELT diferem em quando os dados são transformados. O ETL (extrair, transformar, carregar) transforma os dados antes de carregá-los no armazenamento. O ELT (extrair, carregar, transformar) carrega os dados brutos primeiro e os transforma dentro do destino. Plataformas de nuvem modernas, como Databricks, Snowflake e BigQuery, tornaram o ELT o padrão dominante porque o armazenamento e a computação em nuvem agora são baratos e elásticos o suficiente para transformar dados in loco. Para uma comparação mais detalhada, consulte ETL vs. ELT.

ETLELT
OrdemExtrair → Transformar → CarregarExtrair → Carregar → Transformar
Onde ocorre a transformaçãoEm uma ferramenta de processamento separada, antes do armazenamentoDentro do destino (lakehouse ou warehouse)
Caso de uso típicoWarehouses legados locais (on-premises), validação rigorosa pré-carregamentoLakehouses e warehouses modernos em nuvem
Pontos fortesDados mais limpos chegam ao armazenamento. Esquemas previsíveisFlexível, escalável, mantém os dados brutos disponíveis para reprocessamento
DesvantagensMenos flexível. Mais difícil de reutilizar dados brutos posteriormenteExige computação capaz no destino
Relatório

O manual de IA agêntica para empresas

O ETL é o mesmo que um pipeline de dados?

Não. O ETL é um tipo de pipeline de dados, mas nem todo pipeline de dados é ETL. Um pipeline de dados é a categoria ampla: qualquer sistema que move dados de um lugar para outro. O ETL é uma abordagem específica dentro dessa categoria, definida pela transformação dos dados antes que eles cheguem ao armazenamento. Os pipelines também podem ser ELT, streaming, apenas de replicação (movendo dados sem nenhuma transformação) ou ETL reverso (enviando dados do data warehouse de volta para os sistemas operacionais).

Melhores práticas para arquitetura de pipeline de dados

Estes 10 princípios de design diferenciam os pipelines que escalam daqueles que quebram.

  1. Separe a ingestão da transformação. Mantenha a chegada dos dados brutos e a limpeza dos dados em etapas diferentes para que os problemas em uma não gerem um efeito cascata na outra.
  2. Projete pensando em idempotência. Deve ser seguro executar novamente um pipeline sem criar registros duplicados ou corromper os resultados. Isso é fundamental para lidar com falhas e backfills.
  3. Incorpore verificações de qualidade de dados. Verificações rigorosas de qualidade de dados validam o esquema, intervalos de valores, contagens de nulos e atualização em cada etapa, e geram alertas claros quando algo está errado, em vez de permitir que dados ruins sigam adiante.
  4. Planeje para mudanças de esquema (schema drift). Os sistemas de origem mudam. Os pipelines devem detectar quando colunas são adicionadas, removidas ou renomeadas e lidar com a mudança de forma adequada, em vez de simplesmente parar de funcionar.
  5. Use formatos de armazenamento abertos. Formatos como Delta Lake e Apache Iceberg evitam a dependência de um único fornecedor (lock-in) e permitem que várias ferramentas leiam os mesmos dados sem a necessidade de cópias.
  6. Desacople as camadas do pipeline. Dividir as camadas da arquitetura medalhão (Bronze, Silver e Gold) em pipelines separados torna cada uma delas mais fácil de agendar, monitorar e solucionar problemas de forma independente.
  7. Use controle de versão para tudo. Armazene o código e a configuração do pipeline no Git para que as alterações sejam revisadas, rastreáveis e reversíveis.
  8. Trate a governança como uma prioridade absoluta. Aplique permissões consistentes, rastreamento de linhagem e controles de auditoria em todas as etapas com uma ferramenta como o Unity Catalog, em vez de deixá-los para o final.
  9. Dimensione adequadamente o uso de streaming vs. lote. Use streaming apenas onde a atualização em tempo real realmente importa e adote o processamento em lote (batch) como padrão nos outros casos para controlar os custos.
  10. Monitore de ponta a ponta. Acompanhe a atualização, o volume e a qualidade dos dados, além do tempo de execução do pipeline, para que os problemas sejam detectados antes que os usuários finais percebam.

Por que a arquitetura de pipeline de dados é importante

A arquitetura de pipeline determina se as equipes podem confiar em seus dados, se as decisões são baseadas em informações atualizadas e se os projetos de IA e ML passam do protótipo para a produção. É a diferença entre uma plataforma de dados que gera valor continuamente e outra que apenas acumula chamados de suporte.

Uma arquitetura frágil gera custos reais: painéis desatualizados, métricas conflitantes, falhas em implantações de ML e engenheiros que passam mais tempo apagando incêndios do que desenvolvendo soluções. A abordagem moderna de lakehouse resolve a causa raiz. Ao unificar lote (batch) e streaming, análise de dados e IA, além de governança em uma única plataforma como a Plataforma Databricks, as equipes eliminam as transferências frágeis entre sistemas que costumam quebrar as arquiteturas tradicionais.

Arquitetura de pipeline de dados na Databricks

A Databricks oferece todas as camadas de arquitetura de pipeline em uma única plataforma. O Lakeflow Connect gerencia a ingestão a partir de bancos de dados, aplicativos SaaS, fontes de arquivos e fluxos de eventos. O Lakeflow Spark Declarative Pipelines cria pipelines de ETL em lote e streaming com verificações de qualidade de dados integradas, e o Lakeflow Jobs orquestra e agenda as execuções de pipelines em toda a plataforma. Por trás de tudo, o Delta Lake fornece o formato de armazenamento aberto junto com recursos de confiabilidade, como transações ACID e time travel, enquanto o Unity Catalog aplica governança, linhagem e controle de acesso em todas as etapas.

Como os pipelines de lote e streaming são executados no mesmo mecanismo e gravam no mesmo armazenamento, as equipes não precisam manter sistemas paralelos no estilo Lambda. Uma única definição de pipeline pode atender tanto ao relatório noturno quanto ao painel em tempo real.

Perguntas frequentes

O que é arquitetura de pipeline de dados em termos simples?

É o plano de como os dados saem de onde são criados para onde são úteis. O plano abrange como os dados são coletados, limpos e preparados, onde são armazenados e como são entregues às pessoas e aplicativos que precisam deles.

Qual é a diferença entre as arquiteturas Lambda e Kappa?

A Lambda executa dois pipelines paralelos, um em lote (batch) e outro em streaming, e mescla seus resultados em uma camada de serviço. A Kappa usa um único pipeline de streaming para tudo e reproduz o fluxo novamente quando uma análise histórica é necessária. A Kappa é mais simples de operar, enquanto a Lambda persiste em ambientes onde os caminhos de lote e streaming evoluíram separadamente.

Quando você deve usar pipelines em lote (batch) vs. streaming?

Use streaming quando o valor dos dados cai em questão de segundos ou minutos, como na detecção de fraudes, personalização em tempo real ou monitoramento de equipamentos. Use o processamento em lote para todo o resto, incluindo relatórios, análises históricas e dados de treinamento de ML. O processamento em lote é mais simples e barato, por isso é a escolha padrão mais sensata até que um caso de uso comprove a necessidade de dados em tempo real.

Qual é a diferença entre arquitetura de pipeline lógica e física?

A arquitetura lógica define as etapas de um pipeline e o que cada uma faz, independentemente de qualquer ferramenta. A arquitetura física mapeia essas etapas em tecnologias e infraestruturas específicas. Geralmente, as equipes definem o design lógico primeiro e depois escolhem as plataformas que o implementarão.

Adapte sua arquitetura ao trabalho

A arquitetura de pipeline de dados é o design por trás de como os dados se movem e se tornam úteis. A arquitetura certa é aquela que equilibra a atualização dos dados, o custo e a confiabilidade para o trabalho específico em questão, seja um relatório de vendas noturno ou uma verificação de fraude executada em milissegundos.

Veja como a Databricks unifica pipelines em lote e streaming, armazenamento e governança em uma única plataforma.

(Esta publicação no blog foi traduzida utilizando ferramentas baseadas em inteligência artificial) Publicação original

Receba os posts mais recentes na sua caixa de entrada

Assine nosso blog e receba os posts mais recentes diretamente na sua caixa de entrada.