A arquitetura de pipeline de dados é o design de ponta a ponta de como os dados são coletados, processados, armazenados e entregues dos sistemas de origem para as pessoas, aplicações e modelos que os utilizam. A palavra “arquitetura” refere-se ao projeto (blueprint), não ao pipeline em si. Ela abrange as escolhas sobre como os dados fluem, onde são transformados e quais ferramentas gerenciam cada etapa do caminho.
Uma boa arquitetura é adaptada ao caso de uso, em vez de ser escolhida pronta na prateleira. Um pipeline de dados criado para detecção de fraudes em tempo real é muito diferente de um que gera um relatório de vendas noturno, embora ambos movam dados da origem para o destino. Esta página de glossário aborda as camadas principais que todo pipeline compartilha, os modelos de estágio comuns, os principais padrões arquitetônicos e as melhores práticas que mantêm os pipelines confiáveis à medida que escalam.
Um pipeline de dados move dados por uma série de estágios, e cada estágio tem uma função específica: coletar os dados, limpá-los, armazená-los e torná-los utilizáveis. A arquitetura é o plano de como esses estágios se conectam. Ela define o que acontece com os dados em cada etapa, em qual ordem e sob quais regras.
As decisões de arquitetura ocorrem em dois níveis. O design lógico define quais estágios existem e o que cada um faz: este é o “o quê”. O design físico define quais ferramentas e infraestrutura específicas executam cada estágio: este é o “como”. A orquestração (o agendamento e a coordenação automáticos de cada etapa) e o monitoramento não pertencem a um único estágio. Eles são executados em todo o pipeline. As plataformas modernas também eliminaram uma antiga divisão. Com o Lakeflow, a Databricks unifica pipelines em lote (batch) e streaming em uma única base, para que as equipes não precisem criar e manter dois sistemas paralelos.
Independentemente do padrão escolhido por uma equipe, todo pipeline de dados é construído sobre as mesmas quatro camadas. Cada camada responde a uma pergunta diferente sobre os dados: como eles entram, como se tornam úteis, onde residem e quem os consome.
A ingestão extrai dados para o pipeline a partir de sistemas de origem: bancos de dados, aplicações, APIs, arquivos em armazenamento em nuvem, fluxos de eventos e sensores. A ingestão de dados vem em dois formatos. A ingestão em lote extrai dados de acordo com um cronograma, como a cada hora ou todas as noites. A ingestão em streaming captura dados continuamente à medida que os eventos ocorrem. Muitos pipelines também usam change data capture (CDC), um método que rastreia alterações no nível da linha em um banco de dados de origem para que o pipeline mova apenas o que é novo ou atualizado, em vez de recarregar tudo.
Esta camada é onde os dados brutos são limpos, remodelados, enriquecidos e preparados para uso. O trabalho típico inclui a correção de valores ausentes, padronização de formatos, junção de conjuntos de dados e aplicação de lógica de negócios, as mesmas tarefas no coração do ETL. O processamento segue a mesma divisão da ingestão. O processamento em lote funciona em grandes blocos de dados juntos, enquanto o processamento de fluxo (stream processing) lida com registros um de cada vez ou em pequenos micro-lotes (micro-batches) à medida que chegam.
O armazenamento é onde os dados processados chegam para que possam ser consultados, analisados ou fornecidos a modelos. O destino é normalmente um data lake, um data warehouse ou um lakehouse, um sistema único que combina os pontos fortes de ambos. O formato importa tanto quanto o local. Formatos abertos como Lakehouse Storage e Apache Iceberg permitem que várias ferramentas leiam os mesmos dados sem copiá-los de um sistema para outro. O Delta Lake também adiciona recursos de confiabilidade, como transações ACID (uma garantia de que as gravações são totalmente bem-sucedidas ou falham por completo, evitando a corrupção de dados) e time travel (a capacidade de consultar versões mais antigas de uma tabela).
A camada final entrega os dados preparados para as pessoas e sistemas que precisam deles: analistas que executam consultas SQL, usuários de negócios que trabalham em dashboards, cientistas de dados que treinam modelos e aplicações que chamam APIs. Os destinos variam de ferramentas de BI a plataformas de ML e sistemas operacionais, com um data warehouse frequentemente no centro das cargas de trabalho de análise (analytics). Em todas as quatro camadas, a orquestração e a observabilidade realizam o trabalho de conexão: agendando tarefas (jobs), rastreando a qualidade dos dados e gerando alertas quando algo falha.
Diferentes fontes descrevem os pipelines de dados como tendo três, quatro ou cinco estágios, o que causa bastante confusão. A realidade é mais simples. Todos os três modelos descrevem o mesmo trabalho subjacente em differentes níveis de detalhe.
| Modelo | Estágios | Quando você o verá em uso |
|---|---|---|
| 3 estágios | Origens → Processamento → Destino | Explicações de alto nível, visões gerais executivas, conteúdo de nível introdutório |
| 4 estágios | Ingestão → Processamento → Armazenamento → Disponibilização | Mais comum na engenharia de dados moderna. Equilibra clareza e detalhes |
| 5 estágios | Coleta → Ingestão → Processamento → Armazenamento → Análise | Detalhamentos técnicos detalhados. Divide a "obtenção de dados" em coleta (da origem) e ingestão (no pipeline) |
O número de estágios é uma escolha de nomenclatura. O trabalho que o pipeline realiza é o mesmo.
Padrões arquitetônicos são os designs estabelecidos que as equipes escolhem ao criar pipelines. O padrão correto depende dos requisitos de latência, do volume de dados e de como os dados serão usados downstream.
A arquitetura em lote processa dados em blocos agendados: a cada hora, todas as noites ou a cada semana. Ela se adequa a relatórios, análises históricas, dados de treinamento de ML e qualquer caso de uso em que minutos ou horas de atraso sejam aceitáveis. Os pipelines em lote são mais simples de criar, mais baratos de executar e mais fáceis de depurar do que seus equivalentes em streaming. A desvantagem é o frescor dos dados (freshness). Quando as decisões dependem do que aconteceu há segundos, o lote não consegue acompanhar.
A arquitetura de streaming processa dados continuamente, registro por registro, à medida que são gerados. Ela atende a casos de uso em que a resposta em menos de um minuto importa: detecção de fraudes, personalização em tempo real e monitoramento de IoT. A desvantagem é o custo. Os pipelines de streaming normalmente custam mais para serem executados e operados do que os pipelines em lote porque exigem uma infraestrutura sempre ativa.
A arquitetura Lambda executa dois caminhos paralelos. Um caminho em lote fornece dados históricos precisos, um caminho de streaming fornece dados rápidos e atualizados, e uma camada de disponibilização (serving) mescla os resultados. O design funciona, mas traz uma desvantagem bem conhecida. Manter dois pipelines significa código duplicado, lógica duplicada e o dobro de carga operacional.
A arquitetura Kappa simplifica a Lambda usando um único pipeline de streaming para tudo. Quando a análise histórica é necessária, o fluxo é reproduzido desde o início. A Kappa é ideal para equipes que desejam o frescor de dados do nível de streaming sem o custo de manter dois sistemas paralelos.
Arquitetura medalhão é um padrão popular em plataformas lakehouse que organiza os dados em três camadas de qualidade: Bronze (brutos, conforme ingeridos), Silver (limpos e padronizados) e Gold (curados, prontos para os negócios). Como diz a documentação da Databricks, “a arquitetura medalhão usa três camadas: bronze, silver e gold, cada uma servindo a um propósito distinto no pipeline”. Cada camada pode ser executada como seu próprio pipeline, o que facilita o agendamento, o monitoramento e a solução de problemas, pois os problemas permanecem isolados em uma única camada.
O ETL e o ELT diferem em quando os dados são transformados. O ETL (extrair, transformar, carregar) transforma os dados antes de carregá-los no armazenamento. O ELT (extrair, carregar, transformar) carrega os dados brutos primeiro e os transforma dentro do destino. Plataformas de nuvem modernas, como Databricks, Snowflake e BigQuery, tornaram o ELT o padrão dominante porque o armazenamento e a computação em nuvem agora são baratos e elásticos o suficiente para transformar dados in loco. Para uma comparação mais detalhada, consulte ETL vs. ELT.
| ETL | ELT | |
|---|---|---|
| Ordem | Extrair → Transformar → Carregar | Extrair → Carregar → Transformar |
| Onde ocorre a transformação | Em uma ferramenta de processamento separada, antes do armazenamento | Dentro do destino (lakehouse ou warehouse) |
| Caso de uso típico | Warehouses legados locais (on-premises), validação rigorosa pré-carregamento | Lakehouses e warehouses modernos em nuvem |
| Pontos fortes | Dados mais limpos chegam ao armazenamento. Esquemas previsíveis | Flexível, escalável, mantém os dados brutos disponíveis para reprocessamento |
| Desvantagens | Menos flexível. Mais difícil de reutilizar dados brutos posteriormente | Exige computação capaz no destino |
Não. O ETL é um tipo de pipeline de dados, mas nem todo pipeline de dados é ETL. Um pipeline de dados é a categoria ampla: qualquer sistema que move dados de um lugar para outro. O ETL é uma abordagem específica dentro dessa categoria, definida pela transformação dos dados antes que eles cheguem ao armazenamento. Os pipelines também podem ser ELT, streaming, apenas de replicação (movendo dados sem nenhuma transformação) ou ETL reverso (enviando dados do data warehouse de volta para os sistemas operacionais).
Estes 10 princípios de design diferenciam os pipelines que escalam daqueles que quebram.
A arquitetura de pipeline determina se as equipes podem confiar em seus dados, se as decisões são baseadas em informações atualizadas e se os projetos de IA e ML passam do protótipo para a produção. É a diferença entre uma plataforma de dados que gera valor continuamente e outra que apenas acumula chamados de suporte.
Uma arquitetura frágil gera custos reais: painéis desatualizados, métricas conflitantes, falhas em implantações de ML e engenheiros que passam mais tempo apagando incêndios do que desenvolvendo soluções. A abordagem moderna de lakehouse resolve a causa raiz. Ao unificar lote (batch) e streaming, análise de dados e IA, além de governança em uma única plataforma como a Plataforma Databricks, as equipes eliminam as transferências frágeis entre sistemas que costumam quebrar as arquiteturas tradicionais.
A Databricks oferece todas as camadas de arquitetura de pipeline em uma única plataforma. O Lakeflow Connect gerencia a ingestão a partir de bancos de dados, aplicativos SaaS, fontes de arquivos e fluxos de eventos. O Lakeflow Spark Declarative Pipelines cria pipelines de ETL em lote e streaming com verificações de qualidade de dados integradas, e o Lakeflow Jobs orquestra e agenda as execuções de pipelines em toda a plataforma. Por trás de tudo, o Delta Lake fornece o formato de armazenamento aberto junto com recursos de confiabilidade, como transações ACID e time travel, enquanto o Unity Catalog aplica governança, linhagem e controle de acesso em todas as etapas.
Como os pipelines de lote e streaming são executados no mesmo mecanismo e gravam no mesmo armazenamento, as equipes não precisam manter sistemas paralelos no estilo Lambda. Uma única definição de pipeline pode atender tanto ao relatório noturno quanto ao painel em tempo real.
É o plano de como os dados saem de onde são criados para onde são úteis. O plano abrange como os dados são coletados, limpos e preparados, onde são armazenados e como são entregues às pessoas e aplicativos que precisam deles.
A Lambda executa dois pipelines paralelos, um em lote (batch) e outro em streaming, e mescla seus resultados em uma camada de serviço. A Kappa usa um único pipeline de streaming para tudo e reproduz o fluxo novamente quando uma análise histórica é necessária. A Kappa é mais simples de operar, enquanto a Lambda persiste em ambientes onde os caminhos de lote e streaming evoluíram separadamente.
Use streaming quando o valor dos dados cai em questão de segundos ou minutos, como na detecção de fraudes, personalização em tempo real ou monitoramento de equipamentos. Use o processamento em lote para todo o resto, incluindo relatórios, análises históricas e dados de treinamento de ML. O processamento em lote é mais simples e barato, por isso é a escolha padrão mais sensata até que um caso de uso comprove a necessidade de dados em tempo real.
A arquitetura lógica define as etapas de um pipeline e o que cada uma faz, independentemente de qualquer ferramenta. A arquitetura física mapeia essas etapas em tecnologias e infraestruturas específicas. Geralmente, as equipes definem o design lógico primeiro e depois escolhem as plataformas que o implementarão.
A arquitetura de pipeline de dados é o design por trás de como os dados se movem e se tornam úteis. A arquitetura certa é aquela que equilibra a atualização dos dados, o custo e a confiabilidade para o trabalho específico em questão, seja um relatório de vendas noturno ou uma verificação de fraude executada em milissegundos.
(Esta publicação no blog foi traduzida utilizando ferramentas baseadas em inteligência artificial) Publicação original
Assine nosso blog e receba os posts mais recentes diretamente na sua caixa de entrada.