A ingestão de dados é a primeira etapa no ciclo de vida da engenharia de dados. Isso envolve a coleta de dados de diversas fontes, como bancos de dados, aplicativos SaaS, fontes de arquivos, APIs e dispositivos IoT em um repositório centralizado, como um data lake, data warehouse ou lakehouse. Isso permite que as organizações limpem e unifiquem os dados para aproveitar a analítica e a AI para a tomada de decisões data-driven.
Tradicionalmente, a ingestão de dados é realizada por meio de uma combinação de scripts personalizados, frameworks de código aberto, como Apache NiFi e Kafka, ou soluções de ingestão gerenciadas de provedores de nuvem, como AWS Glue, Google Cloud Dataflow e Azure Data Factory. Esses métodos geralmente exigem um esforço significativo de engenharia para serem mantidos, especialmente ao lidar com a evolução do esquema, a consistência dos dados e o processamento em tempo real em escala. Muitas empresas também dependem de ferramentas separadas de ingestão, transformação e orquestração, o que leva a uma maior complexidade e a silos de dados.
Ao contrário do ETL (extrair, transformar, carregar), que transforma os dados antes do carregamento, a ingestão de dados move os dados brutos diretamente para um destino, permitindo acesso e flexibilidade mais rápidos.
Os métodos de ingestão de dados variam conforme o caso de uso, permitindo a coleta de dados em lotes programados, fluxos contínuos ou um híbrido de ambos.
Estruturas de dados diferentes requerem técnicas específicas de ingestão e processamento:
As ferramentas de ingestão de dados variam de opções de código aberto, como Apache NiFi e Kafka, conhecidas pela flexibilidade e personalização, a plataformas comerciais, como a Databricks Data Intelligence Platform, que combina ingestão, transformação e orquestração em uma única plataforma.
Databricks Lakeflow é uma solução unificada e inteligente para engenharia de dados construída na Data Intelligence Platform. Abrange a ingestão, transformação de dados e orquestração de seus dados.
Como parte do Lakeflow, Lakeflow Connect oferece conectores para diversas fontes de dados, permitindo maneiras flexíveis, fáceis e eficientes de ingerir dados estruturados e não estruturados de aplicativos corporativos, fontes de arquivos e bancos de dados.
Lakeflow Connect permite a ingestão de dados de uma variedade de fontes de dados diferentes:
Ferramentas de ingestão eficazes simplificam o processamento de dados com recursos como:
As ferramentas de código aberto oferecem flexibilidade e controle, mas podem exigir mais configuração, tornando-as ideais para equipes técnicas. A Databricks combina fundamentos de código aberto com um extenso ecossistema de parceiros. A Databricks Data Intelligence Platform oferece ingestão gerenciada com governança e automação integradas, reduzindo custos operacionais e complexidade.
A ingestão de dados é geralmente a primeira etapa no processamento de dados, desde a coleta até a análise, levando a operações sequenciais adicionais. O principal objetivo da ingestão de dados é coletar dados brutos de várias fontes e transferir esses dados para um sistema de armazenamento como data lake, data warehouse ou lakehouse. A maioria das organizações requer etapas adicionais além da ingestão, pois os dados brutos precisam de refinamento adicional antes de se tornarem úteis para analítica e tomada de decisões. A ingestão de dados representa o processo de obtenção de múltiplas fontes de dados sem alterar o formato dos dados, com foco na alta velocidade e disponibilidade flexível de dados para permitir oportunidades de processamento adicionais.
A ingestão de dados traz dados brutos de várias fontes para um repository sem transformações, priorizando o acesso imediato aos dados não modificados.
ETL envolve a extração de dados, transformando-os para atender a requisitos específicos e carregando-os em um sistema de destino, com foco na preparação de dados para analítica. (Saiba mais sobre a diferença entre ETL e ELT.)
Pipelines de dados abrangem a sequência completa de movimentação de dados transformados para processamento. Um pipeline contém várias operações sucessivas além da ingestão de dados e ETL, como testes de validação, remoção de duplicatas, execução de algoritmos de machine learning e processamento de dados de transmissão.
A ingestão de dados é ideal para casos que requerem acesso rápido a dados brutos, suportando percepções quase em tempo real. ETL é adequado para situações que exigem dados preparados e estruturados para Business Intelligence e analítica, como relatórios padronizados. Pipelines de dados fornecem uma estrutura mais ampla para lidar com fluxos de trabalho complexos, integrando várias etapas em um processo coeso.
Em arquiteturas modernas, a ingestão de dados e o ETL frequentemente se complementam. Por exemplo, os dados podem ser inicialmente ingeridos em um lakehouse, onde os processos de ETL os preparam posteriormente para análises e relatórios mais aprofundados, enquanto um pipeline de dados mais amplo automatiza todo o fluxo de trabalho, da ingestão ao aprendizado de máquina e à análise. O Databricks Lakeflow integra esses processos, criando um fluxo de trabalho unificado para flexibilidade e gestão de dados abrangente.
O estabelecimento de práticas recomendadas fundamentais ajuda a garantir fluxos de trabalho de ingestão eficientes, confiáveis e bem governados:
Depois que os processos de ingestão são estabelecidos, a otimização contínua ajuda a se adaptar às necessidades comerciais em evolução e a gerenciar com eficiência os volumes crescentes de dados.
