Ir para o conteúdo principal

Ingestão de dados

Carregue facilmente seus dados no Delta Lake

Com a Databricks, você pode inserir dados de centenas de fontes de dados de forma incremental e eficiente em seu Delta Lake para garantir que o lakehouse sempre contenha os dados mais completos e atualizados disponíveis para data science, machine learning e análise de negócios.

Ingestão de dados simplificada

secondary icon

Auto Loader

Use o Auto Loader para ingerir qualquer arquivo que possa ser inserido em um data lake no Delta Lake. Ao apontar o Auto Loader para um diretório em serviços de armazenamento em nuvem, como Amazon S3, Azure Data Lake Storage ou Google Compute Storage, o Auto Loader processará incrementalmente novos arquivos com exatamente a mesma semântica.

graphic

Rastreamento e monitoramento

Conte com o Auto Loader para rastrear quais arquivos foram processados, descobrir dados atrasados, inferir seu esquema de dados, monitorar alterações de esquema ao longo do tempo e recuperar dados com problemas de qualidade. O Auto Loader pode ingerir dados continuamente em segundos ou ser programado para operar com base na frequência de chegada de dados, seja uma vez por hora, uma vez por dia ou uma vez por mês.

Icon Graphic

Copy into

O comando SQL COPY INTO permite fazer a ingestão de arquivos em batch no Delta Lake. COPY INTO é um comando que ingere arquivos com exatamente a mesma semântica, e é mais eficiente quando o diretório de entrada contém milhares de arquivos ou menos e o usuário prefere SQL. COPY INTO pode ser usado via JDBC para enviar dados para o Delta Lake conforme sua conveniência.

Data ingestion Delta Lake
Data ingestion - Data processing

Processamento de dados eficiente

Com a Databricks, você pode extrair dados de filas de mensagens populares, como Apache Kafka, Azure Event Hubs ou AWS Kinesis, com latências mais baixas. Ao ingerir seus dados dessas fontes no Delta Lake, você não precisa se preocupar com a perda de dados nesses serviços devido a políticas de retenção. Você pode reprocessar os dados de forma mais barata e eficiente à medida que os requisitos de negócios evoluem, e pode manter uma visão histórica mais longa dos seus dados para potencializar o machine learning e as aplicações de análise de negócios.

Unifique seus dados de outras aplicações empresariais

Aproveite uma vasta rede de ingestão de dados de parceiros como Azure Data Factory, Fivetran, Qlik, Infoworks, StreamSets e Syncsort para inserir facilmente dados de aplicações, armazenamentos de dados, mainframes, arquivos e muito mais no Delta Lake a partir de uma galeria de conectores fácil de usar. Use um ecossistema de parceiros para entender todo o potencial da combinação de big data e dados de aplicações, bancos de dados, mainframes e sistemas de arquivos baseados na nuvem.

Data ingestion network of partners

Ingestão de captura de dados de alteração de bancos de dados de aplicativos no Delta Lake

Sua empresa depende dos bancos de dados de seus aplicativos. Usá-los diretamente em casos de uso de análise de dados pode causar interrupções em suas aplicações de negócios devido ao excesso de carga no banco de dados. Ao replicar esses conjuntos de dados para seu lakehouse, você garante que suas aplicações de negócios possam operar sem interrupções à medida que aproveita as informações valiosas em seus casos de uso de análise. Você pode ingerir dados desses armazenamentos de dados aproveitando serviços como Azure Data Factory, AWS DMS e Auto Loader ou parceiros como Fivetran.

Clientes

Conteúdo relacionado

Webinar

2022-01-WB-Hassle-Free-Data-Ingestion-Webinar-Series-OG-1200x628-1

e-books

2021-08-EB-Data-Management-101-on-Databricks-OG-1200x628-1

e-books

2022-02-EB-All-Roads-Lead-to-the-Lakehouse-OG-1200x628-1