Ir para o conteúdo principal

Delta Lake

Confiabilidade, segurança e desempenho para seu data lake

O que é Delta Lake?

Delta Lake é uma camada de armazenamento em formato aberto que oferece confiabilidade, segurança e desempenho ao seu data lake, para operações de streaming e em batch. Ao substituir os silos de dados por um único local dedicado a dados estruturados, semiestruturados e não estruturados, o Delta Lake é a base para um lakehouse econômico e altamente escalável.

Dados confiáveis e de alta qualidade

Uma única fonte confiável da verdade para todos os seus dados, incluindo streams em tempo real, . Suas equipes de dados sempre trabalharão com os dados mais atualizados. Com suporte para transações ACID e validação de esquema, o Delta Lake fornece a confiabilidade que falta aos data lakes tradicionais. Isso permite que você obtenha insights confiáveis em toda a organização e execute análises e outros projetos relacionados a dados diretamente em seu data lake, para ter insights até 50 vezes mais rápido.

Compartilhamento aberto e seguro de dados

O Delta Sharing é o primeiro protocolo aberto para compartilhamento seguro de dados. Ele facilita a troca de dados com outras organizações, independentemente de onde esses dados estejam. A integração nativa com o Unity Catalog permite gerenciar e auditar centralmente os dados compartilhados entre organizações. Ela também permite que você compartilhe com confiança ativos de dados com fornecedores e parceiros para uma melhor coordenação dos seus negócios, atendendo aos critérios de segurança e conformidade. As integrações com as principais ferramentas e plataformas facilitam ainda mais a visualização, query, enriquecimento e governança de dados compartilhados a partir das ferramentas de sua escolha.

Desempenho extremamente rápido

Alavancando o Apache Spark™, o Delta Lake oferece escalabilidade e velocidade impressionantes. Graças a recursos como indexação, que otimizam seu desempenho, o Delta Lake permite que seus usuários executem ETLs até 48 vezes mais rápido.

Aberto e ágil

Todos os dados no Delta Lake são armazenados no formato Apache Parquet aberto, podendo ser lidos por qualquer leitor compatível. As APIs são abertas e compatíveis com o Apache Spark. Com o Delta Lake na Databricks, você tem acesso a um grande ecossistema de código aberto e evita qualquer bloqueio de dados em formatos proprietários.

Data engineering automatizada e confiável

Simplifique sua engenharia de dados com Delta Live Tables, uma maneira fácil de criar e gerenciar facilmente pipelines de dados para obter dados novos e de alta qualidade no Delta Lake. As Delta Live Tables ajudam as equipes de data engineering a simplificar o desenvolvimento e o gerenciamento de ETL por meio da criação de pipelines declarativos, que aumentam a confiabilidade dos dados facilitam o estabelecimento de operações de produção em escala de nuvem, auxiliando na construção da fundação do lakehouse.

Segurança e governança em escala

O Delta Lake reduz o risco pois permite uma governança de dados com base em controles de acesso refinados, o que, tipicamente, não é possível em data lakes. Você pode atualizar com rapidez e precisão os dados em seu data lake para cumprir regulamentos como a GDPR e manter uma melhor governança de dados por meio de logs de auditoria. Esses recursos são integrados nativamente e aprimorados no Databricks como parte do Unity Catalog, o primeiro catálogo de dados multi-cloud para o Lakehouse.

Casos de uso

Delta Lake Use cases

BI nos seus dados

Forneça aos seus analistas novos dados em tempo real e obtenha insights imediatos sobre sua empresa graças às cargas de trabalho de Business Intelligence executadas diretamente no seu data lake. O Delta Lake permite que você aproveite uma arquitetura de lakehouse multi-cloud que oferece desempenho de armazenamento de dados com custos próximos do data lake para uma relação preço/desempenho até 6 vezes melhor para cargas de trabalho SQL do que data warehouses tradicionais em nuvem.

Saiba mais
Delta Lake Use cases

Unifique batch e streaming

Execute operações em batch e streaming em uma arquitetura simplificada, evitando sistemas complexos e redundantes e problemas operacionais. No Delta Lake, uma tabela é uma tabela em batch, mas também uma fonte de streaming e um coletor de dados. A ingestão de dados de streaming, o preenchimento histórico em batch e as queries interativas funcionam sem nenhum esforço extra, integrando-se diretamente ao Spark Structured Streaming.

Delta Lake Use cases

Atenda às necessidades regulatórias

O Delta Lake elimina desafios na ingestão de dados mal formados, a dificuldade na exclusão de dados por motivos de conformidade e os problemas na operação de captura de dados de alteração. Com suporte a transações ACID em seu data lake, o Delta Lake garante que todas as operações sejam totalmente bem-sucedidas ou canceladas para novas tentativas posteriores, sem exigir a criação de novos pipelines de dados. Além disso, o Delta Lake registra todas as transações anteriores em seu data lake, facilitando assim o acesso a versões anteriores de seus dados para atender de maneira confiável aos padrões de conformidade, como GDPR e CCPA.

Rede de ingestão de dados

Os conectores nativos facilitam a ingestão de dados no Delta Lake de forma rápida e confiável a partir de todos os seus armazenamentos de arquivos, aplicativos e bancos de dados.

Clientes

healthdirect

“A Databricks nos ajudou a diminuir nosso tempo de ida ao mercado, melhorar a utilização de analytics e de nossa operação para atender às novas demandas do setor de saúde.”
– Peter James, arquiteto-chefe, Healthdirect Australia

Saiba mais
Yipit Data

“Aproveitando o Databricks e o Delta Lake, já conseguimos democratizar os dados em escala e, ao mesmo tempo, reduzir o custo de execução de cargas de trabalho de produção em 60%. Isso nos poupou milhões de dólares.”
— Steve Pulec, diretor de tecnologia, YipitData

Saiba mais
Columbia

“O Delta Lake provê as transações ACID que simplificam as operações de pipeline para melhorar a confiabilidade e a consistência dos dados. Ao mesmo tempo, recursos como cache e indexação automática permitem acesso eficiente e de alto desempenho aos dados.”
— Lara Minor, gerente sênior de dados empresariais, Columbia Sportswear

Saiba mais
Viacom 18

“O Delta Lake criou uma abordagem simplificada para gerenciar pipelines de dados. Isso nos levou a reduzir custos operacionais e, ao mesmo tempo, acelerar a produção de insights e análises em nossos processos de data science.”
— Parijat Dey, vice-presidente assistente de transformação e tecnologia digital, Viacom18

Saiba mais