Data Engineering
Dezenas de milhões de cargas de trabalho produtivas são executadas diariamente no Databricks
Ingira e transforme facilmente dados em batch e streaming na Plataforma Databricks Lakehouse. Orquestre fluxos de trabalho de produção confiáveis enquanto a Databricks gerencia automaticamente sua infraestrutura em escala. Aumente a produtividade de suas equipes com testes de qualidade de dados integrados e suporte às melhores práticas de desenvolvimento de software.
Unifique batch e streaming
Elimine silos em uma plataforma com uma API unificada para ingerir, transformar e processar dados em batch e streaming de forma incremental em escala.
Foque em extrair valor dos dados
A Databricks gerencia automaticamente sua infraestrutura e os componentes operacionais de seus fluxos de trabalho de produção para que você possa se concentrar no valor, não nas ferramentas.
Conecte suas ferramentas de escolha
Uma Plataforma Lakehouse aberta para se conectar e usar suas ferramentas preferidas de engenharia de dados para ingestão de dados, ETL/ELT e orquestração.
Conte com a Plataforma Lakehouse
A Plataforma Lakehouse fornece a melhor fundação para construir e compartilhar ativos de dados confiáveis que são governados centralmente, confiáveis e extremamente rápidos.
"A Databricks está se tornando o recurso completo para todo o nosso trabalho de ETL. Quanto mais trabalhamos com a Plataforma Lakehouse, mais fácil é para os usuários e administradores."
Como funciona?
Ingestão simplificada de dados
Processamento automatizado de ETL
Orquestração confiável de fluxos de trabalho
Monitoramento e observabilidade de ponta a ponta
Motor de processamento de dados de última geração
Fundação de governança, confiabilidade e desempenho

Ingestão simplificada de dados
Consuma dados em sua Plataforma Lakehouse e potencialize suas análises, IA e aplicações de streaming de um só lugar. O Auto Loader processa de forma incremental e automática os arquivos que chegam ao armazenamento de nuvem, sem a necessidade de gerenciar informações de estado, em jobs programados ou contínuos. Ele rastreia com eficiência novos arquivos (escalando para bilhões) sem ter que listá-los em um diretório e também pode inferir automaticamente o esquema dos dados de origem e evoluí-lo conforme as mudanças ao longo do tempo. O comando COPY INTO facilita para analistas operarem a ingestão de arquivos em batch para o Delta Lake com SQL.
"Vimos um aumento de 40% na produtividade da engenharia de dados - reduzindo o tempo que leva para desenvolver novas idéias de dias para minutos e aumentando a disponibilidade e a precisão de nossos dados."
— Shaun Pearce, diretor de tecnologia, Gousto

Processamento automatizado de ETL
Uma vez ingeridos, os dados brutos precisam ser transformados para que fiquem prontos para análise e IA. A Databricks fornece poderosos recursos ETL para times de engenharia, ciência e análise de dados com Delta Live Tables (DLT). DLT é a primeira estrutura que utiliza uma abordagem declarativa simples para construir pipelines ETL e ML em batch ou streaming de dados, enquanto automatiza complexidades operacionais tais como gerenciamento de infraestrutura, orquestração de tarefas, tratamento e recuperação de erros, e otimização de desempenho. Com as DLTs, a equipe de engenharia também pode tratar seus dados como código e aplicar as melhores práticas de engenharia de software como testes, monitoramento e documentação para criar pipelines confiáveis em escala.

Orquestração de fluxos de trabalho confiável
Os fluxos de trabalho Databricks são o serviço de orquestração totalmente gerenciado para todos os seus dados, análises e IA nativos da sua Plataforma Lakehouse. Organize cargas de trabalho diversas em todo o ciclo de vida, incluindo Delta Live Tables e Jobs para SQL, Spark, notebooks, dbt, modelos de ML e muito mais. A integração profunda com a Plataforma Lakehouse garante que você crie e execute cargas de trabalho de produção confiáveis em qualquer nuvem e, ao mesmo tempo, forneça monitoramento profundo e centralizado com simplicidade para usuários finais.
“Nossa missão é transformar a forma como alimentamos o planeta. Nossos clientes do setor de energia precisam de dados, consultoria e pesquisas para alcançar essa transformação. O Databricks Workflows nos dá a velocidade e a flexibilidade para fornecer os insights de que nossos clientes precisam.”
— Yanyan Wu, vice-presidente de dados, Wood Mackenzie

Monitoramento e observabilidade de ponta a ponta
A Plataforma Lakehouse oferece visibilidade em todo o ciclo de vida de dados e IA para que equipes de engenharia de dados e de operações possam ver a integridade de seus fluxos de trabalho de produção em tempo real, gerenciar a qualidade dos dados e entender tendências históricas. Nos Fluxos de trabalho da Databricks, você pode acessar gráficos de fluxo de dados e painéis que rastreiam a integridade e o desempenho de seus jobs produção e pipelines de Delta Live Tables. Os logs de eventos também são expostos como tabelas do Delta Lake para que você possa monitorar e visualizar métricas de desempenho, qualidade dos dados e confiabilidade de qualquer ângulo.

Motor de processamento de dados de última geração
A engenharia de dados da Databricks é alimentada pelo Photon, o motor de última geração compatível com as APIs do Apache Spark, oferecendo preço/desempenho recordes enquanto escala automaticamente para milhares de nós. O Spark Structured Streaming oferece uma API unificada para processamento em batch e stream, facilitando a adoção do streaming no lakehouse sem alterar o código ou aprender novas habilidades.
Governança, confiabilidade e desempenho de dados de última geração
A engenharia de dados na Databricks significa que você se beneficia dos componentes fundamentais da Plataforma Lakehouse — Unity Catalog e Delta Lake. Seus dados brutos são otimizados com o Delta Lake, um formato de armazenamento de código aberto que fornece confiabilidade por meio de transações ACID e tratamento escalável de metadados com desempenho extremamente rápido. Isso se combina com o Unity Catalog para oferecer uma governança granular para todos os seus dados e ativos de IA, simplificando a forma como você governa, com um modelo consistente para descobrir, acessar e compartilhar dados entre as nuvens. O Unity Catalog também fornece suporte nativo para Delta Sharing, o primeiro protocolo aberto da indústria para compartilhamento de dados fácil e seguro com outras organizações.
Migre para a Databricks
Não aguenta mais silos de dados, desempenho lento e altos custos associados a sistemas obsoletos, como Hadoop e os data warehouses corporativos? Migre para a Databricks Lakehouse: a plataforma moderna para todos os seus casos de uso de dados, análises e IA.
Integrações
Ofereça o máximo de flexibilidade às suas equipes de dados — aproveite o Partner Connect e um ecossistema de parceiros de tecnologia para se integrar perfeitamente a ferramentas populares de engenharia de dados. Por exemplo, você pode ingerir dados críticos de negócios com o Fivetran, transformá-los no lugar com dbt e orquestrar seus pipelines com o Apache Airflow.
Ingestão de dados e ETL
+ qualquer outro cliente compatível com Apache Spark™