Ir para o conteúdo principal

Data Engineering

Dezenas de milhões de cargas de trabalho produtivas são executadas diariamente no Databricks

Ingira e transforme facilmente dados em batch e streaming na Plataforma Databricks Lakehouse. Orquestre fluxos de trabalho de produção confiáveis enquanto a Databricks gerencia automaticamente sua infraestrutura em escala. Aumente a produtividade de suas equipes com testes de qualidade de dados integrados e suporte às melhores práticas de desenvolvimento de software.

Operate from First Principles

Unifique batch e streaming

Elimine silos em uma plataforma com uma API unificada para ingerir, transformar e processar dados em batch e streaming de forma incremental em escala.

Raise the Bar

Foque em extrair valor dos dados

A Databricks gerencia automaticamente sua infraestrutura e os componentes operacionais de seus fluxos de trabalho de produção para que você possa se concentrar no valor, não nas ferramentas.

We Put the Company First

Conecte suas ferramentas de escolha

Uma Plataforma Lakehouse aberta para se conectar e usar suas ferramentas preferidas de engenharia de dados para ingestão de dados, ETL/ELT e orquestração.

multicloud

Conte com a Plataforma Lakehouse

A Plataforma Lakehouse fornece a melhor fundação para construir e compartilhar ativos de dados confiáveis que são governados centralmente, confiáveis e extremamente rápidos.

"A Databricks está se tornando o recurso completo para todo o nosso trabalho de ETL. Quanto mais trabalhamos com a Plataforma Lakehouse, mais fácil é para os usuários e administradores."

— Hillevi Crognale, gerente de engenharia da YipitData

Como funciona?

demarketecture

Ingestão simplificada de dados

Processamento automatizado de ETL

Orquestração confiável de fluxos de trabalho

Monitoramento e observabilidade de ponta a ponta

Motor de processamento de dados de última geração

Fundação de governança, confiabilidade e desempenho

dataIngestion

Ingestão simplificada de dados

Consuma dados em sua Plataforma Lakehouse e potencialize suas análises, IA e aplicações de streaming de um só lugar. O Auto Loader processa de forma incremental e automática os arquivos que chegam ao armazenamento de nuvem, sem a necessidade de gerenciar informações de estado, em jobs programados ou contínuos. Ele rastreia com eficiência novos arquivos (escalando para bilhões) sem ter que listá-los em um diretório e também pode inferir automaticamente o esquema dos dados de origem e evoluí-lo conforme as mudanças ao longo do tempo. O comando COPY INTO facilita para analistas operarem a ingestão de arquivos em batch para o Delta Lake com SQL.

"Vimos um aumento de 40% na produtividade da engenharia de dados - reduzindo o tempo que leva para desenvolver novas idéias de dias para minutos e aumentando a disponibilidade e a precisão de nossos dados."
— Shaun Pearce, diretor de tecnologia, Gousto

automated-etl-processing

Processamento automatizado de ETL

Uma vez ingeridos, os dados brutos precisam ser transformados para que fiquem prontos para análise e IA. A Databricks fornece poderosos recursos ETL para times de engenharia, ciência e análise de dados com Delta Live Tables (DLT). DLT é a primeira estrutura que utiliza uma abordagem declarativa simples para construir pipelines ETL e ML em batch ou streaming de dados, enquanto automatiza complexidades operacionais tais como gerenciamento de infraestrutura, orquestração de tarefas, tratamento e recuperação de erros, e otimização de desempenho. Com as DLTs, a equipe de engenharia também pode tratar seus dados como código e aplicar as melhores práticas de engenharia de software como testes, monitoramento e documentação para criar pipelines confiáveis em escala.

reliable-workflow

Orquestração de fluxos de trabalho confiável

Os fluxos de trabalho Databricks são o serviço de orquestração totalmente gerenciado para todos os seus dados, análises e IA nativos da sua Plataforma Lakehouse. Organize cargas de trabalho diversas em todo o ciclo de vida, incluindo Delta Live Tables e Jobs para SQL, Spark, notebooks, dbt, modelos de ML e muito mais. A integração profunda com a Plataforma Lakehouse garante que você crie e execute cargas de trabalho de produção confiáveis em qualquer nuvem e, ao mesmo tempo, forneça monitoramento profundo e centralizado com simplicidade para usuários finais.

“Nossa missão é transformar a forma como alimentamos o planeta. Nossos clientes do setor de energia precisam de dados, consultoria e pesquisas para alcançar essa transformação. O Databricks Workflows nos dá a velocidade e a flexibilidade para fornecer os insights de que nossos clientes precisam.”

— Yanyan Wu, vice-presidente de dados, Wood Mackenzie

observability

Monitoramento e observabilidade de ponta a ponta

A Plataforma Lakehouse oferece visibilidade em todo o ciclo de vida de dados e IA para que equipes de engenharia de dados e de operações possam ver a integridade de seus fluxos de trabalho de produção em tempo real, gerenciar a qualidade dos dados e entender tendências históricas. Nos Fluxos de trabalho da Databricks, você pode acessar gráficos de fluxo de dados e painéis que rastreiam a integridade e o desempenho de seus jobs produção e pipelines de Delta Live Tables. Os logs de eventos também são expostos como tabelas do Delta Lake para que você possa monitorar e visualizar métricas de desempenho, qualidade dos dados e confiabilidade de qualquer ângulo.

next-generation

Motor de processamento de dados de última geração

A engenharia de dados da Databricks é alimentada pelo Photon, o motor de última geração compatível com as APIs do Apache Spark, oferecendo preço/desempenho recordes enquanto escala automaticamente para milhares de nós. O Spark Structured Streaming oferece uma API unificada para processamento em batch e stream, facilitando a adoção do streaming no lakehouse sem alterar o código ou aprender novas habilidades.

state-of-the-art

Governança, confiabilidade e desempenho de dados de última geração

A engenharia de dados na Databricks significa que você se beneficia dos componentes fundamentais da Plataforma Lakehouse — Unity Catalog e Delta Lake. Seus dados brutos são otimizados com o Delta Lake, um formato de armazenamento de código aberto que fornece confiabilidade por meio de transações ACID e tratamento escalável de metadados com desempenho extremamente rápido. Isso se combina com o Unity Catalog para oferecer uma governança granular para todos os seus dados e ativos de IA, simplificando a forma como você governa, com um modelo consistente para descobrir, acessar e compartilhar dados entre as nuvens. O Unity Catalog também fornece suporte nativo para Delta Sharing, o primeiro protocolo aberto da indústria para compartilhamento de dados fácil e seguro com outras organizações.

Migre para a Databricks

Não aguenta mais silos de dados, desempenho lento e altos custos associados a sistemas obsoletos, como Hadoop e os data warehouses corporativos? Migre para a Databricks Lakehouse: a plataforma moderna para todos os seus casos de uso de dados, análises e IA.

Migre para a Databricks

Integrações

Ofereça o máximo de flexibilidade às suas equipes de dados — aproveite o Partner Connect e um ecossistema de parceiros de tecnologia para se integrar perfeitamente a ferramentas populares de engenharia de dados. Por exemplo, você pode ingerir dados críticos de negócios com o Fivetran, transformá-los no lugar com dbt e orquestrar seus pipelines com o Apache Airflow.

Ingestão de dados e ETL

fivetran
dbt
arcion
matillion
informatica
confluent
qlikq
airbyte
prophecy
streamsets
alteryx
snaplogic

História de cliente

comcast
hsbc
laliga
atlassian
columbia
comcast
hsbc
laliga
atlassian
columbia
comcast

Descubra mais

Delta

Delta Lake

Partner Connect

Fluxos de trabalho

Unity

Delta Live Tables

icon-orange-Collaborative-min

Delta Sharing

Conteúdo relacionado