A fundação de dados unificada e em tempo real em que sua empresa pode confiar
por Bilal Aslam, Ray Zhu, Manish Dalwadi, Saad Ansari e Giselle Goicochea
Todas as análises, AI e aplicações começam com dados. Nas últimas décadas, as ferramentas de engenharia de dados se proliferaram em uma variedade de casos de uso e personas de usuários. O resultado é que a maioria das empresas acaba com uma pilha de dados muito complexa e fragmentada, difícil de integrar, manter ou governar. Com a AI impulsionando todos os dados e profissionais de AI, ainda mais pressão será colocada sobre essas pilhas de dados frágeis.
É por isso que decidimos criar o Databricks Lakeflow, uma plataforma unificada para toda a engenharia de dados, desde a ingestão até a transformação e orquestração. Todos os recursos do Lakeflow são totalmente integrados e controlados centralmente pelo Unity Catalog. Na era dos agentes, essa arquitetura unificada oferece vantagens significativas, permitindo que os agentes não apenas criem, mas também operem seus pipelines de dados. Hoje, no Data + AI Summit, estamos anunciando a próxima grande evolução do Databricks Lakeflow.

Genie Code agora está profundamente integrado a todos os aspectos da experiência do usuário do Lakeflow. Você pode usar o Genie Code para criar conectores de ingestão, criar pipelines em Python e SQL e desenvolver jobs com tarefas, gatilhos e dependências. Tudo isso é possível graças à pilha unificada de engenharia de dados, que fornece ao Genie Code um contexto completo de ponta a ponta em suas cargas de trabalho de ingestão, transformação e orquestração.
Agora disponível para o público geral, o Lakeflow Designer democratiza a engenharia de dados em toda a empresa. Esta interface visual, sem código e baseada em AI, capacita as equipes a criar pipelines usando uma tela de arrastar e soltar e prompts em linguagem natural. Analistas de negócios e usuários não técnicos podem criar pipelines de ETL prontos para produção sem escrever código. Cada Flow visual criado no Designer é executado nativamente em um Spark Declarative Pipeline pronto para produção, garantindo zero perda de tradução sem transferências complexas. Os engenheiros de dados podem revisar e refinar facilmente esse código diretamente no local, sem alternar de contexto ou reescrever a lógica.
Anunciado hoje, o Genie ZeroOps ajuda as equipes de dados a operar ativos de dados e AI em produção. O Genie ZeroOps é um agente de AI em segundo plano desenvolvido sob medida que monitora e gerencia ativos de dados e AI. O ZeroOps detecta falhas e realiza análises de causa raiz para identificar o que deu errado usando métricas de qualidade de dados, logs de erros e dados de linhagem do Unity Catalog. Além disso, ele gera propostas de correção e as valida em um ambiente de sandbox seguro e isolado, controlado pelo Unity Catalog. A aplicação de uma correção é feita com supervisão humana (human-in-the-loop), de modo que o Genie ZeroOps faz o trabalho pesado e você mantém o controle. Semelhante ao desenvolvimento baseado em agentes, a funcionalidade do Genie ZeroOps só é possível devido à total percepção de contexto e governança de ponta a ponta proporcionadas por uma pilha de dados unificada com o Lakeflow.
Os pipelines automatizados são tão valiosos quanto os dados que fluem por eles. Para criar uma "memória empresarial" completa e ancorar agentes de AI como o Databricks Genie, você precisa de acesso contínuo ao contexto governado mais recente que abrange todas as áreas do seu negócio. Lakeflow Connect simplifica esse processo ao ingerir incrementalmente dados novos de uma lista cada vez maior de sistemas empresariais diretamente em tabelas Delta controladas pelo Unity Catalog.
Hoje, estamos anunciando que o Lakeflow Connect está se expandindo para oferecer suporte a mais de 100 conectores nativos e gerenciados em aplicativos empresariais, bancos de dados, fontes de arquivos e armazenamento em nuvem. Agora você pode eliminar ferramentas de terceiros frágeis e executar pipelines de ingestão otimizados para os casos de uso que os clientes mais precisam:
Para organizações com sistemas especializados ou proprietários, os Community Connectors (Beta) fornecem uma solução de código aberto criada no Databricks. Implante um conector pré-construído da comunidade ou crie o seu próprio para compartilhar em sua organização ou no ecossistema mais amplo.
A Panasonic usou o Lakeflow Connect para unificar dados do SAP, Workday e SharePoint, substituindo o ETL legado e frágil por uma única plataforma para inteligência governada em tempo real.
“Ao mudar de uma pilha de ETL legada e rígida para a Databricks Platform, nossas equipes de BI agora podem descobrir e acessar facilmente dados críticos, reduzindo os tempos de atualização do Power BI em 50%. Estamos transformando dados externos e inconsistentes em ativos confiáveis e de nível de produção que revelam novos insights de negócios e fortalecem a vantagem competitiva da Panasonic.”—Jerry Deng, Diretor de BI, Panasonic
Também estamos facilitando para as organizações reduzirem permanentemente o TCO de ingestão de alto volume com o nível gratuito do Lakeflow Connect. Os clientes recebem automaticamente 100 DBUs gratuitas por dia, suportando até 100 milhões de registros diariamente em conectores populares de SaaS gerenciados e bancos de dados.
O Zerobus Ingest está mudando a forma como as organizações lidam com dados de eventos de alto volume, sem a necessidade de um barramento de mensagens. Com gravações quase em tempo real em menos de 5 segundos e alto rendimento de até 100 MB/s (mais de 10 GB/s por tabela), o Zerobus entrega dados diretamente para sua plataforma em escala.
No entanto, o desempenho só importa se seus produtores puderem se conectar sem atrito. Uma migração deve ser tão simples quanto uma alteração de configuração. Desde que alcançou a Disponibilidade Geral no início deste ano, o Zerobus se expandiu para atender aos seus produtores de dados onde eles já operam:
Essa flexibilidade de múltiplas interfaces fornece uma ponte direta e de baixa latência para a nuvem para empresas globais. Por exemplo, a Meta tem usado o Zerobus Ingest para conectar seus data centers locais à nuvem, permitindo o desenvolvimento rápido de soluções orientadas a dados em escala.
“Reduzimos a latência do nosso pipeline de ponta a ponta para menos de um minuto com o Zerobus Ingest e o Spark Declarative Pipelines, acelerando a geração de valor.”—Srikanth Sakhamuri, Líder de Engenharia de Dados, Meta
Assim que os dados chegam às tabelas Delta governadas pelo Unity Catalog, eles ficam instantaneamente acessíveis para ferramentas de AI e BI downstream, como o Databricks Genie. Como parte de uma pilha analítica em tempo real de ponta a ponta, o Zerobus ingere os dados e os processa usando o Modo em Tempo Real nos Pipelines Declarativos do Apache Spark™ (SDP), transforma-os, e o Lakehouse//RT, um novo tipo de data warehouse executado em um mecanismo nativo em tempo real, os serve com desempenho na escala de milissegundos.
Tradicionalmente, alcançar streaming de ultrabaixa latência forçava as equipes de dados a gerenciar arquiteturas complexas e fragmentadas, muitas vezes exigindo a manutenção de um segundo mecanismo especializado, como o Apache Flink, junto com o Spark. A Databricks resolveu inicialmente essa complexidade de dois mecanismos ao introduzir o Modo em Tempo Real (RTM) para o Spark Structured Streaming. Ao mudar de micro-lotes periódicos para processamento de fluxo contínuo, o RTM atualmente alimenta pipelines de marcas globais, incluindo Coinbase, DraftKings e MakeMyTrip.
Agora, estamos trazendo esse mesmo poder para o nosso produto de ETL unificado: o Modo em Tempo Real (RTM) para Spark Declarative Pipelines agora está em Public Preview. O RTM para SDP alcança latências de ponta a ponta de até 5 milissegundos, sem a complexidade e o custo de gerenciar mecanismos separados. Disponível em computação clássica e serverless, ele oferece streaming de ultrabaixa latência junto com os benefícios operacionais do Spark Declarative Pipelines: execução sem versão, atualizações automatizadas de infraestrutura e manutenção com tempo de inatividade mínimo ou zero.
Em seguida, estamos disponibilizando as APIs declarativas do Spark Declarative Pipelines — incluindo Append, Auto CDC, Replace Where incremental, e Materialized View — em toda a plataforma Databricks. Isso significa que os usuários podem aproveitar o processamento incremental de dados diretamente do produto, tipo de computação e interface de usuário que já conhecem. Todas essas APIs já estão disponíveis no Databricks SQL e estarão disponíveis em Notebooks serverless e no Lakeflow Designer nas próximas semanas.
A orquestração não deveria ser a parte mais desafiadora do gerenciamento do seu pipeline de dados. Quer você esteja executando DAGs de produção complexos, agendando ou acionando agentes de AI, o Lakeflow Jobs é o mecanismo de orquestração nativo da Databricks que lida com todas essas tarefas. Ao trazer orquestração gerenciada e observabilidade de ponta a ponta para cada camada do ciclo de vida dos dados, as equipes de dados estão consolidando orquestradores legados, como o Apache Airflow, em uma única plataforma unificada.
Cada agendamento cron é apenas uma estimativa de quando os dados estarão prontos. O Lakeflow Jobs permite que você pare de adivinhar e comece a acionar pipelines com base na prontidão real dos dados. Usando linguagem natural, você pode pedir ao Genie para escrever os gatilhos SQL que definem o que “pronto” significa para os seus dados. Seu job é executado assim que as condições são atendidas, respeitando seus contratos de dados e garantindo que você nunca processe dados desatualizados.
“Com o Lakeflow Jobs, conseguimos acessar dados que as tecnologias legadas não conseguiam alcançar, o que nos permitiu gerar insights de negócios mais profundos e confiáveis.”—Sachin Wadhwa, Diretor de Arquitetura e Plataformas de Dados, The Rank Group
Para clientes com fluxos de trabalho de dados fora do Databricks, o Lakeflow Jobs oferece a Orquestração Externa para estender nativamente seu alcance a sistemas externos, sem exigir que você reconstrua integrações do zero. Ao usar uma estrutura de operadores aberta, você pode acionar facilmente jobs do Snowflake, disparar APIs REST personalizadas ou gerenciar alertas do Slack e do PagerDuty. A computação é suspensa de forma inteligente enquanto aguarda condições externas que podem levar horas para ocorrer. Estamos publicando mais de 40 exemplos de operadores no GitHub e adicionando dezenas de integrações gerenciadas nos próximos trimestres. Além disso, todas as credenciais passam pelo Unity Catalog e possuem uma trilha de auditoria completa.
Lakeflow oferece a base de dados unificada de que você precisa para criar aplicações de AI confiáveis e baseadas em agentes. Para se aprofundar nas configurações técnicas e ver esses novos recursos em ação, explore nossos tutoriais práticos ou revise nossa documentação técnica para começar seu próximo projeto.
Pronto para criar? Experimente o Databricks gratuitamente para testar o Lakeflow hoje mesmo.
(Esta publicação no blog foi traduzida utilizando ferramentas baseadas em inteligência artificial) Publicação original
Assine nosso blog e receba os posts mais recentes diretamente na sua caixa de entrada.