por Indrajit Roy
A Databricks continua na vanguarda da inovação em engenharia, expandindo constantemente os limites do que é possível no espaço de Dados e IA. Estamos empolgados em anunciar que nosso trabalho em Spark Declarative Pipelines será apresentado na SIGMOD 2026 e recebeu uma menção honrosa na conferência. Estaremos na SIGMOD, de 1 a 5 de junho, como Patrocinador Platina. A SIGMOD acontecerá em Bangalore, Índia, que também é um grande centro de P&D da Databricks.
Nossos próximos artigos sobre engenharia de dados mostram como a Databricks simplificou o processamento incremental para os clientes. Existem duas maneiras de escrever programas incrementais em Spark Declarative Pipelines (SDP), e os clientes podem combiná-las dentro de um pipeline:
Aqui está uma prévia do artigo do Enzyme e no que a equipe tem trabalhado:
Digamos que você seja um analista em uma empresa e queira analisar o número total de pedidos vendidos em uma região. A visualização materializada abaixo fornece a resposta.
CREATE MATERIALIZED VIEW order_report as
SELECT region, sum(orders)
FROM customer_and_order_table
GROUP by region
À medida que novos pedidos são adicionados, você espera que a visualização materializada permaneça atualizada. Essa manutenção de dados é essencialmente o problema de manutenção incremental de visualizações. Embora manter a MV de exemplo acima atualizada pareça simples, imagine se a MV precisasse juntar dados de várias tabelas, tivesse funções de janela ou fizesse chamadas para funções LLM.
Visualizações materializadas (MVs) são populares para aceleração de consultas – acelerando dashboards em dados residindo em data warehouses. Ao criar Spark Declarative Pipelines, decidimos ir além da aceleração de consultas e aplicar visualizações materializadas aos casos de uso de extração-transformação-carga (ETL). Nossa observação chave é que, se as MVs puderem ser mantidas de forma eficiente e incremental, isso simplificará significativamente os fluxos de trabalho de ETL, que de outra forma exigiriam a escrita de código personalizado complexo.
O Enzyme adiciona à rica literatura sobre manutenção incremental de visualizações materializadas e demonstra como escalar essas técnicas em cargas de trabalho de produção. Algumas das inovações em que a equipe trabalhou são:

Figura 1: O Enzyme tem um desempenho significativamente melhor do que outra solução concorrente da indústria (nome anonimizado para CV-IVM devido a restrições de licenciamento).
Interessado em saber mais? Confira o artigo e, se estiver na SIGMOD, participe da nossa palestra para mais detalhes.
Visite nosso estande para conhecer a equipe e saber mais sobre a inovação que está acontecendo na Databricks. Além disso, não perca a chance de ouvir diretamente de Ritwik Yadav, durante sua apresentação na SIGMOD!
(Esta publicação no blog foi traduzida utilizando ferramentas baseadas em inteligência artificial) Publicação original
Assine nosso blog e receba os posts mais recentes diretamente na sua caixa de entrada.