di Indrajit Roy
Databricks continua a guidare l'innovazione ingegneristica, spingendo costantemente i confini di ciò che è possibile nello spazio dei Dati e dell'IA. Siamo entusiasti di annunciare che il nostro lavoro su Spark Declarative Pipelines sarà presentato a SIGMOD 2026 e ha ricevuto una menzione d'onore alla conferenza. Ci recheremo a SIGMOD, dal 1 al 5 giugno, come sponsor Platino. SIGMOD si terrà a Bangalore, in India, che è anche un importante hub R&D di Databricks.
I nostri prossimi paper sull'ingegneria dei dati mostrano come Databricks ha semplificato l'elaborazione incrementale per i clienti. Ci sono due modi per scrivere programmi incrementali in Spark Declarative Pipelines (SDP), e i clienti possono combinarli all'interno di una pipeline:
Ecco un'anteprima del paper Enzyme e di ciò su cui il team ha lavorato:
Supponiamo che tu sia un analista in un'azienda e voglia analizzare il numero totale di ordini venduti in una regione. La vista materializzata qui sotto fornisce la risposta.
CREATE MATERIALIZED VIEW order_report as
SELECT region, sum(orders)
FROM customer_and_order_table
GROUP by region
Man mano che vengono aggiunti nuovi ordini, ti aspetti che la vista materializzata rimanga aggiornata. Questa manutenzione dei dati è essenzialmente il problema della manutenzione incrementale delle viste. Mentre mantenere aggiornata la MV di esempio sopra sembra semplice, immagina se la MV dovesse unire dati da più tabelle o avesse funzioni finestra o facesse chiamate a funzioni LLM.
Le viste materializzate (MV) sono popolari per l'accelerazione delle query – velocizzando i dashboard sui dati presenti nei data warehouse. Quando abbiamo creato Spark Declarative Pipelines, abbiamo deciso di andare oltre l'accelerazione delle query e applicare le viste materializzate ai casi d'uso extract-transform-load (ETL). La nostra osservazione chiave è che se le MV possono essere mantenute in modo efficiente e incrementale, ciò semplificherà notevolmente i carichi di lavoro ETL che altrimenti richiederebbero la scrittura di codice personalizzato complesso.
Enzyme si aggiunge alla ricca letteratura sulla manutenzione incrementale delle viste materializzate e dimostra come scalare queste tecniche su carichi di lavoro di produzione. Alcune delle innovazioni su cui il team ha lavorato sono:

Figura 1: Enzyme ha prestazioni significativamente migliori rispetto a un'altra soluzione industriale concorrente (nome anonimizzato a CV-IVM a causa di restrizioni di licenza).
Interessato a saperne di più? Dai un'occhiata al paper e se sei a SIGMOD, partecipa al nostro intervento per maggiori dettagli.
Fermati al nostro stand per incontrare il team e saperne di più sull'innovazione che sta avvenendo in Databricks. Inoltre, non perdere l'occasione di ascoltare direttamente da Ritwik Yadav, durante la sua presentazione a SIGMOD!
(Questo post sul blog è stato tradotto utilizzando strumenti basati sull'intelligenza artificiale) Post originale
Iscriviti al nostro blog e ricevi gli ultimi articoli direttamente nella tua casella di posta.