par Indrajit Roy
Databricks continue de montrer la voie en matière d'innovation en ingénierie, repoussant constamment les limites de ce qui est possible dans l'espace des Données et de l'IA. Nous sommes ravis d'annoncer que notre travail sur Spark Declarative Pipelines sera présenté à SIGMOD 2026 et a reçu une mention honorable lors de la conférence. Nous nous rendons à SIGMOD, du 1er au 5 juin, en tant que sponsor Platine. SIGMOD aura lieu à Bangalore, en Inde, qui est également un important centre de R&D de Databricks.
Nos prochains articles sur l'ingénierie des données montrent comment Databricks a simplifié le traitement incrémental pour les clients. Il existe deux façons d'écrire des programmes incrémentaux dans Spark Declarative Pipelines (SDP), et les clients peuvent les mélanger et les assortir au sein d'un pipeline :
Voici un aperçu de l'article Enzyme et de ce sur quoi l'équipe a travaillé :
Supposons que vous soyez un analyste dans une entreprise et que vous souhaitiez analyser le nombre total de commandes vendues dans une région. La vue matérialisée ci-dessous fournit la réponse.
CREATE MATERIALIZED VIEW order_report as
SELECT region, sum(orders)
FROM customer_and_order_table
GROUP by region
À mesure que de nouvelles commandes sont ajoutées, vous vous attendez à ce que la vue matérialisée reste à jour. Cette maintenance des données est essentiellement le problème de la maintenance incrémentale des vues. Bien que la mise à jour de la MV jouet ci-dessus semble simple, imaginez si la MV devait joindre des données de plusieurs tables, avait des fonctions de fenêtre ou faisait des appels à des fonctions LLM.
Les vues matérialisées (MV) sont populaires pour l'accélération des requêtes - accélérant les tableaux de bord sur les données résidant dans les entrepôts de données. Lors de la création de Spark Declarative Pipelines, nous avons décidé d'aller au-delà de l'accélération des requêtes et d'appliquer les vues matérialisées aux cas d'utilisation ETL (extract-transform-load). Notre observation clé est que si les MV peuvent être maintenues efficacement et de manière incrémentale, cela simplifiera considérablement les charges de travail ETL qui, autrement, nécessiteraient l'écriture de code personnalisé complexe.
Enzyme s'ajoute à la riche littérature sur la maintenance incrémentale des vues matérialisées et démontre comment adapter ces techniques aux charges de travail de production. Voici quelques-unes des innovations sur lesquelles l'équipe a travaillé :

Figure 1 : Enzyme a des performances significativement meilleures qu'une autre solution industrielle concurrente (nom anonymisé en CV-IVM pour des raisons de restrictions de licence).
Vous souhaitez en savoir plus ? Consultez l'article et si vous êtes à SIGMOD, assistez à notre présentation pour plus de détails.
Passez à notre stand pour rencontrer l'équipe et en savoir plus sur l'innovation qui se déroule chez Databricks. De plus, ne manquez pas l'occasion d'entendre directement Ritwik Yadav lors de sa présentation à SIGMOD !
(Cet article de blog a été traduit à l'aide d'outils basés sur l'intelligence artificielle) Article original
Abonnez-vous à notre blog et recevez les derniers articles directement dans votre boîte mail.