von Indrajit Roy
Databricks ist weiterhin führend in der technischen Innovation und verschiebt konsequent die Grenzen des Möglichen im Bereich Daten und KI. Wir freuen uns, Ihnen mitteilen zu können, dass unsere Arbeit an Spark Declarative Pipelines auf der SIGMOD 2026 vorgestellt wird und auf der Konferenz eine lobende Erwähnung erhalten hat. Wir sind als Platin-Sponsor auf der SIGMOD vom 1. bis 5. Juni vertreten. Die SIGMOD findet in Bangalore, Indien, statt, einem großen Forschungs- und Entwicklungszentrum von Databricks.
Unsere bevorstehenden Veröffentlichungen zur Datenverarbeitung zeigen, wie Databricks die inkrementelle Verarbeitung für Kunden vereinfacht hat. Es gibt zwei Möglichkeiten, inkrementelle Programme in Spark Declarative Pipelines (SDP) zu schreiben, und Kunden können diese innerhalb einer Pipeline mischen und anpassen:
Hier ist ein erster Einblick in das Enzyme-Paper und woran das Team gearbeitet hat:
Nehmen wir an, Sie sind Analyst in einem Unternehmen und möchten die Gesamtzahl der in einer Region verkauften Bestellungen analysieren. Die unten stehende Materialized View liefert die Antwort.
CREATE MATERIALIZED VIEW order_report as
SELECT region, sum(orders)
FROM customer_and_order_table
GROUP by region
Wenn neue Bestellungen hinzugefügt werden, erwarten Sie, dass die Materialized View aktuell bleibt. Diese Datenpflege ist im Wesentlichen das Problem der inkrementellen View-Pflege. Während die Aktualisierung der obigen einfachen MV einfach erscheint, stellen Sie sich vor, die MV müsste Daten aus mehreren Tabellen verknüpfen, Fensterfunktionen enthalten oder Aufrufe von LLM-Funktionen tätigen.
Materialized Views (MVs) sind beliebt für die Abeschleunigung von Abfragen – sie beschleunigen Dashboards auf Daten in Data Warehouses. Bei der Erstellung von Spark Declarative Pipelines haben wir uns entschieden, über die Abeschleunigung von Abfragen hinauszugehen und Materialized Views für Extract-Transform-Load (ETL)-Anwendungsfälle zu verwenden. Unsere wichtigste Erkenntnis ist, dass, wenn MVs effizient und inkrementell gepflegt werden können, dies ETL-Workloads erheblich vereinfacht, die ansonsten das Schreiben komplexen benutzerdefinierten Codes erfordern würden.
Enzyme ergänzt die reiche Literatur zur inkrementellen Pflege von Materialized Views und zeigt, wie diese Techniken für Produktions-Workloads skaliert werden können. Einige der Innovationen, an denen das Team gearbeitet hat, sind:

Abbildung 1: Enzyme hat eine deutlich bessere Leistung als eine andere konkurrierende Branchenlösung (Name aufgrund von Lizenzbeschränkungen anonymisiert zu CV-IVM).
Möchten Sie mehr erfahren? Schauen Sie sich das Paper an und besuchen Sie unseren Vortrag auf der SIGMOD für weitere Details.
Besuchen Sie unseren Stand, um das Team zu treffen und mehr über die Innovationen bei Databricks zu erfahren. Verpassen Sie außerdem nicht die Gelegenheit, direkt von Ritwik Yadav während seines Vortrags auf der SIGMOD zu hören!
(Dieser Blogbeitrag wurde mit KI-gestützten Tools übersetzt.) Originalbeitrag
Abonnieren Sie unseren Blog und erhalten Sie die neuesten Beiträge direkt in Ihren Posteingang.