12. Juni 2025

Databricks SQL beschleunigt Kunden-Workloads in nur drei Jahren um das 5-fache

Die heute angekündigten neuen Funktionen liefern automatisch weitere 25 % Leistungssteigerung

von Jeremy Lewallen, Shant Hovsepian und Mostafa Mokhtar

5-fache Leistungssteigerung für reale Kunden-Workloads seit 2022
Neue Version steigert die Leistung um weitere 25 % – automatisch, ohne Preisänderung
Predictive Query Execution liefert schnellere Abfragen mit einer kontinuierlichen Feedbackschleife innerhalb der Abfrage-Engine
Photon Vectorized Shuffle liefert 1,5-fach höheren Shuffle-Durchsatz

Seit 2022 hat Databricks SQL (DBSQL) Serverless eine Leistungssteigerung um das 5-fache über reale Kunden-Workloads hinweg erzielt – ein Dashboard, das zuvor 100 Sekunden dauerte, benötigt nun nur noch 20 Sekunden. Diese Beschleunigung wurde durch kontinuierliche Engine-Verbesserungen erreicht, die alle automatisch und ohne Performance-Tuning bereitgestellt wurden.

5-fache Leistungssteigerung DBSQL Serverless

Heute legen wir noch eins drauf. Mit der Einführung von Predictive Query Execution und Photon Vectorized Shuffle werden Abfragen zusätzlich zu den bestehenden 5-fachen Gewinnen um bis zu 25 % schneller, wodurch sich die Dauer für das 20-Sekunden-Dashboard auf etwa 15 Sekunden reduziert. Diese neuen Engine-Verbesserungen werden automatisch für alle DBSQL Serverless Warehouses bereitgestellt, und das ohne zusätzliche Kosten.

Leistungssteigerungen von 25 Prozent

Predictive Query Execution: Von reaktiver Wiederherstellung zu Echtzeitsteuerung

Als es in Apache Spark eingeführt wurde, war Adaptive Query Execution (AQE) ein großer Fortschritt. Es ermöglichte Abfragen, sich basierend auf den tatsächlichen Datengrößen während der Ausführung neu zu planen. Es hatte jedoch eine wesentliche Einschränkung: Es konnte nur handeln, nachdem eine Abfrageausführungsphase abgeschlossen war. Diese Verzögerung bedeutete, dass Probleme wie Daten-Skew oder übermäßiges Spilling oft zu spät erkannt wurden.

Predictive Query Execution (PQE) ändert das. Es führt eine kontinuierliche Feedbackschleife innerhalb der Abfrage-Engine ein:

Es überwacht laufende Tasks in Echtzeit und sammelt Metriken wie Spill-Größe und CPU-Auslastung.
Es entscheidet, ob eingegriffen werden soll, mit einem leichten, intelligenten System.
Bei Bedarf bricht PQE die Phase sofort ab und plant sie neu, vermeidet so verschwendete Arbeit und verbessert die Stabilität.

Grafik zu Leistungsverbesserungen

Das Ergebnis? Schnellere Abfragen, weniger Überraschungen und eine vorhersehbarere Leistung – insbesondere für komplexe Pipelines und gemischte Workloads.

Photon Vectorized Shuffle: Schnellere Abfragen, intelligenteres Design

Photon ist eine native C++-Engine, die Daten in spaltenbasierten Batches verarbeitet, vektorisiert, um moderne CPUs zu nutzen und SQL-Abfragen mehrmals schneller auszuführen. Shuffle-Operationen, die große Datensätze zwischen den Phasen umstrukturieren, gehören weiterhin zu den aufwendigsten Schritten bei der Abfrageverarbeitung.

Shuffle-Operationen sind historisch gesehen am schwierigsten zu optimieren, da sie viele zufällige Speicherzugriffe beinhalten. Es ist auch selten möglich, die Anzahl der zufälligen Zugriffe zu reduzieren, ohne die Daten neu zu schreiben. Die Kernidee, die wir hatten, war, dass wir anstatt die Anzahl der zufälligen Zugriffe zu reduzieren, den Abstand zwischen jedem zufälligen Speicherzugriff verringern könnten.

Dies führte dazu, dass wir das Shuffle von Photon von Grund auf mit spaltenbasiertem Shuffle für eine höhere Cache- und Speichereffizienz neu geschrieben haben.

Das Ergebnis ist eine Shuffle-Komponente, die Daten effizient bewegt, weniger Instruktionen ausführt und den Cache berücksichtigt. Mit dem neu optimierten Shuffle sehen wir eine 1,5-fach höhere Durchsatzrate bei CPU-gebundenen Workloads wie großen Joins.

Wichtige Erkenntnisse

Bis zu 25 % schnellere Abfragen – automatisch.
Interne TPC-DS-Benchmarks und reale Kunden-Workloads zeigen konsistente Latenzverbesserungen, ohne dass ein Tuning erforderlich ist.
Keine Konfiguration, kein erneutes Deployment – nur Ergebnisse.
Die Upgrades werden jetzt für alle DBSQL Serverless Warehouses ausgerollt. Sie müssen keine einzige Einstellung ändern.
Größte Gewinne bei CPU-gebundenen Workloads.
Pipelines mit vielen Joins oder Trichterlogik zeigen die dramatischsten Verbesserungen und verkürzen oft die Gesamtlaufzeit um Minuten.

Erste Schritte

Dieses Upgrade wird jetzt ausgerollt für alle DBSQL Serverless Warehouses – keine Aktion erforderlich.

Haben Sie DBSQL Serverless noch nicht ausprobiert? Jetzt ist der perfekte Zeitpunkt. Serverless ist der einfachste Weg, Analysen auf dem Lakehouse auszuführen:

Keine zu verwaltende Infrastruktur
Sofort elastisch
Optimiert für Leistung out-of-the-box

Erstellen Sie einfach ein DBSQL Serverless Warehouse und beginnen Sie mit der Abfrage – kein Tuning erforderlich. Wenn Sie Databricks SQL noch nicht verwenden, lesen Sie mehr über das Aktivieren von Serverless SQL Warehouses.

(Dieser Blogbeitrag wurde mit KI-gestützten Tools übersetzt.) Originalbeitrag

Erhalten Sie die neuesten Beiträge in Ihrem Posteingang

Abonnieren Sie unseren Blog und erhalten Sie die neuesten Beiträge direkt in Ihren Posteingang.

Alle Blogs anzeigen

Predictive Query Execution: Von reaktiver Wiederherstellung zu Echtzeitsteuerung

Photon Vectorized Shuffle: Schnellere Abfragen, intelligenteres Design

Wichtige Erkenntnisse

Erste Schritte

Erhalten Sie die neuesten Beiträge in Ihrem Posteingang

Sign up