Seit 2022 hat Databricks SQL (DBSQL) Serverless eine Leistungssteigerung um das 5-fache über reale Kunden-Workloads hinweg erzielt – ein Dashboard, das zuvor 100 Sekunden dauerte, benötigt nun nur noch 20 Sekunden. Diese Beschleunigung wurde durch kontinuierliche Engine-Verbesserungen erreicht, die alle automatisch und ohne Performance-Tuning bereitgestellt wurden.

Heute legen wir noch eins drauf. Mit der Einführung von Predictive Query Execution und Photon Vectorized Shuffle werden Abfragen zusätzlich zu den bestehenden 5-fachen Gewinnen um bis zu 25 % schneller, wodurch sich die Dauer für das 20-Sekunden-Dashboard auf etwa 15 Sekunden reduziert. Diese neuen Engine-Verbesserungen werden automatisch für alle DBSQL Serverless Warehouses bereitgestellt, und das ohne zusätzliche Kosten.

Als es in Apache Spark eingeführt wurde, war Adaptive Query Execution (AQE) ein großer Fortschritt. Es ermöglichte Abfragen, sich basierend auf den tatsächlichen Datengrößen während der Ausführung neu zu planen. Es hatte jedoch eine wesentliche Einschränkung: Es konnte nur handeln, nachdem eine Abfrageausführungsphase abgeschlossen war. Diese Verzögerung bedeutete, dass Probleme wie Daten-Skew oder übermäßiges Spilling oft zu spät erkannt wurden.
Predictive Query Execution (PQE) ändert das. Es führt eine kontinuierliche Feedbackschleife innerhalb der Abfrage-Engine ein:

Das Ergebnis? Schnellere Abfragen, weniger Überraschungen und eine vorhersehbarere Leistung – insbesondere für komplexe Pipelines und gemischte Workloads.
Photon ist eine native C++-Engine, die Daten in spaltenbasierten Batches verarbeitet, vektorisiert, um moderne CPUs zu nutzen und SQL-Abfragen mehrmals schneller auszuführen. Shuffle-Operationen, die große Datensätze zwischen den Phasen umstrukturieren, gehören weiterhin zu den aufwendigsten Schritten bei der Abfrageverarbeitung.
Shuffle-Operationen sind historisch gesehen am schwierigsten zu optimieren, da sie viele zufällige Speicherzugriffe beinhalten. Es ist auch selten möglich, die Anzahl der zufälligen Zugriffe zu reduzieren, ohne die Daten neu zu schreiben. Die Kernidee, die wir hatten, war, dass wir anstatt die Anzahl der zufälligen Zugriffe zu reduzieren, den Abstand zwischen jedem zufälligen Speicherzugriff verringern könnten.
Dies führte dazu, dass wir das Shuffle von Photon von Grund auf mit spaltenbasiertem Shuffle für eine höhere Cache- und Speichereffizienz neu geschrieben haben.
Das Ergebnis ist eine Shuffle-Komponente, die Daten effizient bewegt, weniger Instruktionen ausführt und den Cache berücksichtigt. Mit dem neu optimierten Shuffle sehen wir eine 1,5-fach höhere Durchsatzrate bei CPU-gebundenen Workloads wie großen Joins.
Dieses Upgrade wird jetzt ausgerollt für alle DBSQL Serverless Warehouses – keine Aktion erforderlich.
Haben Sie DBSQL Serverless noch nicht ausprobiert? Jetzt ist der perfekte Zeitpunkt. Serverless ist der einfachste Weg, Analysen auf dem Lakehouse auszuführen:
Erstellen Sie einfach ein DBSQL Serverless Warehouse und beginnen Sie mit der Abfrage – kein Tuning erforderlich. Wenn Sie Databricks SQL noch nicht verwenden, lesen Sie mehr über das Aktivieren von Serverless SQL Warehouses.
(Dieser Blogbeitrag wurde mit KI-gestützten Tools übersetzt.) Originalbeitrag
