Databricks SQL ist jetzt allgemein auf AWS und Azure verfügbar.
Ursprünglich auf dem Data + AI Summit 2020 Europe angekündigt, ermöglicht Ihnen Databricks SQL den Betrieb einer Multi-Cloud- Lakehouse -Architektur, die Data-Warehousing-Performance zu den Kosten eines Data Lakes bietet. Unsere Vision ist es, Datenanalysten ein einfaches und dennoch ansprechendes Tool an die Hand zu geben, um mithilfe einer speziell entwickelten SQL-Benutzeroberfläche und erstklassigem Support für gängige BI-Tools Erkenntnisse aus ihrem Lakehouse zu gewinnen und zu teilen.
Dieser Blog ist der erste Teil einer Reihe über Databricks SQL, in der wir die Innovationen vorstellen, mit denen wir diese Vision verwirklichen: Leistung, Benutzerfreundlichkeit und Governance. Dieser Blog behandelt die neuesten Performanceoptimierungen in Databricks SQL für:
<a href="https://www.databricks.com/resources/ebook/rise-data-lakehouse?itm_data=performancedatabrickssql-blog-riselakehousebook" target="_blank">Erfahren Sie mit dem Vater des Data Warehouse, Bill Inmon, warum Lakehouses die Datenarchitektur der Zukunft sind</a>.</p><h2>Praxisnahe Performance über große Abfragen hinaus</h2><p>Die erste Version von Databricks SQL bot von Anfang an erhebliche Leistungsvorteile – ein bis zu 6-faches Preis-Leistungs-Verhältnis – im Vergleich zu herkömmlichen Cloud Data Warehouses, wie der nachstehende TPC-DS-Benchmark mit einer Scale von 30 TB zeigt. Angesichts der Tatsache, dass der TPC-DS ein von Data-Warehousing-Anbietern definierter Branchenstandard-Benchmark ist, sind wir auf diese Ergebnisse wirklich stolz.</p><figure><a href="https://www.databricks.com/wp-content/uploads/2021/08/sql-perf-blog-img-1.png" data-lightbox><img class="size-full wp-image-164737" style="width:512px;" src="https://www.databricks.com/wp-content/uploads/2021/08/sql-perf-blog-img-1.png" alt="Die erste Version von Databricks SQL bot im Vergleich zu herkömmlichen Cloud Data Warehouses erhebliche Leistungsvorteile – ein bis zu 6-faches Preis-Leistungs-Verhältnis – gemäß dem TPC-DS-Benchmark mit 30-TB-Skalierung." height="329"></a><p> 30 TB TPC-DS Preis/Performance (Niedriger ist besser)</p></figure><p>Obwohl dieser Benchmark große Abfragen wie ETL-Workloads oder tiefgehende Analyse-Workloads gut simuliert, deckt er nicht alles ab, was unsere Kunden ausführen. Deshalb haben wir in den letzten Monaten eng mit Hunderten von Kunden zusammengearbeitet, um eine schnelle und vorhersagbare Performance für praxisnahe Datenanalyse-Workloads und SQL-Datenabfragen zu bieten.</p><p>Da wir die Preview heute offiziell freigeben, freuen wir uns sehr, einige der bisher erzielten Ergebnisse und Performance-Steigerungen mit Ihnen zu teilen.</p><h2>Szenario 1: Hochgradig gleichzeitige Analysen-Workloads</h2><p>In der Zusammenarbeit mit Kunden haben wir festgestellt, dass hochgradig gleichzeitige Analyse-Workloads häufig auf kleinen Datensätzen ausgeführt werden. Intuitiv ergibt das Sinn – Analysten wenden in der Regel Filter an und neigen dazu, eher mit aktuellen als mit historischen Daten zu arbeiten. Wir haben uns entschieden, diesen häufigen Anwendungsfall zu beschleunigen. Um die Gleichzeitigkeit zu optimieren, haben wir denselben TPC-DS-Benchmark mit einem viel kleineren Skalierungsfaktor (10 GB) und 32 gleichzeitigen Streams verwendet. Wir haben also 32 Bots, die kontinuierlich Abfragen an das System senden, was tatsächlich eine viel größere Anzahl von echten Benutzern simuliert, da Bots zwischen der Ausführung von Abfragen keine Pausen einlegen.</p><p>Wir haben die Ergebnisse analysiert, um Engpässe zu identifizieren und zu beseitigen, und diesen Prozess mehrmals wiederholt. Hunderte Optimierungen später haben wir die Nebenläufigkeit um das Dreifache verbessert! Databricks SQL übertrifft jetzt einige der besten Cloud Data Warehouses sowohl bei großen Abfragen als auch bei kleinen Abfragen mit vielen Nutzern.</p><figure><a href="https://www.databricks.com/wp-content/uploads/2021/08/Databricks-SQL-Perf-Gain-Blog-img-2.png" data-lightbox><img class="size-large wp-image-163664" style="width:1024px;" src="https://www.databricks.com/wp-content/uploads/2021/08/Databricks-SQL-Perf-Gain-Blog-img-2-1024x588.png" alt="Databricks SQL übertrifft einige der besten Cloud-Data-Warehouses, nicht nur bei großen Abfragen, sondern auch bei kleinen Abfragen mit vielen Benutzern. " height="588"></a><figcaption>10 GB TPC-DS-Abfragen/Std. bei 32 gleichzeitigen Streams (je höher, desto besser)</figcaption></figure><h2>Szenario 2: Intelligentes Workload-Management</h2><p>Workloads aus der Praxis beschränken sich jedoch nicht nur auf große oder kleine Abfragen. Sie umfassen in der Regel eine Mischung aus kleinen und großen Abfragen. Daher müssen die Queuing- und Lastausgleichsfunktionen von Databricks SQL dies ebenfalls berücksichtigen. Deshalb verwendet Databricks SQL ein duales Warteschlangensystem, das kleine Abfragen gegenüber großen priorisiert, da Analysten in der Regel mehr Wert auf die Latenz von kurzen Abfragen als auf die von großen legen.</p><figure><a href="https://www.databricks.com/wp-content/uploads/2021/08/Databricks-SQL-Perf-Gain-Blog-img-3.png" data-lightbox><img class="size-full wp-image-163665" style="width:861px;" src="https://www.databricks.com/wp-content/uploads/2021/08/Databricks-SQL-Perf-Gain-Blog-img-3.png" alt="Databricks SQL verwendet ein duales Warteschlangensystem, das kleine Abfragen gegenüber großen priorisiert, da Analysten in der Regel mehr Wert auf die Latenz von kurzen Abfragen im Vergleich zu langen legen. " height="387"></a><p> Warteschlangen und Lastausgleich für gemischte Abfragen mit dualen Warteschlangen</p></figure><h2>Szenario 3: Hochgradig parallele Lesevorgänge</h2><p>Häufig bestehen einige Tabellen in einem lakehouse aus vielen Dateien, z. B. in Streaming-Szenarien wie dem IoT-Ingest, bei dem kontinuierlich Daten eintreffen. In Altsystemen kann die Ausführungs-Engine weitaus mehr Zeit mit dem Auflisten dieser Dateien verbringen als mit der eigentlichen Ausführung der Abfrage! Unsere Kunden haben uns auch mitgeteilt, dass sie für aktuellere Daten nicht auf Performance verzichten möchten.</p><p>Wir freuen uns, die Einbindung von asynchroner und hochgradig paralleler E/A in Databricks SQL bekannt zu geben. Wenn Sie eine Abfrage ausführen, liest Databricks automatisch die nächsten Datenblöcke aus dem Cloud-Speicher, während der aktuelle Block verarbeitet wird. Dies erhöht die allgemeine Abfrageperformance bei kleinen Dateien (um das 12-Fache für 1-MB-Dateien) sowie für Anwendungsfälle mit "Cold Data" (nicht zwischengespeicherten Daten) erheblich.</p><figure><a href="https://www.databricks.com/wp-content/uploads/2021/08/sql-perf-blog-img-2.png" data-lightbox><img class="size-full wp-image-164739" style="width:379px;" src="https://www.databricks.com/wp-content/uploads/2021/08/sql-perf-blog-img-2.png" alt="Databricks hat eine neue Scan-Technik entwickelt, die automatisch die nächsten Datenblöcke lesen kann, während der aktuelle Block verarbeitet wird, was die allgemeine Abfrageleistung bei kleinen Dateien erheblich steigert." height="304"></a><p>Benchmark für stark parallelisierte Lesevorgänge auf kleinen Dateien (# gescannte Zeilen/Sek.) (Höher ist besser)</p></figure><h2>Szenario 4: Verbesserung des Abrufs von BI-Ergebnissen mit Cloud Fetch</h2><p>Sobald die Abfrageergebnisse berechnet sind, besteht die letzte Meile darin, die Bereitstellung der Ergebnisse für den Client – in der Regel ein BI-Tool wie PowerBI oder Tableau – zu beschleunigen. Herkömmliche Cloud Data Warehouses sammeln die Ergebnisse oft auf einem Leader-Knoten (auch Driver-Knoten genannt) und streamen sie zurück an den Client. Dies verlangsamt die Arbeit in Ihrem BI-Tool erheblich, wenn Sie mehr als nur einige Megabyte an Ergebnissen abrufen.</p><p>Deshalb haben wir diesen Ansatz mit einer neuen Architektur namens <a href="https://www.databricks.com/blog/2021/08/11/how-we-achieved-high-bandwidth-connectivity-with-bi-tools.html">Cloud Fetch</a> neu konzipiert. Bei großen Ergebnissen schreibt Databricks SQL die Ergebnisse parallel über alle Rechenknoten hinweg in den Cloud-Speicher und sendet die Dateiliste dann über vorab signierte URLs an den Client zurück. Der Client kann dann alle Daten parallel aus dem Cloud-Speicher downloaden. Wir freuen uns, eine bis zu 10-fache Performance-Steigerung in realen Kundenszenarien bekannt geben zu können! Wir arbeiten mit den beliebtesten BI-Tools zusammen, um diese Funktion automatisch zu ermöglichen.</p><figure><a href="https://www.databricks.com/wp-content/uploads/2021/08/Databricks-SQL-Perf-Gain-Blog-img-4.jpg" data-lightbox><img class="size-full wp-image-163666" style="width:1000px;" src="https://www.databricks.com/wp-content/uploads/2021/08/Databricks-SQL-Perf-Gain-Blog-img-4.jpg" alt="Bei großen Ergebnissen schreibt der zugrunde liegende Cluster jetzt parallel über alle Rechenknoten hinweg in den Cloud-Speicher und sendet dann die Liste der Dateien mithilfe von vorab signierten URLs an den Client zurück." height="571"></a><figcaption>„Cloud Fetch ermöglicht eine schnellere Konnektivität mit höherer Bandbreite“</figcaption></figure><h2>Databricks SQL im Detail</h2><p>Dies sind nur einige Beispiele für Leistungsoptimierungen und Innovationen in Databricks SQL, die Ihnen eine erstklassige SQL-Performance auf Ihrem Data Lake bieten und gleichzeitig die Vorteile eines offenen Ansatzes beibehalten. Wie funktioniert das also?</p><figure><a href="https://www.databricks.com/wp-content/uploads/2021/08/Databricks-SQL-Perf-Gain-Blog-img-5.jpg" data-lightbox><img class="size-full wp-image-163667" style="width:1241px;" src="https://www.databricks.com/wp-content/uploads/2021/08/Databricks-SQL-Perf-Gain-Blog-img-5.jpg" alt="Databricks SQL Unter der Haube (Architektur)" height="615"></a><figcaption>Databricks SQL – Ein Blick unter die Haube</figcaption></figure><p>Open Source <a href="https://delta.io/">Delta Lake</a> ist die Grundlage für Databricks SQL. Es ist das offene Datenspeicherformat, das die besten Eigenschaften von Data Warehouse-Systemen in Data Lakes bringt, mit ACID-Transaktionen, Datenherkunft, Versionierung, <a href="https://www.databricks.com/blog/2021/05/26/introducing-delta-sharing-an-open-protocol-for-secure-data-sharing.html">Data Sharing</a> und so weiter, und das für strukturierte, unstrukturierte und semistrukturierte Daten gleichermaßen.</p><p>Das Herzstück von Databricks SQL ist <a href="https://www.databricks.com/product/photon">Photon</a>, eine neue native vektorisierte Engine auf Databricks, die entwickelt wurde, um SQL-Workloads schneller auszuführen. Lesen Sie unseren <a href="https://www.databricks.com/blog/2021/06/17/announcing-photon-public-preview-the-next-generation-query-engine-on-the-databricks-lakehouse-platform.html">Blog</a> und sehen Sie sich <a href="https://www.databricks.com/session_na21/radical-speed-for-sql-queries-on-databricks-photon-under-the-hood">Radical Speed for SQL Queries on Databricks: Photon Under the Hood</a> an, um mehr zu erfahren.</p><p>Und zu guter Letzt haben wir sehr eng mit einer großen Anzahl von Softwareanbietern zusammengearbeitet, um sicherzustellen, dass Datenteams – Analysten, Data Scientists und SQL-Entwickler – einfach die Tools ihrer Wahl auf Databricks SQL verwenden können. Wir haben die Verbindung, das Laden von Daten und die Authentifizierung per Single Sign On vereinfacht und gleichzeitig die Geschwindigkeit erhöht – dank der bereits erwähnten Performance-Verbesserungen bei Parallelität und kurzen Querys.</p><h2>Die nächsten Schritte</h2><p>Das ist erst der Anfang, denn wir planen, weiterhin zuzuhören und den Dienst um weitere Innovationen zu erweitern. Databricks SQL bietet bereits vielen Organisationen wie <a href="https://youtu.be/Xo1U617T-mU">Atlassian</a> oder <a href="https://www.databricks.com/session_na21/sql-analytics-powering-telemetry-analysis-at-comcast">Comcast</a> einen enormen Mehrwert, und wir freuen uns schon auf Ihr Feedback!</p><p>Wenn Sie bereits Databricks-Benutzer sind, können Sie Databricks SQL noch heute mit unserem „Erste Schritte“-Leitfaden für <a href="https://docs.microsoft.com/en-us/azure/databricks/scenarios/sql/">Azure Databricks</a> oder <a href="https://docs.databricks.com/sql/get-started/index.html">AWS</a> nutzen. Wenn Sie noch kein Databricks-Benutzer sind, besuchen Sie <a href="https://www.databricks.com/try-databricks">databricks.com/try-databricks</a>, um eine kostenlose Testversion zu starten.</p><p>Abschließend: Wenn Sie mehr über die Databricks Lakehouse-Plattform erfahren möchten, sehen Sie sich unser Webinar an – <a href="https://www.databricks.com/p/webinar/data-management-the-good-the-bad-the-ugly">Datenverwaltung, the good, the bad, the ugly</a>. Darüber hinaus bieten wir für die praktische Erfahrung ein Databricks SQL-Online- <a href="https://www.databricks.com/learn/training/home">Training</a> und personalisierte Workshops an. Wenden Sie sich an Ihren Vertriebsmitarbeiter, um mehr zu erfahren. Wir würden uns freuen zu hören, wie Sie Databricks SQL verwenden und wie wir BI und Datenanalyse in Ihrem Data Lake noch einfacher gestalten können.</p><p><strong>Sehen Sie sich unten die DAIS Keynote und Demo an.</strong></p><p><iframe allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen frameborder="0" height="315" src="https://www.youtube.com/embed/oz7XNx0YUw8" title="YouTube-Videoplayer" width="560"></iframe></p>
Produto
June 12, 2024/11 min de leitura
Produto
September 12, 2024/8 min de leitura


