Direkt zum Hauptinhalt
Produkt

Neuerungen bei Databricks SQL

Einfacheres, schnelleres und kostengünstigeres Data Warehousing

von Gaurav Saraf und Kevin Clugage

Wir freuen uns, die neuesten Funktionen und Performance-Verbesserungen vorzustellen, die Databricks SQL einfacher, schneller und kostengünstiger als je zuvor machen. Mit heute über 7.000 Kunden, die Databricks SQL als ihr Data Warehouse nutzen, ist dies das am schnellsten wachsende Produkt in unserer Geschichte geworden!

Das beste Data Warehouse ist ein Lakehouse

Databricks SQL basiert auf der Lakehouse-Architektur. Wir haben diesen Ansatz Anfang 2020 ins Leben gerufen und Databricks SQL (DBSQL) als Teil der Databricks Data Intelligence Platform eingeführt. Wir haben vorhergesagt, dass eigenständige, separate Data Warehouses aufgrund ihrer hohen Kosten und proprietären Natur zu Altsystemen werden würden, und heute sehen wir deutliche Beweise dafür: Der MIT Technology Insights Report zeigt, dass 74 % der Unternehmen bereits die Lakehouse-Architektur eingeführt haben. Die vielen Lakehouse-basierten Datenplattformen, die diesen Unternehmen zur Verfügung stehen, wurden kürzlich im Forrester Wave for Data Lakehouses bewertet, der Databricks als Leader mit den höchsten Bewertungen sowohl in der Kategorie des aktuellen Angebots als auch der Strategie im Vergleich zu allen anderen auszeichnete!

Data Warehouse

In unseren Gesprächen mit Kunden zeigt sich, dass der Lakehouse-Vorteil auf zwei Dingen beruht: den geringeren Gesamtkosten und einer einheitlichen Plattform für AI und BI. Das Lakehouse ermöglicht es, eine einzige Kopie der Daten in einem offenen Format für alle Ihre AI- und BI-Workloads zu nutzen. Dadurch entfallen die Daten-Duplizierung und -Replikation, die erforderlich sind, um Daten zwischen mehreren Plattformen synchron zu halten, was die Kosten drastisch senkt und die Architektur vereinfacht.

AI-gestützte Performance: 4-fache Verbesserung

Letztes Jahr haben wir erklärt, dass der klassische Ansatz zur Systemperformance, der auf Heuristiken und Kostenoptimierern basiert, meistens falsch war! Obwohl diese Techniken die besten verfügbaren waren, hat die heutige Ära der AI einen völlig neuen Ansatz ermöglicht. Heute nutzen wir auf allen Ebenen unserer Plattform eine neue Generation von AI-Systemen, die die Verbesserung der Systemperformance auf ein neues Niveau gehoben haben. Diese AI-Systeme analysieren Ihre Workloads und verbessern Effizienz und Performance automatisch.

  • Liquid Clustering, jetzt GA, verwaltet das Layout Ihrer Daten, wählt automatisch den Clustering-Key aus und bietet die Flexibilität, Clustering-Keys ohne Daten-Umschreiben neu zu definieren! Dadurch kann sich Ihr Datenlayout im Laufe der Zeit parallel zu den analytischen Anforderungen entwickeln und ersetzt Tabellenpartitionierung sowie ZORDER, sodass Sie Ihr Datenlayout nicht mehr manuell optimieren müssen.
  • Predictive I/O, auch bekannt als „Indexless Indexing“, bietet Ihnen die Performance von Indizes, jedoch ohne dass Indizes erstellt oder aufwendig gepflegt werden müssen. Dank der Fortschritte in den Databricks-Systemen sind wir nun in der Lage, Modelle auszuführen und Feature-Vektoren einzugeben, deren Parameter um eine Größenordnung größer sind, ohne dass sich die Vorhersagelatenz spürbar erhöht. Dadurch kann Predictive I/O eine weitaus größere Bandbreite an Workloads unterstützen.
  • Intelligent Workload Management nutzt Machine-Learning-Modelle, um die Ressourcen von serverlosen SQL Warehouses so zu optimieren, dass hohe Nebenläufigkeit (High-Concurrency) bestmöglich unterstützt wird. Dies ist ideal für BI-Workloads in großem Umfang, wenn eine Vielzahl von Analysten und Abfragen gleichzeitig auf das Data Warehouse zugreifen. Intelligent Workload Management stellt sicher, dass diese Workloads schnell die richtige Menge an Ressourcen erhalten.
  • Predictive Optimization, jetzt GA, übernimmt automatisch die typischen Wartungsarbeiten für Tabellen, die zur Performance-Optimierung beitragen. Databricks identifiziert Tabellen, die von Wartungsarbeiten wie Clustering, Anpassung der Dateigröße und File-Vacuuming profitieren würden, und führt diese einfach für Sie aus – ganz ohne manuellen Aufwand.

Dies sind nur einige unserer integrierten AI-Systeme, und das Beste daran ist, dass Sie die Details ihrer Funktionsweise nicht kennen müssen – die Magie geschieht einfach automatisch. Angesichts der Zeit, die wir in diesen Bereich investieren, kann man wohl sagen, dass wir von Performance besessen sind, und im Laufe der Zeit sehen wir, was für einen Unterschied das macht. Wenn wir uns wiederkehrende Workloads unserer Kunden ansehen, hat sich die Performance für dieselben BI-Abfragen im Vergleich zu vor zwei Jahren um 73 % verbessert! Das ist 4-mal schneller!

AI-gestützte Performance

AI-Assistent für SQL-Analysten

Wir haben AI auch in unsere Benutzererfahrung einfließen lassen, wodurch Databricks SQL für SQL-Analysten einfacher zu bedienen und produktiver wird. Der Databricks AI-Assistent, der jetzt allgemein verfügbar ist, ist ein integrierter, kontextsensitiver AI-Assistent, der SQL-Analysten beim Erstellen, Bearbeiten und Debuggen von SQL unterstützt. Dieser Assistent basiert auf derselben Data-Intelligence-Engine in unserer Plattform, sodass er den einzigartigen Kontext Ihres Unternehmens versteht. Der Assistent wurde bei Databricks schnell angenommen, da er Abfragen hervorragend entwerfen oder Fehler für SQL-Analysten beheben kann, was unzählige Stunden spart und die Produktivität steigert.

AI-Assistent für SQL-Analysten

AI-Modelle direkt über SQL nutzen

Mit dem Aufkommen von GenAI- und ML-Modellen ist es keine Überraschung, dass SQL-Analysten immer häufiger direkt in SQL auf diese AI-Modelle zugreifen möchten. Genau aus diesem Grund haben wir letztes Jahr erstmals AI-Funktionen in Databricks SQL eingeführt, und verzeichnen seitdem eine rasche Akzeptanz. AI-Funktionen befinden sich jetzt in der Public Preview, und wir haben auch neue Funktionen wie die Vektorsuche hinzugefügt. AI-Funktionen abstrahieren die technischen Komplexitäten der Nutzung von LLMs, sodass Analysten und Data Scientists diese Modelle mühelos nutzen können, ohne sich um die zugrunde liegende Infrastruktur kümmern zu müssen.

  1. Die Funktion ai_query() ermöglicht es Ihnen, jedes AI-Modell über SQL abzufragen. Dies können GenAI-Modelle oder klassische ML-Modelle sein. Sie können sogar externe LLM-Modelle verwenden.

  2. Integrierte LLM-Funktionen
    Es gibt außerdem 9 neue GenAI-Funktionen, mit denen Sie unstrukturierten Text mit der Power von LLMs analysieren können. Zum Beispiel:

    Wichtige Informationen aus Text extrahieren, der in der Spalte einer Tabelle vorhanden ist:

    Bewertungskommentare eines Produkts basierend auf dem Inhalt klassifizieren:

    Sehen Sie alle 9 Funktionen hier

  3. AI Search: Die neue Vektorsuchfunktion ermöglicht es Ihnen, KNN-Suchen durchzuführen und einfaches Out-of-the-box-RAG zu nutzen! Dies verwendet das Produkt AI Search von Databricks. Durch die Kombination von Vektorsuchfunktionen und AI_query-Funktionen können SQL-Analysten jetzt problemlos komplexe Analysen durchführen. Beispielsweise kann man jetzt alle Tweets durchsuchen

  4. AI_Forecast: Eine neue integrierte Funktion zur Zeitreihenprognose, mit der Sie Metriken (z. B. Umsätze) schnell über SQL prognostizieren können, ohne ein benutzerdefiniertes ML-Modell erstellen zu müssen.

AI/BI: Eine neue Art von Business-Intelligence-Produkt (BI)

Mit dem Ziel, Erkenntnisse aus Daten wirklich zu demokratisieren, haben wir auch Databricks AI/BI eingeführt – ein Business-Intelligence-Produkt, das generative AI nutzt, um die Datensemantik tiefgehend zu verstehen und Self-Service-Datenanalysen für alle in Ihrer Organisation zu ermöglichen. Basierend auf einem Compound-AI-System nutzt AI/BI Erkenntnisse aus Ihrem gesamten Datenbestand, einschließlich Metadaten aus Unity Catalog, ETL-Pipelines, SQL-Abfragen und mehr. Es umfasst zwei Hauptkomponenten: AI/BI Dashboards, ein Low-Code-BI-Angebot zur schnellen Erstellung von Datenvisualisierungen und Dashboards, und Genie, eine dialogorientierte Schnittstelle für Ihre Daten, die kontinuierlich aus dem Feedback der Nutzenden lernt, um eine Vielzahl von realen geschäftlichen Fragen ohne Halluzinationen zu beantworten. Diese Innovationen verbessern die Self-Service-Analytik in Databricks SQL erheblich, sprechen einen größeren Kreis nicht-technischer Anwender an und gewährleisten gleichzeitig eine einheitliche Governance, Lineage-Tracking, sichere Freigabe und hohe Performance durch die Integration in Ihre Data Intelligence Platform.

Vollständiges End-to-End-Data-Warehousing mit Databricks SQL

Neben neuen AI-Funktionen haben wir auch eine Reihe von Kernfunktionen für SQL Warehouses eingeführt. Tausende von Kunden haben ihre bestehenden Data Warehouses zu DBSQL migriert. Um diese Migrationen zu ermöglichen, haben wir sichergestellt, dass DBSQL über alle Funktionen verfügt, um dieselben Data-Warehouse-Funktionen auf dem Lakehouse bereitzustellen:

  1. Materialized Views: Stellen Sie die Aktualität der Daten sicher, indem Sie MVs für Ihre Dashboards nutzen. Materialized Views werden automatisch aktualisiert, wenn die zugrunde liegenden Tabellen neue Daten enthalten, und nicht erst, wenn sie abgefragt werden.
  2. Nutzen Sie PK/FK-Constraints, um die Abfrageleistung zu optimieren. Durch die Verwendung von RELY können Abfragen beschleunigt werden, indem redundante Joins und Distinct-Aggregationen automatisch eliminiert werden.
  3. Variant ist ein neuer Datentyp für die Verarbeitung semistrukturierter Daten, der im Vergleich zur Speicherung von Daten als JSON-Strings eine erhebliche Leistungssteigerung bietet, während er gleichzeitig die Flexibilität bietet, stark verschachtelte und sich weiterentwickelnde Schemata zu unterstützen.
  4. Lateral Column Aliases erleichtern das Schreiben von SQL, da Sie sich auf einen zuvor in derselben Abfrage definierten Ausdruck beziehen und diesen wiederverwenden können. Dies kann dazu beitragen, Abfragen zu vereinfachen, indem unnötige CTEs oder Unterabfragen reduziert werden.
  5. Funktionen wie SQL-Variablen, benannte Argumente und Python-UDFs erleichtern es ebenfalls, Skripte direkt in Databricks SQL zu erstellen.

Und nicht zu vergessen: All dies funktioniert in einem hervorragenden, AI-gestützten SQL-Editor und einem integrierten Dashboard-Tool.

Zudem verfügen wir dank unserer großartigen Partner über ein reichhaltiges, offenes und integriertes Ökosystem Ihrer bevorzugten Daten- und AI-Tools wie Power BI, Tableau und dbt. Es ist fast sicher, dass die Tools, die Sie heute verwenden, bereits mit DBSQL funktionieren.

DBSQL

Erfahren Sie mehr und legen Sie mit Databricks SQL los

Um mehr über die neuesten Entwicklungen im Bereich Data Warehousing und Databricks SQL zu erfahren, sehen Sie sich die Data-Warehouse-Keynote vom Data + AI Summit sowie die zahlreichen Sessions aus dem Track für Data Warehousing, Analytics und BI an.

Wenn Sie Ihr bestehendes Warehouse in ein leistungsstarkes, serverloses Data Warehouse mit einer hervorragenden Benutzererfahrung und geringeren Gesamtkosten migrieren möchten, dann ist Databricks SQL die Lösung – testen Sie es kostenlos.

(Dieser Blogbeitrag wurde mit KI-gestützten Tools übersetzt.) Originalbeitrag

Erhalten Sie die neuesten Beiträge in Ihrem Posteingang

Abonnieren Sie unseren Blog und erhalten Sie die neuesten Beiträge direkt in Ihren Posteingang.