Direkt zum Hauptinhalt

Wir stellen vor: Predictive Optimization: Schnellere Abfragen, günstigerer Speicher, kein Aufwand

Predictive Optimization: Faster Queries, Cheaper Storage, No Sweat

Wir freuen uns, die Public Preview von Databricks Predictive Optimization anzukündigen. Diese Funktion optimiert intelligent die Datenlayouts Ihrer Tabellen für eine verbesserte Performance und Kosteneffizienz.

Prädiktive Optimierung nutzt Unity Catalog und Lakehouse AI, um die besten Optimierungen für Ihre Daten zu ermitteln, und führt diese Operationen dann auf einer speziell dafür entwickelten serverlosen Infrastruktur aus. Dies vereinfacht Ihren Weg zum Lakehouse erheblich und gibt Ihnen mehr Zeit, sich darauf zu konzentrieren, aus Ihren Daten einen geschäftlichen Nutzen zu ziehen.

Diese Funktion ist die neueste in einer langen Reihe von Databricks-Funktionen, die KI nutzen, um Aktionen basierend auf Ihren Daten und deren Zugriffsmustern vorausschauend durchzuführen. Zuvor haben wir Predictive I/O for reads und updates veröffentlicht, die diese Techniken bei der Ausführung von Lese- und Aktualisierungsabfragen anwenden. 

Herausforderungen

Lakehouse-Tabellen profitieren stark von Hintergrundoptimierungen, die ihre Datenlayouts verbessern. Dazu gehört die Kompaktierung von Dateien, um angemessene Dateigrößen zu gewährleisten, oder das Vacuum, um nicht benötigte Datendateien zu bereinigen. Eine richtige Optimierung verbessert die Performance erheblich und senkt gleichzeitig die Kosten.

Dies stellt für Data-Engineering-Teams jedoch eine ständige Herausforderung dar, denn sie müssen Folgendes herausfinden: 

  • Welche Optimierungen sollen ausgeführt werden?
  • Welche Tabellen sollten optimiert werden?
  • Wie oft sollen diese Optimierungen ausgeführt werden?

Da Lakehouse-Plattformen immer größer werden und zunehmend als Self-Service genutzt werden, ist es für Plattformteams praktisch unmöglich, diese Fragen effektiv zu beantworten. Ein wiederkehrendes Feedback unserer Kunden ist, dass sie mit der Optimierung der zahlreichen Tabellen, die aus all den neuen Geschäftsanwendungsfällen erstellt werden, nicht Schritt halten können.

Darüber hinaus müssen Teams, selbst wenn diese heiklen Fragen beantwortet sind, weiterhin den operativen Aufwand für das Scheduling und die Durchführung dieser Optimierungen bewältigen – z. B. das Scheduling von Jobs, die Diagnose von Fehlern und die Verwaltung der zugrunde liegenden Infrastruktur. 

So funktioniert die prädiktive Optimierung

Mit Predictive Optimization löst Databricks diese heiklen Probleme für Sie und gibt Ihnen wertvolle Zeit frei, um sich darauf zu konzentrieren, mit Ihren Daten einen geschäftlichen Mehrwert zu schaffen. Die prädiktive Optimierung kann mit einem einzigen Klick aktiviert werden. Danach übernimmt es die ganze schwere Arbeit.

Databricks ermittelt intelligent den besten Schedule für Optimierungen, führt diese Optimierungen aus und loggt ihre Auswirkungen zur einfachen Beobachtbarkeit in einer Systemtabelle.

Zuerst ermittelt Predictive Optimization intelligent, welche Optimierungen und wie oft deren Ausführung erfolgen soll. Unser KI-Modell berücksichtigt eine breite Palette von Eingaben, einschließlich der Nutzungsmuster Ihrer Tabellen sowie deren bestehendes Datenlayout und Leistungsmerkmale. Anschließend wird der ideale Optimierungs-Schedule ausgegeben, wobei die erwarteten Vorteile der Optimierung gegen die erwarteten compute-Kosten abgewogen werden. 

Sobald der Schedule generiert ist, führt Predictive Optimization diese Optimierungen automatisch auf der speziell entwickelten serverlessen Infrastruktur aus. Es startet automatisch die korrekte Anzahl von Maschinen in der richtigen Größe und stellt sicher, dass Optimierungs-Tasks für eine optimale Effizienz ordnungsgemäß per Bin-Packing zusammengefasst und geplant werden. 

Das gesamte System läuft End-to-End ohne manuelle Anpassung und Abstimmung und lernt im Laufe der Zeit aus der Nutzung Ihrer Organisation, wobei die für Ihre Organisation wichtigen Tabellen optimiert und die unwichtigen herabgestuft werden. Ihnen wird nur die Serverless-compute in Rechnung gestellt, die für die Durchführung der Optimierungen erforderlich ist. Standardmäßig werden alle Betriebe in einer Systemtabelle protokolliert, sodass Sie die Auswirkungen und Kosten der Betriebe einfach prüfen und nachvollziehen können.

Auswirkungen

In den letzten Monaten haben wir eine Reihe von Kunden in das Private-Preview-Programm für die Prädiktive Optimierung aufgenommen. Viele haben beobachtet, dass es den goldenen Mittelweg zwischen zwei gängigen Extremen findet:

Side-by-Side-Abbildungen zeigen die Abwägungen zwischen Abfrage-Performance und Kosten bei gar keiner Optimierung im Vergleich zu täglichen, manuellen Optimierungen.

Im einen Extremfall haben einige Organisationen noch keine komplexen Pipelines zur Tabellenoptimierung eingerichtet. Mit Predictive Optimization können sie sofort mit der Optimierung ihrer Tabellen beginnen, ohne den besten Optimierungszeitplan ermitteln oder die Infrastruktur verwalten zu müssen.

Im anderen Extrem investieren einige Organisationen möglicherweise zu viel in die Optimierung. Für ein Team, das seine Optimierungs-Pipelines automatisiert, ist es beispielsweise verlockend, stündliche oder tägliche OPTIMIZE- oder VACUUM-Jobs auszuführen. Allerdings besteht bei diesen das Risiko sinkender Erträge. Könnten die gleichen Performance-Steigerungen mit weniger Optimierungsvorgängen erzielt werden? 

Predictive Optimization hilft dabei, die richtige Balance zu finden und stellt sicher, dass Optimierungen nur bei einer hohen Kapitalrendite (Return on Investment) in Ausführung gebracht werden:

Vergleichs-Graphen zeigen, dass Predictive Optimization sowohl bei der Abfrage-Performance als auch bei den Kosten die richtige Balance findet und nur Optimierungen mit hohem Return on Investment durchführt.

Als konkretes Beispiel hat das Data-Engineering-Team bei Anker Predictive Optimization aktiviert und schnell diese Vorteile realisiert: 

 

Anker-Firmenlogo2-fache Abfragebeschleunigung

50 % Reduzierung der jährlichen Speicherkosten

Graph der jährlichen Speicherkosten im Zeitverlauf

„Die Predictive Optimizations von Databricks haben unseren Unity Catalog-Speicher intelligent optimiert. Wir sparen dadurch 50 % der jährlichen Speicherkosten ein und konnten gleichzeitig unsere Abfragegeschwindigkeit mehr als verdoppeln. Das System hat gelernt, unsere größten und am häufigsten abgerufenen Tabellen zu priorisieren. Und vor allem hat es das alles automatisch gemacht, was unserem Team wertvolle Zeit sparte.“

– Shu Li, Leiter Data Engineering, Anker

Erste Schritte

Ab heute ist Predictive Optimization in der Public Preview verfügbar. Die Aktivierung sollte weniger als fünf Minuten dauern. Als Kontoadministrator gehen Sie einfach zur Kontokonsole > Einstellungen > Feature-Aktivierung tab, und aktivieren Sie die Einstellung „Predictive Optimization“:

Legen Sie das Feld „Predictive Optimization“ unter Accountkonsole > Einstellungen > Feature-Aktivierung fest.


Mit nur einem Klick nutzen Sie die Leistung KI-optimierter Datenlayouts für Ihre von Unity Catalog verwalteten Tabellen, wodurch Ihre Daten schneller und kostengünstiger werden. Weitere Informationen finden Sie in der Dokumentation.

Und das ist erst der Start. In den kommenden Monaten werden wir dieser Funktion weitere Optimierungen hinzufügen. Bleiben Sie dran für viel mehr.
 

 

(Dieser Blogbeitrag wurde mit KI-gestützten Tools übersetzt.) Originalbeitrag

Verpassen Sie keinen Beitrag von Databricks

Abonnieren Sie unseren Blog und erhalten Sie die neuesten Beiträge direkt in Ihren Posteingang.

Was kommt als Nächstes?

Introducing AI/BI: Intelligent Analytics for Real-World Data

Produto

June 12, 2024/11 min de leitura

Apresentando o AI/BI: analítica inteligente para dados do mundo real

DeepSeek R1 on Databricks

Anúncios

January 31, 2025/3 min de leitura

DeepSeek R1 no Databricks