Direkt zum Hauptinhalt

Data Intelligence Platform

Unsere Sichtweise darauf, wie KI Datenplattformen grundlegend verändern wird und wie Daten die Unternehmens-KI verändern werden.

Data Intelligence Platforms

Die Erkenntnis, dass "Software die Welt aufisst", hat die moderne Tech-Industrie geprägt. Heute ist Software in unserem Leben allgegenwärtig, von den Uhren, die wir tragen, bis hin zu unseren Häusern, Autos, Fabriken und Bauernhöfen. Bei Databricks glauben wir, dass bald KI die gesamte Software fressen wird. Das heißt, die in den letzten Jahrzehnten entwickelte Software wird intelligent sein, Daten nutzen und dadurch wesentlich intelligenter werden. Die Auswirkungen sind enorm und vielfältig und betreffen alles vom Kundensupport über das Gesundheitswesen bis hin zum Bildungswesen.

In diesem Blogbeitrag erläutern wir unsere Sichtweise, wie KI Datenplattformen verändern wird. Wir argumentieren, dass die Auswirkungen von KI auf Datenplattformen nicht inkrementell, sondern fundamental sein werden: Der Zugang zu Daten wird massiv demokratisiert, die manuelle Verwaltung automatisiert und die schlüsselfertige Erstellung von benutzerdefinierten KI-Anwendungen ermöglicht. All dies wird durch eine neue Welle einheitlicher Plattformen ermöglicht, die die Daten eines Unternehmens tiefgehend verstehen. Wir nennen diese neue Generation von Systemen Data Intelligence Platforms.

Datenplattformen bisher und ihre Herausforderungen

Data Warehouses entstanden in den 1980er Jahren als eine Lösung zur Organisation strukturierter Geschäftsdaten in Unternehmen. Ab 2010 begannen Organisationen jedoch, eine signifikante Menge unstrukturierter Daten zu sammeln, um vielfältigere Anwendungsfälle wie KI zu unterstützen. Um dieses Problem zu lösen, wurden Data Lakes als offenes, skalierbares System für jede Art von Daten eingeführt. Ab 2015 wurde es für die meisten Organisationen üblich, sowohl Data Warehouses als auch Data Lakes zu betreiben. Dieser duale Plattformansatz brachte jedoch erhebliche Herausforderungen in den Bereichen Governance, Sicherheit, Zuverlässigkeit und Management mit sich.

Vor fünf Jahren leistete Databricks mit dem Konzept des Lakehouse Pionierarbeit, um das Beste aus beiden Welten zu kombinieren und zu vereinen. Lakehouses speichern und verwalten all Ihre Daten in offenen Formaten und unterstützen nativ Workloads von BI bis hin zu KI. Zum ersten Mal boten Lakehouses ein einheitliches System, um (1) alle Datenquellen in einem Unternehmen gemeinsam abzufragen und (2) alle Workloads, die Daten verwenden (BI, KI usw.), einheitlich zu steuern. Das Lakehouse wurde zu einer eigenen Kategorie von Datenplattformen und ist heute in Unternehmen weit verbreitet und in die Stacks der meisten Anbieter integriert.

Trotz der Fortschritte stehen alle aktuellen Datenplattformen auf dem Markt noch immer vor mehreren großen Herausforderungen:

  • Technische Kompetenzbarriere: Die Abfrage von Daten erfordert spezielle Kenntnisse in SQL, Python oder BI, was zu einer steilen Lernkurve führt.
  • Datenrichtigkeit und Kuratierung: In großen Unternehmen ist es eine Herausforderung, die richtigen und genauen Daten zu finden, was eine umfassende Kuratierung und Planung erfordert.
  • Management-Komplexität: Die Kosten für Datenplattformen können in die Höhe schießen und eine schlechte Performance aufweisen, wenn sie nicht von hochqualifiziertem Fachpersonal verwaltet werden.
  • Governance und Datenschutz: Governance-Anforderungen entwickeln sich weltweit rasant weiter und mit dem Aufkommen von KI werden die Bedenken hinsichtlich Herkunft, Sicherheit und Datenschutz verstärkt.
  • Neue KI-Anwendungen: Um generative KI-Anwendungen zu ermöglichen, die domänenspezifische Anfragen beantworten, müssen Unternehmen LLMs auf Plattformen entwickeln und feinabstimmen, die von ihren Daten getrennt sind, und sie durch manuelles Engineering mit ihren Daten verbinden.

Viele dieser Probleme entstehen, weil Datenplattformen die Daten in Unternehmen und ihre Verwendung nicht grundlegend verstehen. Glücklicherweise stellt die generative KI ein leistungsstarkes neues Werkzeug dar, um genau diese Herausforderungen zu bewältigen.

Der Kerngedanke hinter Data-Intelligence-Plattformen

Data Intelligence Platforms revolutionieren die Datenverwaltung, indem sie KI-Modelle einsetzen, um die Semantik von Unternehmensdaten tiefgreifend zu verstehen; wir nennen dies Data Intelligence. Sie bauen auf dem Fundament des Lakehouse auf – einem einheitlichen System zur Abfrage und Verwaltung aller Daten im gesamten Unternehmen –, analysieren aber automatisch sowohl die Daten (Inhalte und Metadaten) als auch deren Nutzung (Abfragen, Berichte, Lineage usw.), um neue Funktionen hinzuzufügen. Durch dieses tiefe Verständnis von Daten ermöglichen Data Intelligence Platforms:

  • Zugriff in natürlicher Sprache: Mithilfe von KI-Modellen ermöglichen DI-Plattformen die Arbeit mit Daten in natürlicher Sprache, zugeschnitten auf den Jargon und die Akronyme der jeweiligen Organisation. Die Plattform beobachtet, wie Daten in bestehenden Workloads verwendet werden, um die Begriffe des Unternehmens zu lernen, und bietet allen Benutzern – von Laien bis hin zu Data Engineers – eine maßgeschneiderte Schnittstelle für natürliche Sprache.
  • Semantische Katalogisierung und Erkennung: Generative KI kann das Datenmodell, die Metriken und KPIs jeder Organisation verstehen, um beispiellose Discovery-Features anzubieten oder automatisch Abweichungen in der Art und Weise zu erkennen, wie Daten genutzt werden.
  • Automatisierung der Datenverwaltung und -optimierung: Data-Intelligence-Modelle können das Datenlayout, die Partitionierung und die Indizierung auf Grundlage der Datennutzung optimieren und so den Bedarf an manueller Justierung und Konfiguration verringern.
  • Verbesserte Governance und Datenschutz: DI-Plattformen können den Missbrauch sensibler Daten automatisch erkennen, klassifizieren und verhindern und vereinfachen gleichzeitig die Verwaltung durch natürliche Sprache.
  • Erstklassige Unterstützung für KI-Workloads: DI Platformen können jede KI-Anwendung für Unternehmen verbessern, indem sie eine Verbindung zu den relevanten Geschäftsdaten herstellen und die von der DI Platform erlernte Semantik (Metriken, KPIs usw.) nutzen, um präzise Ergebnisse zu liefern. Entwickler von KI-Anwendungen müssen sich Intelligenz nicht mehr durch fehleranfälliges Prompt-Engineering "zusammenhacken".

Manche fragen sich vielleicht, wie sich dies von den Q&A-Funktionen in natürlicher Sprache unterscheidet, die BI-Tools in den letzten Jahren hinzugefügt haben. BI-Tools stellen nur einen kleinen (wenn auch wichtigen) Teil der gesamten Daten-Workloads dar und haben daher keinen Einblick in die große Mehrheit der stattfindenden Workloads oder die Herkunft und Nutzung der Daten, bevor diese die BI-Ebene erreichen. Ohne Einblick in diese Workloads können sie das notwendige tiefe semantische Verständnis nicht entwickeln. Daher haben diese Q&A-Funktionen in natürlicher Sprache noch keine breite Anwendung gefunden. Mit Datenintelligenz-Plattformen können BI-Tools die zugrundeliegenden KI-Modelle für eine viel umfangreichere Funktionalität nutzen. Wir glauben daher, dass diese Kernfunktionalität in Datenplattformen angesiedelt sein wird.

 

Databricks als Data-Intelligence-Plattform

Bei Databricks haben wir eine data intelligence platform auf der Grundlage des Data Lakehouse entwickelt und sind mit dem Hinzufügen einzelner Features immer begeisterter von den Möglichkeiten der KI in Datenplattformen geworden. Wir bauen auf den bestehenden einzigartigen Fähigkeiten des Databricks Lakehouse auf, das als einzige Datenplattform der Branche über (1) eine einheitliche Governance-Schicht für Daten und KI und (2) eine einzige einheitliche Query-Engine verfügt, die ETL, SQL, Machine Learning und BI umfasst. Darüber hinaus haben wir unsere Akquisition von MosaicML genutzt, um KI-Modelle in einer Data Intelligence Engine namens DatabricksIQ zu generieren, die alle Teile unserer Plattform antreibt.

DatabricksIQ durchdringt bereits viele der Schichten unseres aktuellen Stacks. Es wird verwendet für:

  • Nehmen Sie Feineinstellungen auf der gesamten Plattform vor, darunter die automatische Indizierung von Spalten, die Anordnung von Partitionen und die Stärkung der Grundlage des Lakehouse. Dies bietet unseren Kunden niedrigere TCO und eine bessere Performance.
  • Verbessern Sie die Governance im Unity Catalog (UC), indem Sie automatisch Beschreibungen und Tags für alle Daten-Assets im UC einfügen. Diese werden dann genutzt, um die gesamte Plattform mit Jargon, Akronymen, Metriken und Semantik vertraut zu machen. Dies ermöglicht eine bessere semantische Suche, eine bessere Qualität des KI-Assistenten und eine verbesserte Governance.
  • Verbesserte Generierung von Python und SQL in unserem KI-Assistenten, der sowohl Text-to-SQL als auch Text-to-Python unterstützt.
  • Beschleunigen Sie diese Queries erheblich, indem Sie Vorhersagen über die Daten in die Abfrageplanung in unserer Photon-Query-Engine einbeziehen.
  • Innerhalb von Delta-Live-Tables und Serverless-Jobs, um eine optimale Autoskalierung zu ermöglichen und die Kosten basierend auf Vorhersagen zur Workload zu minimieren.

Zuletzt, aber vielleicht noch wichtiger, glauben wir, dass Datenintelligenz-Plattformen die Entwicklung von KI-Anwendungen für Unternehmen erheblich vereinfachen werden. Wir integrieren DatabricksIQ direkt in unsere KI-Plattform Mosaic AI, um es Unternehmen zu erleichtern, KI-Anwendungen zu erstellen, die ihre Daten verstehen. Mosaic AI bietet jetzt mehrere Funktionen, um Unternehmensdaten direkt in KI-Systeme zu integrieren, darunter:

  • End-to-End-RAG (Retrieval-Augmented Generation) zum Erstellen hochwertiger Konversations-Agents für Ihre benutzerdefinierten Daten, unter Nutzung der Databricks Vektordatenbank als "Gedächtnis".
  • Training benutzerdefinierter Modelle, entweder von Grund auf auf den Daten eines Unternehmens oder durch fortgesetztes Pre-Training bestehender Modelle wie MPT und Llama 2, um KI-Anwendungen durch ein tiefes Verständnis einer Zieldomäne weiter zu verbessern.
  • Effiziente und sichere serverlose Inferenz auf Ihren Unternehmensdaten, angebunden an die Governance- und Qualitäts-Monitoring-Funktionalität von Unity Catalog.
  • End-to-End-MLOps basierend auf dem beliebten Open Source-Projekt MLflow, wobei alle erzeugten Daten im lakehouse automatisch nutzbar, nachverfolgt und überwachbar sind.

Übersicht

Wir glauben, dass KI die gesamte Software transformieren wird und Datenplattformen einer der Bereiche sind, der für Innovationen durch KI am reifsten ist. In der Vergangenheit waren Datenplattformen für Endbenutzer schwer zugänglich und für Datenteams schwierig zu verwalten und zu steuern. Data-Intelligence-Plattformen werden diese Landschaft verändern, indem sie diese beiden Herausforderungen direkt angehen – was die Abfrage, Verwaltung und Steuerung von Daten wesentlich vereinfacht. Außerdem wird ihr tiefes Verständnis von Daten und deren Nutzung eine Grundlage für Unternehmens-KI-Anwendungen sein, die auf diesen Daten operieren. Da KI die Softwarewelt neu gestaltet, glauben wir, dass die führenden Unternehmen jeder Branche diejenigen sein werden, die Daten und KI umfassend nutzen, um ihre Organisationen voranzutreiben. DI-Plattformen werden ein Eckpfeiler für diese Organisationen sein und es ihnen ermöglichen, die nächste Generation von Daten- und KI-Anwendungen mit Qualität, Geschwindigkeit und Agilität zu erstellen.

Databricks founders enjoying Thanksgiving together in 2013

 

(Dieser Blogbeitrag wurde mit KI-gestützten Tools übersetzt.) Originalbeitrag

Verpassen Sie keinen Beitrag von Databricks

Abonnieren Sie unseren Blog und erhalten Sie die neuesten Beiträge direkt in Ihren Posteingang.

Was kommt als Nächstes?

Introducing AI/BI: Intelligent Analytics for Real-World Data

Produto

June 12, 2024/11 min de leitura

Apresentando o AI/BI: analítica inteligente para dados do mundo real

DeepSeek R1 on Databricks

Anúncios

January 31, 2025/3 min de leitura

DeepSeek R1 no Databricks