Die Erkenntnis, dass "Software die Welt aufisst", hat die moderne Tech-Industrie geprägt. Heute ist Software in unserem Leben allgegenwärtig, von den Uhren, die wir tragen, bis hin zu unseren Häusern, Autos, Fabriken und Bauernhöfen. Bei Databricks glauben wir, dass bald KI die gesamte Software fressen wird. Das heißt, die in den letzten Jahrzehnten entwickelte Software wird intelligent sein, Daten nutzen und dadurch wesentlich intelligenter werden. Die Auswirkungen sind enorm und vielfältig und betreffen alles vom Kundensupport über das Gesundheitswesen bis hin zum Bildungswesen.
In diesem Blogbeitrag erläutern wir unsere Sichtweise, wie KI Datenplattformen verändern wird. Wir argumentieren, dass die Auswirkungen von KI auf Datenplattformen nicht inkrementell, sondern fundamental sein werden: Der Zugang zu Daten wird massiv demokratisiert, die manuelle Verwaltung automatisiert und die schlüsselfertige Erstellung von benutzerdefinierten KI-Anwendungen ermöglicht. All dies wird durch eine neue Welle einheitlicher Plattformen ermöglicht, die die Daten eines Unternehmens tiefgehend verstehen. Wir nennen diese neue Generation von Systemen Data Intelligence Platforms.
Datenplattformen bisher und ihre Herausforderungen
Data Warehouses entstanden in den 1980er Jahren als eine Lösung zur Organisation strukturierter Geschäftsdaten in Unternehmen. Ab 2010 begannen Organisationen jedoch, eine signifikante Menge unstrukturierter Daten zu sammeln, um vielfältigere Anwendungsfälle wie KI zu unterstützen. Um dieses Problem zu lösen, wurden Data Lakes als offenes, skalierbares System für jede Art von Daten eingeführt. Ab 2015 wurde es für die meisten Organisationen üblich, sowohl Data Warehouses als auch Data Lakes zu betreiben. Dieser duale Plattformansatz brachte jedoch erhebliche Herausforderungen in den Bereichen Governance, Sicherheit, Zuverlässigkeit und Management mit sich.
Vor fünf Jahren leistete Databricks mit dem Konzept des Lakehouse Pionierarbeit, um das Beste aus beiden Welten zu kombinieren und zu vereinen. Lakehouses speichern und verwalten all Ihre Daten in offenen Formaten und unterstützen nativ Workloads von BI bis hin zu KI. Zum ersten Mal boten Lakehouses ein einheitliches System, um (1) alle Datenquellen in einem Unternehmen gemeinsam abzufragen und (2) alle Workloads, die Daten verwenden (BI, KI usw.), einheitlich zu steuern. Das Lakehouse wurde zu einer eigenen Kategorie von Datenplattformen und ist heute in Unternehmen weit verbreitet und in die Stacks der meisten Anbieter integriert.
Trotz der Fortschritte stehen alle aktuellen Datenplattformen auf dem Markt noch immer vor mehreren großen Herausforderungen:
- Technische Kompetenzbarriere: Die Abfrage von Daten erfordert spezielle Kenntnisse in SQL, Python oder BI, was zu einer steilen Lernkurve führt.
- Datenrichtigkeit und Kuratierung: In großen Unternehmen ist es eine Herausforderung, die richtigen und genauen Daten zu finden, was eine umfassende Kuratierung und Planung erfordert.
- Management-Komplexität: Die Kosten für Datenplattformen können in die Höhe schießen und eine schlechte Performance aufweisen, wenn sie nicht von hochqualifiziertem Fachpersonal verwaltet werden.
- Governance und Datenschutz: Governance-Anforderungen entwickeln sich weltweit rasant weiter und mit dem Aufkommen von KI werden die Bedenken hinsichtlich Herkunft, Sicherheit und Datenschutz verstärkt.
- Neue KI-Anwendungen: Um generative KI-Anwendungen zu ermöglichen, die domänenspezifische Anfragen beantworten, müssen Unternehmen LLMs auf Plattformen entwickeln und feinabstimmen, die von ihren Daten getrennt sind, und sie durch manuelles Engineering mit ihren Daten verbinden.
Viele dieser Probleme entstehen, weil Datenplattformen die Daten in Unternehmen und ihre Verwendung nicht grundlegend verstehen. Glücklicherweise stellt die generative KI ein leistungsstarkes neues Werkzeug dar, um genau diese Herausforderungen zu bewältigen.
Der Kerngedanke hinter Data-Intelligence-Plattformen
Data Intelligence Platforms revolutionieren die Datenverwaltung, indem sie KI-Modelle einsetzen, um die Semantik von Unternehmensdaten tiefgreifend zu verstehen; wir nennen dies Data Intelligence. Sie bauen auf dem Fundament des Lakehouse auf – einem einheitlichen System zur Abfrage und Verwaltung aller Daten im gesamten Unternehmen –, analysieren aber automatisch sowohl die Daten (Inhalte und Metadaten) als auch deren Nutzung (Abfragen, Berichte, Lineage usw.), um neue Funktionen hinzuzufügen. Durch dieses tiefe Verständnis von Daten ermöglichen Data Intelligence Platforms:
- Zugriff in natürlicher Sprache: Mithilfe von KI-Modellen ermöglichen DI-Plattformen die Arbeit mit Daten in natürlicher Sprache, zugeschnitten auf den Jargon und die Akronyme der jeweiligen Organisation. Die Plattform beobachtet, wie Daten in bestehenden Workloads verwendet werden, um die Begriffe des Unternehmens zu lernen, und bietet allen Benutzern – von Laien bis hin zu Data Engineers – eine maßgeschneiderte Schnittstelle für natürliche Sprache.
- Semantische Katalogisierung und Erkennung: Generative KI kann das Datenmodell, die Metriken und KPIs jeder Organisation verstehen, um beispiellose Discovery-Features anzubieten oder automatisch Abweichungen in der Art und Weise zu erkennen, wie Daten genutzt werden.
- Automatisierung der Datenverwaltung und -optimierung: Data-Intelligence-Modelle können das Datenlayout, die Partitionierung und die Indizierung auf Grundlage der Datennutzung optimieren und so den Bedarf an manueller Justierung und Konfiguration verringern.
- Verbesserte Governance und Datenschutz: DI-Plattformen können den Missbrauch sensibler Daten automatisch erkennen, klassifizieren und verhindern und vereinfachen gleichzeitig die Verwaltung durch natürliche Sprache.
- Erstklassige Unterstützung für KI-Workloads: DI Platformen können jede KI-Anwendung für Unternehmen verbessern, indem sie eine Verbindung zu den relevanten Geschäftsdaten herstellen und die von der DI Platform erlernte Semantik (Metriken, KPIs usw.) nutzen, um präzise Ergebnisse zu liefern. Entwickler von KI-Anwendungen müssen sich Intelligenz nicht mehr durch fehleranfälliges Prompt-Engineering "zusammenhacken".
Manche fragen sich vielleicht, wie sich dies von den Q&A-Funktionen in natürlicher Sprache unterscheidet, die BI-Tools in den letzten Jahren hinzugefügt haben. BI-Tools stellen nur einen kleinen (wenn auch wichtigen) Teil der gesamten Daten-Workloads dar und haben daher keinen Einblick in die große Mehrheit der stattfindenden Workloads oder die Herkunft und Nutzung der Daten, bevor diese die BI-Ebene erreichen. Ohne Einblick in diese Workloads können sie das notwendige tiefe semantische Verständnis nicht entwickeln. Daher haben diese Q&A-Funktionen in natürlicher Sprache noch keine breite Anwendung gefunden. Mit Datenintelligenz-Plattformen können BI-Tools die zugrundeliegenden KI-Modelle für eine viel umfangreichere Funktionalität nutzen. Wir glauben daher, dass diese Kernfunktionalität in Datenplattformen angesiedelt sein wird.


