• Manuelle, regelbasierte Datenqualität skaliert nicht mit dem Wachstum von Datenbeständen für Analysen und KI.
• Die agentenbasierte Datenqualitäts-Monitoring lernt erwartete Datenmuster und erkennt Probleme in kritischen Datasets.
• Plattformnative Signale wie die Datenherkunft (Lineage) im Unity Catalog helfen Teams, Probleme auf Enterprise Scale schneller zu lösen.
Da Unternehmen immer mehr Daten- und KI-Produkte entwickeln, wird die Aufrechterhaltung der Datenqualität schwieriger. Daten sind die Grundlage für alles – von Dashboards für Führungskräfte bis hin zu unternehmensweiten Q&A-Bots. Eine veraltete Tabelle führt zu veralteten oder sogar falschen Antworten, was sich direkt auf die Geschäftsergebnisse auswirkt.
Die meisten Ansätze zur Datenqualität lassen sich nicht auf diese Realität skalieren. Datenteams verlassen sich auf manuell definierte Regeln, die auf eine kleine Anzahl von Tabellen angewendet werden. Mit dem Wachstum der Datenbestände entstehen blinde Flecken und die Sichtbarkeit des Gesamtzustands wird eingeschränkt.
Teams fügen kontinuierlich neue Tabellen hinzu, von denen jede ihre eigenen Datenmuster aufweist. Die Durchführung benutzerdefinierter Prüfungen für jedes Dataset ist nicht nachhaltig. In der Praxis wird nur eine Handvoll kritischer Tabellen überwacht, während der Großteil des Bestands ungeprüft bleibt.
Das Ergebnis ist, dass Unternehmen mehr Daten als je zuvor haben, aber weniger Vertrauen, diese zu nutzen.
Databricks gibt heute die Public Preview der Datenqualitätsüberwachung auf AWS, Azure Databricks und GCP bekannt.
Das Data Quality Monitoring ersetzt fragmentierte, manuelle Prüfungen durch einen agentenbasierten Ansatz, der auf Scale ausgelegt ist. Anstatt statischer Schwellenwerte lernen KI-Agenten normale Datenmuster, passen sich an Veränderungen an und überwachen den Datenbestand kontinuierlich.
Die tiefe Integration in die Databricks-Plattform ermöglicht mehr als nur die Erkennung.
Mit plattformnativem Monitoring erkennen Teams Probleme früher, konzentrieren sich auf das Wesentliche und beheben Probleme schneller im Enterprise Scale.
„Unser Ziel war es schon immer, dass unsere Daten uns mitteilen, wenn es ein Problem gibt. Databricks' Data Quality Monitoring schafft dies endlich durch seinen KI-gesteuerten Ansatz. Es ist nahtlos in die UI integriert und führt ein hands-off, konfigurationsfreies Monitoring aller unserer Tabellen durch, was bei anderen Produkten immer ein limitierender Faktor war. Anstatt dass Benutzer Probleme melden, weisen unsere Daten zuerst darauf hin, was die Qualität, das Vertrauen und die Integrität unserer Plattform verbessert.“ – Jake Roussis, leitender Data Engineer bei Alinta Energy
Das Data Quality Monitoring liefert durch zwei komplementäre Methoden umsetzbare Erkenntnisse.
Die auf Schemaebene aktivierte Anomalieerkennung überwacht alle kritischen Tabellen ohne manuelle Konfiguration. KI-Agenten lernen historische Muster und saisonales Verhalten, um unerwartete Änderungen zu erkennen.
Die auf Tabellenebene aktivierte Data-Profiing erfasst zusammenfassende Statistiken und verfolgt deren Änderungen im Laufe der Zeit. Diese Metriken liefern historischen Kontext und werden der Anomalieerkennung zur Verfügung gestellt, damit Sie Probleme leicht erkennen können.

„Bei OnePay ist es unsere Mission, Menschen zu finanziellem Fortschritt zu verhelfen, indem wir sie befähigen, ihr Geld zu sparen, auszugeben, zu leihen und zu vermehren. Qualitativ hochwertige Daten in all unseren Datasets sind für die Erfüllung dieser Mission von entscheidender Bedeutung. Mit der Datenqualitäts-Monitoring können wir Probleme frühzeitig erkennen und schnell handeln. Wir können die Genauigkeit unserer Analysen, Berichte und der Entwicklung robuster ML-Modelle sicherstellen, was alles dazu beiträgt, unsere Kunden besser zu bedienen.“ — Nameet Pai, Head of Platform & Data Engineering bei OnePay
Mit einem automatisierten Qualitäts-Monitoring können Datenplattformteams den Gesamtzustand ihrer Daten im Auge behalten und die rechtzeitige Behebung von Problemen sicherstellen.
Agentenbasierte Überwachung mit einem Klick: Überwachen Sie ganze Schemas ohne manuelle Regelerstellung und Threshold-Konfiguration. Die Datenqualitätsüberwachung lernt historische Muster und saisonale Verhaltensweisen (z. B. Volumenrückgänge am Wochenende, Steuersaison usw.), um Anomalien in all Ihren Tabellen intelligent zu erkennen.
Ganzheitliche Übersicht über die Datengesundheit: Verfolgen Sie einfach den Zustand aller Tabellen in einer konsolidierten Ansicht und stellen Sie sicher, dass Probleme behoben werden.

Zustandsindikator: Einheitliche Qualitätssignale werden von vorgelagerten Pipelines an nachgelagerte Geschäftsoberflächen weitergegeben. Data-Engineering-Teams werden zuerst über Probleme benachrichtigt und Nutzer können sofort erkennen, ob die Daten sicher verwendet werden können.

Das steht in den kommenden Monaten auf unserer Roadmap:
Erleben Sie intelligentes Monitoring im Scale und erstellen Sie eine vertrauenswürdige Self-Serve-Datenplattform. Testen Sie die Public Preview noch heute:
(Dieser Blogbeitrag wurde mit KI-gestützten Tools übersetzt.) Originalbeitrag
Produto
June 12, 2024/11 min de leitura

