In den meisten Unternehmen wächst die Erwartung, dass jeder in der Lage sein sollte, seinen Daten in einfachem Englisch Fragen zu stellen und sofort genaue Antworten zu erhalten. Große Sprachmodelle sind nicht allein für diesen Zweck konzipiert; sie verstehen keine internen Akronyme, benutzerdefinierten Metriken oder wie Geschäftseinheiten zueinander in Beziehung stehen. Ohne diesen Kontext können selbst einfache Fragen zu irreführenden Ergebnissen führen.
Die Implementierung von Best Practices für Self-Service-Analytics verändert die Art und Weise, wie Unternehmen Daten abfragen. Databricks AI/BI Genie schließt diese Lücke, indem es Sprachmodelle mit verwalteten Daten und expliziter Konfiguration auf der Databricks-Plattform kombiniert. Ein Genie Space ist der Ort, an dem Sie die Logik, das Vokabular und die Regeln Ihrer Organisation kodieren, sodass Fragen in natürlicher Sprache in korrekte Abfragen aufgelöst werden.
Für den Aufbau eines zuverlässigen Genie Space ist mehr erforderlich, als nur eine KI auf eine Datenbank zu richten. Es erfordert eine sorgfältige Vorbereitung in den Bereichen Datenmodellierung, Metadaten und laufende Validierung. Dieser Leitfaden bietet einen praktischen Schritt-für-Schritt-Ansatz, um diese Arbeit auf skalierbare Weise durchzuführen.
Die Qualität eines Genie Space hängt stark von der Qualität der zugrunde liegenden Daten ab. Wenn die Daten bereits kuratiert und konsistent sind, wird Genies Job einfacher, schneller und genauer. Das Ziel ist es, kuratierte Daten bereitzustellen, denen ein menschlicher Analyst ohne zusätzliche Bereinigung vertrauen würde.
Metrikenansichten spielen eine entscheidende Rolle bei der Durchsetzung konsistenter Definitionen über Teams hinweg. Sie ermöglichen es Ihnen, gemeinsame Geschäftslogik wie z. B. Umsatz- oder Berechnungen aktiver Benutzer an einem Ort zu kodieren. Genie übernimmt diese Definitionen automatisch, was garantiert, dass jede Abfrage auf derselben genehmigten Logik beruht. Dies beseitigt Mehrdeutigkeiten und gewährleistet eine einzige Quelle der Wahrheit.
Bevor Sie Metadaten oder SQL-Beispiele konfigurieren, müssen Sie festlegen, wie Erfolg aussieht. Ein Genie Space sollte Fragen nicht nur beantworten, sondern sie auch korrekt, konsistent und im erwarteten Format beantworten. Benchmarks machen dies messbar.
Durch die Verwendung des Benchmarking-Tools können Sie Ihre gängigen Abfragen in einem automatisierten Prozess erneut ausführen. Dies bietet ein konsistentes und wiederholbares System zur Bewertung des Zustands Ihres Genie Space in jeder Phase, sodass Sie den Fortschritt messen und Regressionen schnell erkennen können.
Mit einer soliden Datengrundlage müssen Sie Genie nun den spezifischen Kontext und die Regeln Ihrer Organisation beibringen. Dies umfasst drei verschiedene Konfigurationsebenen: die Anreicherung von Metadaten, die Definition von Beziehungen und die Kodifizierung von SQL-Mustern.
created_at oder status vage ist, fügen Sie eine Beschreibung hinzu, um genau anzugeben, was er darstellt (z. B. "Der Zeitstempel, wann die Bestellung aufgegeben wurde, in UTC").Allgemeine Anweisungen bieten einen allgemeinen Kontext, sollten aber sparsam verwendet werden. Sie sind weniger präzise als Metadaten oder SQL-Beispiele und sollten niemals verwendet werden, um eine fehlende Konfiguration an anderer Stelle auszugleichen.
Prüfen Sie vor dem Hinzufügen einer allgemeinen Anweisung, ob das Problem durch Tabellenbeschreibungen, Feldmetadaten, Joins, Beispielwerte oder Beispielabfragen gelöst werden kann. Verwenden Sie allgemeine Anweisungen nur dann, wenn keines der spezifischen Tools anwendbar ist.
Effektive Anweisungen beschreiben den geschäftlichen Kontext in einfacher Sprache. Sie erklären wichtige Entitäten, Lebenszyklen und Beziehungen, ohne ein bestimmtes SQL-Verhalten vorzugeben. Vermeiden Sie Anweisungen, die eine Tabellenauswahl erzwingen, Filter hartcodieren oder die Ausgabeformatierung festlegen.
Verwenden Sie die nachstehende Entscheidungsmatrix, um häufige Probleme zu diagnostizieren. Bevor Sie eine allgemeine Anweisung hinzufügen, überprüfen Sie, ob Sie die Lücke mit den primären Konfigurationstools geschlossen haben:
| Identifizierter Lückenbereich/Problem | Erstes zu prüfendes und zu änderndes Feature |
|---|---|
| Genie verwendet nicht die richtige Tabelle. | Tabellenbeschreibungen: Haben Sie klar erklärt, wofür jede Tabelle dient und wann sie verwendet werden sollte? |
| Genie verwendet nicht das richtige Feld für einen Filter, eine Aggregation oder eine Berechnung. | Feldbeschreibungen & Synonyme: Verfügt das Feld über eindeutige Synonyme für die Begriffe der Organisation? Ist sein Zweck gut beschrieben? |
| Genie kann die Eingabe eines Nutzers keinem bestimmten Wert in den Daten zuordnen (z. B. die Zuordnung von "Australia" zu "AUS"). | Beispielwerte/Werteverzeichnisse: Sind diese Features für die relevanten Felder aktiviert, um Genie Kontext zum Inhalt der Spalte zu geben? |
| Genie erstellt falsche Joins oder kann Tabellen nicht verknüpfen. | Tab „Joins“: Haben Sie die Beziehung und ihre Kardinalität (z. B. Eins-zu-Viele) explizit definiert? |
| Die Abfragelogik ist falsch oder das Ausgabeformat (ausgewählte Spalten, Aliase) ist nicht korrekt. | Beispiel-SQL-Abfragen: Haben Sie ein vollständiges, korrektes Beispiel für die Query bereitgestellt, von dem Genie als Vorlage lernen kann? |
| Eine Kernberechnung muss immer auf eine bestimmte, unveränderliche Weise durchgeführt werden. | SQL-Funktionen (UDFs): Haben Sie diese Logik in einer Funktion gekapselt, um sicherzustellen, dass sie immer korrekt und konsistent angewendet wird? |
Dieser Abschnitt ist Ihre Gelegenheit, mit Genie in allgemeinen, konzeptionellen Begriffen zu sprechen.
Die effektivsten allgemeinen Anweisungen bieten eine übergeordnete, für Menschen lesbare Beschreibung des gesamten organisatorischen Kontexts. Stellen Sie es sich so vor, als würden Sie eine Zusammenfassung für die Führungskräfte oder eine Einsatzbesprechung für den Genie Space schreiben. Hier erklären Sie den Zweck der Daten, definieren die Schlüsselentitäten und beschreiben in einfachen Worten, wie sie zueinander in Beziehung stehen.
Dieser Kontext soll Genie zu den richtigen Verhaltensmustern anleiten, ohne spezifische SQL-Befehle vorzugeben. Er füllt die konzeptionellen Lücken, die nach der Verwendung aller spezifischeren Tools noch vorhanden sind.
Hier ist ein Vergleichsbeispiel für eine allgemeine Anweisung, die den Rahmen für einen Cashback- und Transaktionsdatensatz vorgibt:
| Gute allgemeine Anweisungen | Schlechte allgemeine Anweisungen | |
|---|---|---|
Dies umfasst die Analyse von Transaktionen und Cashback-Prämien, die Verbraucher für Einkäufe bei relevanten Händlern erhalten.Kunden erhalten Cashback auf ihre Einkäufe, wenn sie bei bestimmten Anbietern einkaufen. Ein einzelner Kunde kann mehrere Einkäufe bei mehreren Anbietern tätigen. Ein Kunde hat zugehörige Account- und demografische Informationen. Ein Kunde muss auf der Plattform akzeptiert werden, um Cashback auf seine Einkäufe zu erhalten.Ein Händler hat eine zugehörige Branche und eine Basis-Cashback-Rate. Ein einzelner Händler kann mehrere Kunden haben, von denen jeder mehrere Einkäufe tätigt.Eine Transaktion hat zugehörige Kauf- und interne Verarbeitungsfortschrittsinformationen. Eine Transaktion wechselt von „ausstehend“ zu entweder „abgelehnt“ oder „genehmigt“. Jede einzelne Transaktion hat einen einzigen zugehörigen Kunden und Anbieter. | ** CRITICAL: ALWAYS JOIN LOWER(merchants.id) = LOWER(transactions.merchant_id) **1ACRONYMS:MAU: Monthly active users AU: Activated usersCB: Cash back2If rejected is not specified as a condition, please only use approved. similar for accepted.3Use these fiscal quarter range definitions for dates q1: July–September (E.g., fy-2024 q1 = Jul–Sep 2023) q2: October–December (E.g., fy-2024 q2 = Oct–Dec 2023) q3: January–March (E.g., fy-2024 q3 = Jan–Mar 2024) q4: April–June (E.g., fy-2024 q4 = Apr–Jun 2024)4For cash back percent, this is defined as sum(cash_back) / sum(purchase_amount)5Always exclude merchants.status = ‘deactivated’6 | 1Dieser Join sollte im Abschnitt „Joins“ und nicht in den allgemeinen Anweisungen behandelt werden. Die Schlüssel-Join-Bedingung sollte während der Datenmodellierung festgelegt werden.2Akronyme sollten in die Feldbeschreibungen und Synonyme aufgenommen werden, wo sie relevant sind. Diese hier haben auch keinen Kontext, auf was sie sich beziehen oder was sie darstellen.3Es ist nicht klar, für welche Spalten diese Regeln gelten oder unter welchen Bedingungen. Sie wären mit ziemlicher Sicherheit besser dran, wenn sie vollständig als Metriken überarbeitet oder zumindest in den Spaltenbeschreibungen selbst angegeben würden.4Dies sollten stattdessen Engineered Fields in den zugrunde liegenden Daten sein, um jegliche Mehrdeutigkeit oder Verantwortlichkeit aus den generierten Abfragen zu entfernen. Dies wäre ein gut geeigneter Anwendungsfall für eine Dimension in einer Metrikansicht.5Diese sollten als Measures in einer Metrikansicht angegeben werden. Zumindest sollten diese als Beispielabfragen abgedeckt werden.6Dieser Ausschluss sollte auf der Data-Engineering-Ebene erfolgen, anstatt als eine Bedingung, die immer zu generierten Abfragen hinzugefügt wird. |
Ineffektive Anweisungen versuchen, den job eines spezifischeren Tools zu übernehmen. Sie sind oft zu starr und weisen Genie genau an, wie eine Abfrage zu schreiben ist, was es verwirren oder in Konflikt mit dem Kontext bringen kann, den es aus anderen Konfigurationsbereichen gelernt hat. Vermeiden Sie Anweisungen, die:
Die Einführung eines Genie Space ist nicht das Ende des Projekts, sondern der Anfang eines lebendigen, sich entwickelnden Analytics-Tool. Die erfolgreichsten Genie Spaces sind diejenigen, die aktiv überwacht, gewartet und in Zusammenarbeit mit den Nutzern, denen sie dienen, verbessert werden. Dieser letzte Schritt verwandelt Ihren Genie Space von einer statischen Konfiguration in ein dynamisches Asset, das sich an die sich ändernden Anforderungen Ihres Unternehmens anpasst.
Ihre beste Informationsquelle zur Verbesserung Ihres Genie Space sind Ihre erfahrenen Benutzer. Ermächtigen Sie eine kleine Gruppe von Fachexperten (SMEs), als Champions zu agieren, und gewähren Sie ihnen direkten Zugriff. Ermutigen Sie sie, die integrierten Feedback-Tools zu verwenden und Antworten als „Gut“ oder „Schlecht“ zu markieren.
Dies erzeugt eine leistungsstarke, kontinuierliche Feedbackschleife. Wenn ein Fachexperte (SME) mit Genie arbeitet, um eine Frage zu verfeinern und zu einer korrekten Antwort zu gelangen, ist diese Interaktion eine wertvolle Lernmöglichkeit. Erfassen Sie ihre endgültige „gute“ Abfrage und die ursprüngliche Frage und fügen Sie sie Ihren Beispielabfragen hinzu. Dieser Prozess der iterativen Verfeinerung, angetrieben durch die reale Nutzung, ist der effektivste Weg, um die Genauigkeit und Relevanz Ihres Space im Laufe der Zeit zu verbessern.
Der Tab „Monitoring“ ist Ihr direkter Einblick darin, wie Benutzer mit Ihren Daten interagieren. Die regelmäßige Überprüfung dieses Dashboards liefert unschätzbare Einblicke in das Benutzerverhalten und hilft Ihnen, verbesserungswürdige Bereiche zu identifizieren. Achten Sie auf:
Diese Daten bieten einen klaren, evidenzbasierten Leitfaden dafür, worauf Sie Ihre Bemühungen konzentrieren sollten – sei es durch das Hinzufügen neuer Metadaten, das Verfeinern von Joins, das Erstellen gezielterer Beispielabfragen oder das Anpassen der allgemeinen Anweisungen, um die Bedürfnisse Ihrer Benutzer besser zu unterstützen.
Während Sie Verbesserungen vornehmen und sich Ihre Daten weiterentwickeln, wird Ihre Benchmark-Suite zu Ihrem primären Werkzeug für Qualitätssicherung und Regressionstests. Jede wesentliche Änderung am Genie Space – wie das Hinzufügen einer neuen Datenquelle – sollte sofort von einer Benchmark-Ausführung gefolgt werden.
Dies ist der schnellste und zuverlässigste Weg, um zu überprüfen, ob eine Änderung positive oder negative Auswirkungen hatte. Wenn Sie einen Performance-Abfall feststellen, zeigen Ihnen die Benchmark-Ergebnisse genau, bei welchen Abfragen eine Regression aufgetreten ist. So können Sie die Quelle der neuen Unklarheit lokalisieren und schnell beheben. Dieser disziplinierte Ansatz stellt sicher, dass die Qualität und Zuverlässigkeit Ihres Genie Space auch bei dessen Wachstum konstant hoch bleiben.
Der Aufbau eines leistungsstarken Genie Space ist ein Produkt fortlaufender Optimierung und keiner einmaligen Konfiguration. Versuchen Sie nicht, Ihren gesamten Datenbestand auf einmal abzubilden. Wählen Sie stattdessen einen einzelnen, hochwertigen Anwendungsfall aus, wie z. B. ein bestimmtes Vertriebs-Dashboard oder einen operativen Bericht, und wenden Sie diese Methodik an.
Start Sie mit dem Engineering eines sauberen Datenausschnitts und legen Sie dann sofort Ihre „goldenen“ Benchmark-Fragen fest. Nutzen Sie die Fehler in diesem anfänglichen Benchmark, um Ihre Konfiguration von Metadaten und SQL-Logik zu steuern. Indem Sie sich auf diese iterative Schleife – testen, konfigurieren, verifizieren – konzentrieren, bauen Sie ein System auf, dem die Benutzer vertrauen. Dieser disziplinierte Ansatz liefert sofortige Self-Dienst-Funktionen.
Erste Schritte mit Genie im workspace
https://docs.databricks.com/aws/en/genie/set-up
https://learn.microsoft.com/en-gb/azure/databricks/genie/set-up
https://docs.databricks.com/gcp/en/genie/set-up
(Dieser Blogbeitrag wurde mit KI-gestützten Tools übersetzt.) Originalbeitrag
Produto
June 12, 2024/11 min de leitura

