Anbindung von Genie an föderierte Datenquellen für intelligente Erkenntnisse in Ihrer gesamten Datenlandschaft
von John Spencer
*Verbinden Sie Genie mithilfe von Lakehouse Federation mit Ihren Daten, um die Verzögerungen einer "Big-Bang"-Migration zu vermeiden.
*Nutzen Sie Unity Catalog als Single Source of Truth für föderierte und verwaltete Daten, um sicherzustellen, dass KI-Workloads sicher und produktionsbereit sind.
*Beginnen Sie sofort mit der Abfrage von Daten in natürlicher Sprache. Optimieren Sie die Leistung durch ein Upgrade auf von Unity Catalog verwaltete Tabellen.
Agentic AI hat einen Bedarf an quellenübergreifenden Analysen geschaffen, den es vor 12 Monaten noch nicht gab. Geschäftsanwender möchten Fragen in natürlicher Sprache stellen, wie z. B. „Welche Marketingkampagnen haben im letzten Quartal den höchsten ROI erzielt?“, und sofortige Erkenntnisse aus ihren Daten gewinnen.
Das Problem ist, dass Unternehmensdaten häufig über mehrere Systeme wie AWS Glue, Snowflake, Oracle, BigQuery, Postgres verteilt und manchmal in veralteten, proprietären Formaten gefangen sind, sodass eine Migration aller Daten in ein einziges System Monate dauern könnte.
Was wäre, wenn Sie die Daten nicht migrieren müssten und trotzdem Ihren gesamten Datenbestand analysieren könnten? Mit Lakehouse Federation verbindet sich Databricks direkt mit Ihren bestehenden Quellen, wo auch immer diese liegen, und führt sie unter einer einzigen Governance-Ebene in Unity Catalog zusammen. Berechtigungen, Lineage und Zugriffskontrollen funktionieren konsistent über jedes verbundene System hinweg, sodass Sie Sicherheit auf Unternehmensniveau erhalten, ohne diese für jede Quelle einzeln neu aufbauen zu müssen. Geschäftsanwender können diese vereinheitlichten Daten dann über Genie in einfachem Englisch abfragen und erhalten Antworten über alle verbundenen Plattformen hinweg – ganz ohne eine einzige Pipeline, Kopie oder einen Migrationsschritt.
In diesem Blog zeigen wir Ihnen, wie Sie dies einrichten, indem Sie eine Verbindung zu einer externen Quelle herstellen, deren Metadaten mit Unity Catalog synchronisieren und Fragen über Genie stellen – und das alles in wenigen Minuten.
Lakehouse Federation ermöglicht es Benutzern und KI-Agenten, sich sicher mit einer externen Quelle zu verbinden und diese zusammen mit Ihren nativen Daten zu verwalten. Dadurch kann Genie direkt auf Ihren erweiterten Datenbestand zugreifen, ohne dass eine Migration erforderlich ist. Lakehouse Federation unterstützt Verbindungen zu über 20 der beliebtesten Datenplattformen. Sehen wir uns als Beispiel an, wie einfach die Einrichtung mit AWS Glue ist.

Zuerst erstellen wir eine Verbindung zum externen AWS Glue-Projekt. In diesem Beispiel verbinden wir uns mit einer Glue-Datenbank, die Marketingkampagnendaten enthält.
Als Nächstes synchronisieren wir die Daten direkt vor Ort (in-place) mit Unity Catalog. Dies ermöglicht den Zugriff auf alle Tabellen, ohne dass Daten kopiert werden müssen, sodass die Daten immer auf dem neuesten Stand sind. Zudem werden Beeinträchtigungen des Quellsystems vermieden.
Unformatierte Tabellen- und Spaltennamen sind für einen KI-Agenten oft bedeutungslos. Ein KI-Agent weiß nicht von Natur aus, dass status_code 4 „Dringend“ bedeutet oder dass sich spend_amount auf Marketingkosten bezieht.
Viele Unternehmen haben bereits Zeit in die Dokumentation ihrer Schemata im Quellsystem investiert – indem sie Tabellenbeschreibungen, Spaltenkommentare und Begriffe aus dem Business-Glossar direkt in Glue hinzugefügt haben. Lakehouse Federation übernimmt diesen Kontext nun automatisch. Wenn Sie einen externen Katalog erstellen, werden Kommentare und Beschreibungen aus dem Quellsystem zusammen mit den Tabellenmetadaten in Unity Catalog föderiert.
Das bedeutet:
Heute unterstützen wir Kommentare für externe Tabellen in Glue und BigQuery. In der Preview-Phase haben wir die Unterstützung auf PostgreSQL, Redshift, MySQL und Snowflake ausgeweitet, und wir planen, jeden Monat weitere Quellen hinzuzufügen (Melden Sie sich für die Preview an).
Vererbte Kommentare teilen Genie mit, worum es sich bei Ihren Daten handelt, aber sie können nicht erfassen, wie Ihr Unternehmen Kennzahlen misst. Ein Spaltenkommentar kann erklären, dass spend_amount die Marketingkosten in USD darstellt, aber nur eine Metrikdefinition kann festlegen, dass der ROI aus den Impressions geteilt durch die Ausgaben berechnet wird. Das ist Geschäftslogik, und in der Vergangenheit war diese oft in verstreuten Dashboard-Formeln, Ad-hoc-SQL und implizitem Teamwissen verteilt – häufig mit leicht unterschiedlichen Definitionen in den einzelnen Teams.
Unity Catalog Semantics ermöglicht es Ihnen, diese Geschäftslogik einmalig als verwaltetes Objekt zu definieren, sodass jedes Tool, das sie abfragt, dieselbe vertrauenswürdige Berechnung erhält. Und da föderierte Tabellen in Unity Catalog gleichberechtigte Komponenten sind, funktioniert dies auch mit Daten, die ihr Quellsystem nie verlassen haben. Sie können Metriken wie den ROI direkt für jede föderierte Quelle definieren, ohne dass eine Migration erforderlich ist.
Mit Unity Catalog-Metriken definieren Sie diese einmal direkt auf der föderierten Tabelle. Die Metrikansicht definiert zwei Dinge: Felder wie campaign_id and quarter, nach denen Benutzer gruppieren und filtern können, und ein Measure, roi, das die eigentliche Geschäftsformel codiert.
Definieren Sie den ROI ein einziges Mal, und Genie, AI/BI-Dashboards sowie Notebooks berechnen ihn alle identisch. Wenn sich die Definition ändert, aktualisieren Sie sie an einer einzigen Stelle, und alle nachgelagerten Nutzer übernehmen die Änderung automatisch.
Nachdem die Daten verbunden und kontextualisiert sind, kann Ihr Marketinganalyst nun einen Genie-Raum öffnen und die Frage stellen, mit der wir begonnen haben: „Welche Marketingkampagnen haben im letzten Quartal den höchsten ROI erzielt?“
Genie muss die ROI-Formel nicht von Grund auf neu erstellen – es greift auf das zertifizierte roi-Measure in der Metrikansicht zurück und generiert automatisch das korrekte SQL für die föderierten Daten.

Das Ergebnis? Eine sofortige, präzise Antwort, die direkt aus den Live-Daten in Glue abgeleitet wird.
Genie, unterstützt durch Lakehouse Federation, ist nur ein Beispiel dafür, wie Unity Catalog KI-gestützte Erkenntnisse über Ihren gesamten Datenbestand hinweg ermöglicht. Egal, ob die Abfrage von einem Geschäftsanalysten in einem Genie-Raum oder über einen agentenbasierten Workflow erfolgt – Unity Catalog bietet die verwaltete, kontextualisierte Grundlage, die dies möglich macht.
Wir investieren weiterhin darin, Lakehouse Federation zum schnellsten Einstieg in die Databricks-Plattform zu machen:
(Dieser Blogbeitrag wurde mit KI-gestützten Tools übersetzt.) Originalbeitrag
Abonnieren Sie unseren Blog und erhalten Sie die neuesten Beiträge direkt in Ihren Posteingang.