Connecter Genie à des sources de données fédérées pour apporter de l'intelligence à l'ensemble de votre patrimoine
par John Spencer
*Connectez Genie aux données à l'aide de Lakehouse Federation, en évitant les retards d'une migration « big bang ».
*Tirez parti d'Unity Catalog comme source unique de vérité pour les données fédérées et gérées, garantissant ainsi que les charges de travail d'IA sont sécurisées et prêtes pour la production.
*Commencez immédiatement à interroger les données en langage naturel. Optimisez les performances en migrant vers des tables gérées Unity Catalog.
L'AI agentique a créé une demande pour le raisonnement multi-sources qui n'existait pas il y a 12 mois. Les utilisateurs métier souhaitent poser des questions en langage naturel telles que « quelles campagnes marketing ont généré le plus de ROI le trimestre dernier ? » et obtenir des insights instantanés à partir de leurs données.
Le problème est que les données d'entreprise sont fréquemment réparties sur plusieurs systèmes tels que AWS Glue, Snowflake, Oracle, BigQuery, Postgres, et parfois verrouillées dans des formats propriétaires hérités où la migration de l'ensemble vers un système unique pourrait prendre des mois.
Et si vous n'aviez pas besoin de migrer les données tout en pouvant raisonner sur l'ensemble de votre patrimoine de données ? Avec Lakehouse Federation, Databricks se connecte directement à vos sources existantes, où qu'elles se trouvent, et les rassemble sous une couche de gouvernance unique dans Unity Catalog. Les autorisations, le lignage et les contrôles d'accès fonctionnent de manière cohérente sur chaque système connecté, vous bénéficiez ainsi d'une sécurité de niveau entreprise sans avoir à la reconstruire source par source. Les utilisateurs métier peuvent ensuite interroger ces données unifiées en anglais simple via Genie, obtenant des réponses qui couvrent toutes les plateformes connectées sans aucun pipeline, copie ou étape de migration.
Dans ce blog, nous verrons comment le configurer en nous connectant à une source externe, en synchronisant ses métadonnées dans Unity Catalog et en posant des questions via Genie, le tout en quelques minutes.
Lakehouse Federation permet aux utilisateurs et aux agents AI de se connecter en toute sécurité à une source externe et de la gouverner aux côtés de vos données natives. Cela permet à Genie d'accéder à la volée à votre patrimoine de données étendu sans nécessiter de migration. Lakehouse Federation se connecte à plus de 20 des plateformes de données les plus populaires. À titre d'exemple, voyons à quel point il est facile de le configurer avec AWS Glue.

Tout d'abord, nous créons une connexion vers le projet externe AWS Glue. Dans cet exemple, nous nous connectons à une base de données Glue contenant des données de campagnes marketing.
Ensuite, nous synchronisons les données sur place dans Unity Catalog. Cela permet d'accéder à toutes les tables sans avoir à copier de données, garantissant ainsi que les données sont toujours à jour. Cela évite également toute perturbation du système source.
Les noms bruts des tables et des colonnes n'ont souvent aucun sens pour un agent AI. Un agent AI ne saura pas de manière innée que status_code 4 signifie « Urgent » ou que spend_amount fait référence aux coûts marketing.
De nombreuses organisations ont déjà investi dans la documentation de leurs schémas dans le système source — en ajoutant des descriptions de tables, des commentaires de colonnes et des termes de glossaire métier directement dans Glue. Lakehouse Federation met désormais ce contexte en avant automatiquement. Lorsque vous créez un catalogue étranger, les commentaires et les descriptions du système source sont fédérés dans Unity Catalog aux côtés des métadonnées de la table.
Cela signifie :
Aujourd'hui, nous prenons en charge les commentaires de tables étrangères sur Glue et BigQuery. En version préliminaire, nous avons étendu la prise en charge à PostgreSQL, Redshift, MySQL, Snowflake et nous prévoyons d'ajouter d'autres sources chaque mois (Inscrivez-vous à la version préliminaire).
Les commentaires hérités indiquent à Genie ce que sont vos données, mais ils ne peuvent pas capturer la manière dont votre entreprise mesure les choses. Un commentaire de colonne peut expliquer que spend_amount correspond au coût marketing en USD, mais seule une définition de métrique peut encoder que le ROI correspond aux impressions divisées par les dépenses. C'est de la logique métier, et historiquement, elle résidait dans des formules de tableaux de bord dispersées, du SQL ad hoc et des connaissances informelles, souvent avec des définitions subtilement différentes selon les équipes.
Unity Catalog Semantics vous permet de définir cette logique métier une seule fois en tant qu'objet gouverné, de sorte que chaque outil qui l'interroge obtient le même calcul fiable. Et parce que les tables fédérées sont des citoyens de premier ordre dans Unity Catalog, cela fonctionne sur des données qui n'ont jamais quitté leur système source. Vous pouvez définir des métriques comme le ROI directement sur n'importe quelle source fédérée, sans aucune migration requise.
Avec les métriques Unity Catalog, vous les définissez une seule fois, directement sur la table fédérée. La vue de métrique définit deux choses : des champs comme campaign_id et quarter par lesquels les utilisateurs peuvent regrouper et filtrer, et une mesure, roi, qui encode la formule métier elle-même.
Définissez le ROI une seule fois, et Genie, les tableaux de bord AI/BI et les notebooks le calculent tous de manière identique. Lorsque la définition change, vous la mettez à jour à un seul endroit et chaque consommateur hérite du changement.
Une fois les données connectées et contextualisées, votre analyste marketing peut désormais ouvrir un espace Genie et poser la question de départ : « Quelles campagnes marketing ont généré le plus de ROI le trimestre dernier ? »
Genie n'a pas besoin de reconstruire la formule du ROI à partir de zéro il se résout en la mesure certifiée roi dans la vue de métrique et génère automatiquement le SQL correct sur les données fédérées.

Le résultat ? Une réponse immédiate et précise dérivée de données en direct situées dans Glue.
Genie, propulsé par Lakehouse Federation, n'est qu'un exemple de la façon dont Unity Catalog permet d'obtenir des insights AI sur l'ensemble de votre patrimoine de données. Que la requête provienne d'un analyste métier dans un espace Genie ou d'un workflow alimenté par un agent, Unity Catalog fournit la base gouvernée et contextualisée qui permet son fonctionnement.
Nous continuons d'investir pour faire de Lakehouse Federation la rampe d'accès la plus rapide à la plateforme Databricks :
(Cet article de blog a été traduit à l'aide d'outils basés sur l'intelligence artificielle) Article original
Abonnez-vous à notre blog et recevez les derniers articles directement dans votre boîte mail.