Revenir au contenu principal
Produit

Parlez à toutes vos données, où qu'elles se trouvent

Connecter Genie à des sources de données fédérées pour apporter de l'intelligence à l'ensemble de votre patrimoine

par John Spencer

*Connectez Genie aux données à l'aide de Lakehouse Federation, en évitant les retards d'une migration « big bang ».
*Tirez parti d'Unity Catalog comme source unique de vérité pour les données fédérées et gérées, garantissant ainsi que les charges de travail d'IA sont sécurisées et prêtes pour la production.
*Commencez immédiatement à interroger les données en langage naturel. Optimisez les performances en migrant vers des tables gérées Unity Catalog.

L'AI agentique a créé une demande pour le raisonnement multi-sources qui n'existait pas il y a 12 mois. Les utilisateurs métier souhaitent poser des questions en langage naturel telles que « quelles campagnes marketing ont généré le plus de ROI le trimestre dernier ? » et obtenir des insights instantanés à partir de leurs données.

Le problème est que les données d'entreprise sont fréquemment réparties sur plusieurs systèmes tels que AWS Glue, Snowflake, Oracle, BigQuery, Postgres, et parfois verrouillées dans des formats propriétaires hérités où la migration de l'ensemble vers un système unique pourrait prendre des mois.

Et si vous n'aviez pas besoin de migrer les données tout en pouvant raisonner sur l'ensemble de votre patrimoine de données ? Avec Lakehouse Federation, Databricks se connecte directement à vos sources existantes, où qu'elles se trouvent, et les rassemble sous une couche de gouvernance unique dans Unity Catalog. Les autorisations, le lignage et les contrôles d'accès fonctionnent de manière cohérente sur chaque système connecté, vous bénéficiez ainsi d'une sécurité de niveau entreprise sans avoir à la reconstruire source par source. Les utilisateurs métier peuvent ensuite interroger ces données unifiées en anglais simple via Genie, obtenant des réponses qui couvrent toutes les plateformes connectées sans aucun pipeline, copie ou étape de migration.

Dans ce blog, nous verrons comment le configurer en nous connectant à une source externe, en synchronisant ses métadonnées dans Unity Catalog et en posant des questions via Genie, le tout en quelques minutes.

Comment ça marche

Lakehouse Federation permet aux utilisateurs et aux agents AI de se connecter en toute sécurité à une source externe et de la gouverner aux côtés de vos données natives. Cela permet à Genie d'accéder à la volée à votre patrimoine de données étendu sans nécessiter de migration. Lakehouse Federation se connecte à plus de 20 des plateformes de données les plus populaires. À titre d'exemple, voyons à quel point il est facile de le configurer avec AWS Glue.

Genie sur l'ensemble de vos données

1. Connectez-vous à vos sources de données externes avec Lakehouse Federation

Tout d'abord, nous créons une connexion vers le projet externe AWS Glue. Dans cet exemple, nous nous connectons à une base de données Glue contenant des données de campagnes marketing.

Ensuite, nous synchronisons les données sur place dans Unity Catalog. Cela permet d'accéder à toutes les tables sans avoir à copier de données, garantissant ainsi que les données sont toujours à jour. Cela évite également toute perturbation du système source.

2. Tirez parti de vos métadonnées existantes

Les noms bruts des tables et des colonnes n'ont souvent aucun sens pour un agent AI. Un agent AI ne saura pas de manière innée que status_code 4 signifie « Urgent » ou que spend_amount fait référence aux coûts marketing.

De nombreuses organisations ont déjà investi dans la documentation de leurs schémas dans le système source — en ajoutant des descriptions de tables, des commentaires de colonnes et des termes de glossaire métier directement dans Glue. Lakehouse Federation met désormais ce contexte en avant automatiquement. Lorsque vous créez un catalogue étranger, les commentaires et les descriptions du système source sont fédérés dans Unity Catalog aux côtés des métadonnées de la table.

Cela signifie :

  • Les descriptions de colonnes existantes (par exemple, « spend_amount — dépenses marketing totales en USD ») sont transférées sans saisie manuelle
  • Les commentaires au niveau de la table documentant le contexte métier sont préservés
  • Les outils AI comme Genie peuvent immédiatement tirer parti de ces métadonnées pour comprendre votre schéma

Aujourd'hui, nous prenons en charge les commentaires de tables étrangères sur Glue et BigQuery. En version préliminaire, nous avons étendu la prise en charge à PostgreSQL, Redshift, MySQL, Snowflake et nous prévoyons d'ajouter d'autres sources chaque mois (Inscrivez-vous à la version préliminaire).

3. Définissez des sémantiques réutilisables par-dessus vos données fédérées

Les commentaires hérités indiquent à Genie ce que sont vos données, mais ils ne peuvent pas capturer la manière dont votre entreprise mesure les choses. Un commentaire de colonne peut expliquer que spend_amount correspond au coût marketing en USD, mais seule une définition de métrique peut encoder que le ROI correspond aux impressions divisées par les dépenses. C'est de la logique métier, et historiquement, elle résidait dans des formules de tableaux de bord dispersées, du SQL ad hoc et des connaissances informelles, souvent avec des définitions subtilement différentes selon les équipes.

Unity Catalog Semantics vous permet de définir cette logique métier une seule fois en tant qu'objet gouverné, de sorte que chaque outil qui l'interroge obtient le même calcul fiable. Et parce que les tables fédérées sont des citoyens de premier ordre dans Unity Catalog, cela fonctionne sur des données qui n'ont jamais quitté leur système source. Vous pouvez définir des métriques comme le ROI directement sur n'importe quelle source fédérée, sans aucune migration requise.

Avec les métriques Unity Catalog, vous les définissez une seule fois, directement sur la table fédérée. La vue de métrique définit deux choses : des champs comme campaign_id et quarter par lesquels les utilisateurs peuvent regrouper et filtrer, et une mesure, roi, qui encode la formule métier elle-même.

Définissez le ROI une seule fois, et Genie, les tableaux de bord AI/BI et les notebooks le calculent tous de manière identique. Lorsque la définition change, vous la mettez à jour à un seul endroit et chaque consommateur hérite du changement.

4. Demandez à Genie

Une fois les données connectées et contextualisées, votre analyste marketing peut désormais ouvrir un espace Genie et poser la question de départ : « Quelles campagnes marketing ont généré le plus de ROI le trimestre dernier ? »

Genie n'a pas besoin de reconstruire la formule du ROI à partir de zéro il se résout en la mesure certifiée roi dans la vue de métrique et génère automatiquement le SQL correct sur les données fédérées.

Le résultat ? Une réponse immédiate et précise dérivée de données en direct situées dans Glue.

Genie, propulsé par Lakehouse Federation, n'est qu'un exemple de la façon dont Unity Catalog permet d'obtenir des insights AI sur l'ensemble de votre patrimoine de données. Que la requête provienne d'un analyste métier dans un espace Genie ou d'un workflow alimenté par un agent, Unity Catalog fournit la base gouvernée et contextualisée qui permet son fonctionnement.

Prochaines étapes

Nous continuons d'investir pour faire de Lakehouse Federation la rampe d'accès la plus rapide à la plateforme Databricks :

  • Des sémantiques métier plus riches pour les tables fédérées : Au-delà de l'importation de commentaires existants, nous développons de nouveaux moyens d'enrichir vos métadonnées fédérées avec des descriptions optimisées par l'AI et du contexte métier, rendant Genie encore plus intelligent dès le départ.
  • Amélioration des performances grâce à la mise à niveau vers des tables gérées : Utilisez la fonctionnalité SET MANAGED pour convertir une table étrangère en table gérée Unity Catalog dans Databricks, et bénéficiez de plus de 50 % d'économies de coûts et de requêtes 20 fois plus rapides.
  • Prise en charge de la fédération pour davantage de catalogues et de plateformes : Nous continuons d'ajouter de nouvelles sources de fédération, vous offrant un accès gouverné à une plus grande partie de votre patrimoine de données.

Démarrer

(Cet article de blog a été traduit à l'aide d'outils basés sur l'intelligence artificielle) Article original

Recevez les derniers articles dans votre boîte mail

Abonnez-vous à notre blog et recevez les derniers articles directement dans votre boîte mail.