Aujourd'hui, nous sommes ravis d'annoncer que la fédération Lakehouse dans Unity Catalog est maintenant disponible en disponibilité générale (GA) sur AWS, Azure et GCP ! La fédération Lakehouse vous permet de découvrir, interroger et gouverner toutes vos données en un seul endroit. Avec cette version GA, vous pouvez vous attendre à une stabilité, une sécurité et une préparation d'entreprise améliorées pour vos charges de travail fédérées.
Dans cet article de blog, nous passons en revue les capacités GA de la fédération Lakehouse, explorons comment elle alimente l'analyse agile dans les plus grandes entreprises mondiales et discutons de ce qui suit.
Les organisations du monde entier, quelle que soit leur taille ou leur secteur d'activité, exploitent les données et l'IA pour stimuler l'innovation. Cependant, pour des raisons historiques, organisationnelles ou technologiques, les données restent souvent dispersées sur plusieurs systèmes opérationnels et analytiques. Cette fragmentation entraîne plusieurs défis :
La fédération Lakehouse résout ces points sensibles critiques et permet aux organisations d'exposer, d'interroger et de gouverner facilement les systèmes de données cloisonnés comme une extension de leur lakehouse. Avec ces nouvelles capacités, vous pouvez :
Plus de 5 000 clients Databricks exploitent la fédération Lakehouse pour unifier leurs parcs de données, garantissant une découverte et une gouvernance des données cohérentes.

"La fédération Lakehouse nous a permis de combiner tous nos actifs de données à travers plusieurs entrepôts de données et bases de données sous Unity Catalog, simplifiant la découverte des données et la gestion des accès. Cela débloque une variété de cas d'utilisation, y compris l'ingestion et les requêtes ad hoc, rendant nos analyses plus faciles que jamais." — Alexander Booth, directeur adjoint de la recherche chez les Texas Rangers
Nous sommes ravis d'annoncer la disponibilité générale des connecteurs MySQL, PostgreSQL, Amazon Redshift, Snowflake, Azure SQL Database, SQL Server et Azure Synapse.
Cette version marque une étape importante dans plusieurs domaines :
"La fédération Lakehouse nous a aidés à consolider notre paysage de données avec une gouvernance cohérente en un seul endroit et à générer des gains d'efficacité opérationnelle significatifs. Les informations et la qualité des données sont maintenant intégrées de manière transparente, nous permettant de nous concentrer sur la fourniture à nos clients des meilleures informations pour maximiser la valeur de leurs investissements publicitaires." — Bob Wuisman, responsable mondial de la production chez Ebiquity plc.
Découvrez, gouvernez et accédez aux données de Hive Metastore (HMS) et AWS Glue avec la fédération Lakehouse. Avec la fédération de catalogues, vous pourrez monter facilement n'importe quel HMS externe (ou interne Databricks) comme catalogue étranger dans Unity Catalog.
Pour les utilisateurs de Databricks HMS (interne), c'est un moyen simple et direct de commencer avec Unity Catalog et de bénéficier des capacités de gouvernance unifiées fournies par Unity Catalog.
Pour les utilisateurs de HMS externes et AWS Glue, il offre un moyen étroitement intégré d'accéder aux données du metastore externe directement depuis Unity Catalog sans modifier vos flux de travail.
La fédération de catalogues est actuellement en aperçu privé.
L'expansion de la liste des sources de données prises en charge pour la fédération Lakehouse reste une priorité absolue dans notre mission d'aider les clients à unifier leurs parcs de données. Nous sommes ravis d'annoncer que les connecteurs Google BigQuery, complétant la prise en charge de la fédération des entrepôts de données sur les trois principaux fournisseurs de cloud, et Salesforce Data Cloud sont maintenant en aperçu public.
Les connecteurs Oracle et Teradata seront bientôt disponibles en aperçu.
Pour offrir une expérience de requête plus rapide sur les entrepôts de données, qui ont tendance à contenir de plus grandes tables, nous ajoutons des fonctionnalités pour effectuer des transferts de données automatiques à haut débit.
À l'avenir, en commençant par les connecteurs Amazon Redshift & Snowflake, vous pourrez interroger et matérialiser rapidement des tables à partir des entrepôts de données. En arrière-plan, Lakehouse Federation utilisera des API plus rapides/en masse (par exemple, déchargement vers le stockage objet ou un emplacement de staging en parallèle) et récupérera ces résultats en parallèle (aucun goulot d'étranglement du pilote). Le tout sans aucune intervention de l'utilisateur !

Enfin, le partage des données de Lakehouse Federation deviendra beaucoup plus facile. L'intégration à venir de Delta Sharing permettra aux clients de partager des tables fédérées en externe sans que les destinataires aient besoin d'accéder à Databricks ou au système de données sous-jacent. Cela simplifiera le partage des données en éliminant le besoin de copies redondantes entre différents systèmes.
(Cet article de blog a été traduit à l'aide d'outils basés sur l'intelligence artificielle) Article original
