Revenir au contenu principal

Annonce de la disponibilité générale de Lakehouse Federation

Découvrez, interrogez, gouvernez toutes vos données - peu importe où elles se trouvent

Lakehouse Federation

Publié: 1 août 2024

Annonces7 min de lecture

Aujourd'hui, nous sommes ravis d'annoncer que la fédération Lakehouse dans Unity Catalog est maintenant disponible en disponibilité générale (GA) sur AWS, Azure et GCP ! La fédération Lakehouse vous permet de découvrir, interroger et gouverner toutes vos données en un seul endroit. Avec cette version GA, vous pouvez vous attendre à une stabilité, une sécurité et une préparation d'entreprise améliorées pour vos charges de travail fédérées.

Dans cet article de blog, nous passons en revue les capacités GA de la fédération Lakehouse, explorons comment elle alimente l'analyse agile dans les plus grandes entreprises mondiales et discutons de ce qui suit.

Guide de la fédération Lakehouse

Les organisations du monde entier, quelle que soit leur taille ou leur secteur d'activité, exploitent les données et l'IA pour stimuler l'innovation. Cependant, pour des raisons historiques, organisationnelles ou technologiques, les données restent souvent dispersées sur plusieurs systèmes opérationnels et analytiques. Cette fragmentation entraîne plusieurs défis :

  1. Difficulté à découvrir et à accéder à toutes les données
  2. Exécution lente due aux goulots d'étranglement de l'ingénierie
  3. Faible conformité entre les systèmes cloisonnés

La fédération Lakehouse résout ces points sensibles critiques et permet aux organisations d'exposer, d'interroger et de gouverner facilement les systèmes de données cloisonnés comme une extension de leur lakehouse. Avec ces nouvelles capacités, vous pouvez :

  1. Créez une vue unifiée de votre parc de données : classez et découvrez automatiquement toutes vos données, structurées et non structurées, en un seul endroit et permettez à tous dans votre organisation d'accéder et d'explorer en toute sécurité toutes les données disponibles à portée de main - où qu'elles se trouvent.
  2. Interrogez et combinez toutes les données efficacement avec un seul moteur : Accélérez l'analyse ad hoc et le prototypage sur toutes vos données, analyses et cas d'utilisation IA sur les données les plus complètes - sans ingestion requise - avec un seul moteur. La planification avancée des requêtes entre les sources et la mise en cache garantissent des performances de requête optimales, même lors de l'accès et de la combinaison de données à partir de plusieurs plateformes avec une seule requête.
  3. Sécurisez les données sur les sources de données : utilisez un modèle d'autorisations pour définir et appliquer des règles d'accès et sécuriser toutes vos données sur les sources de données. Appliquez des règles telles que la sécurité au niveau des lignes et des colonnes, les politiques basées sur des balises, l'audit centralisé de manière cohérente sur les plateformes, suivez l'utilisation des données et respectez les exigences de conformité grâce à la lignée de données et à l'auditabilité intégrées.

Plus de 5 000 clients Databricks exploitent la fédération Lakehouse pour unifier leurs parcs de données, garantissant une découverte et une gouvernance des données cohérentes.

Lakehouse Federation

"La fédération Lakehouse nous a permis de combiner tous nos actifs de données à travers plusieurs entrepôts de données et bases de données sous Unity Catalog, simplifiant la découverte des données et la gestion des accès. Cela débloque une variété de cas d'utilisation, y compris l'ingestion et les requêtes ad hoc, rendant nos analyses plus faciles que jamais." — Alexander Booth, directeur adjoint de la recherche chez les Texas Rangers

Disponibilité générale

Nous sommes ravis d'annoncer la disponibilité générale des connecteurs MySQL, PostgreSQL, Amazon Redshift, Snowflake, Azure SQL Database, SQL Server et Azure Synapse.

Cette version marque une étape importante dans plusieurs domaines :

  1. Performance améliorée : Avec cette version, nous avons considérablement augmenté la couverture des expressions et des opérateurs que nous pouvons pousser vers le bas (c'est-à-dire déléguer à la base de données sous-jacente) vers les connexions SQL Server, Postgres, MySQL, Snowflake, Redshift et Synapse. En pratique, cela signifie des requêtes à latence plus faible et une création de vues matérialisées (MV) plus rapide, le tout sans obliger les utilisateurs à modifier leurs requêtes.
  2. Stabilité et observabilité améliorées : Nous avons mis à jour notre framework de fédération et de pushdown pour être plus résilient et gérer les scénarios de défaillance sans impacter les charges de travail des utilisateurs.
    Nous avons également introduit des profils de requête améliorés pour prendre en charge les métadonnées et les statistiques spécifiques à la fédération, offrant aux administrateurs de meilleures façons de surveiller et d'auditer.
  3. Nouvelles options de sécurité : À partir des sources de l'écosystème Azure et de Snowflake, nous ajoutons la prise en charge des options d'authentification sans mot de passe, la prise en charge d'Azure AD/Entra ID pour Azure SQL et la prise en charge d'OAuth pour Snowflake. Dans les mois à venir, nous développerons également des capacités similaires pour les écosystèmes AWS/Google.
"La fédération Lakehouse nous a aidés à consolider notre paysage de données avec une gouvernance cohérente en un seul endroit et à générer des gains d'efficacité opérationnelle significatifs. Les informations et la qualité des données sont maintenant intégrées de manière transparente, nous permettant de nous concentrer sur la fourniture à nos clients des meilleures informations pour maximiser la valeur de leurs investissements publicitaires." — Bob Wuisman, responsable mondial de la production chez Ebiquity plc.
GUIDE

Votre guide compact de l'analytique moderne

Et ensuite ?

Fédération de catalogues

Hive Federation
La fédération de catalogues permet des fonctionnalités Unity Catalog telles que les masques de colonnes, les commentaires IA et la lignée sur les tables Hive Metastore et Glue

Découvrez, gouvernez et accédez aux données de Hive Metastore (HMS) et AWS Glue avec la fédération Lakehouse. Avec la fédération de catalogues, vous pourrez monter facilement n'importe quel HMS externe (ou interne Databricks) comme catalogue étranger dans Unity Catalog.

Pour les utilisateurs de Databricks HMS (interne), c'est un moyen simple et direct de commencer avec Unity Catalog et de bénéficier des capacités de gouvernance unifiées fournies par Unity Catalog.

Pour les utilisateurs de HMS externes et AWS Glue, il offre un moyen étroitement intégré d'accéder aux données du metastore externe directement depuis Unity Catalog sans modifier vos flux de travail. 

La fédération de catalogues est actuellement en aperçu privé.

Nouveaux connecteurs

L'expansion de la liste des sources de données prises en charge pour la fédération Lakehouse reste une priorité absolue dans notre mission d'aider les clients à unifier leurs parcs de données. Nous sommes ravis d'annoncer que les connecteurs Google BigQuery, complétant la prise en charge de la fédération des entrepôts de données sur les trois principaux fournisseurs de cloud, et Salesforce Data Cloud sont maintenant en aperçu public.

Lakehouse Federation Connections
Nouveaux connecteurs Salesforce Data Cloud, Google Bigquery et Hive Metastore

Les connecteurs Oracle et Teradata seront bientôt disponibles en aperçu.

Connexions à haut débit pour les entrepôts de données

Pour offrir une expérience de requête plus rapide sur les entrepôts de données, qui ont tendance à contenir de plus grandes tables, nous ajoutons des fonctionnalités pour effectuer des transferts de données automatiques à haut débit. 

À l'avenir, en commençant par les connecteurs Amazon Redshift & Snowflake, vous pourrez interroger et matérialiser rapidement des tables à partir des entrepôts de données. En arrière-plan, Lakehouse Federation utilisera des API plus rapides/en masse (par exemple, déchargement vers le stockage objet ou un emplacement de staging en parallèle) et récupérera ces résultats en parallèle (aucun goulot d'étranglement du pilote). Le tout sans aucune intervention de l'utilisateur !

Partage pour Lakehouse Federation

Partage pour Lakehouse Federation

Enfin, le partage des données de Lakehouse Federation deviendra beaucoup plus facile. L'intégration à venir de Delta Sharing permettra aux clients de partager des tables fédérées en externe sans que les destinataires aient besoin d'accéder à Databricks ou au système de données sous-jacent. Cela simplifiera le partage des données en éliminant le besoin de copies redondantes entre différents systèmes.

Pour commencer

(Cet article de blog a été traduit à l'aide d'outils basés sur l'intelligence artificielle) Article original

Ne manquez jamais un article Databricks

Abonnez-vous à notre blog et recevez les derniers articles dans votre boîte mail.