Lakehouse Federation est maintenant en préversion publique !
Les équipes data sont confrontées à de nombreux défis pour accéder rapidement aux bonnes données, principalement en raison de la fragmentation des données, du temps et du coût liés à la consolidation des données, et des difficultés à gérer la gouvernance des données sur de nombreux systèmes.
C'est pourquoi aujourd'hui, lors du Data+AI Summit, nous sommes ravis d'annoncer les fonctionnalités de Lakehouse Federation dans Unity Catalog, qui permettent aux organisations de construire une architecture data mesh hautement scalable et performante avec une gouvernance unifiée.
Unity Catalog fournit une solution de gouvernance unifiée pour les données et l'IA. Les fonctionnalités de Lakehouse Federation dans Unity Catalog vous permettent de découvrir, d'interroger et de gouverner des données sur plusieurs plateformes de données, notamment MySQL, PostgreSQL, Amazon Redshift, Snowflake, Azure SQL Database, Azure Synapse, BigQuery de Google, et plus encore, depuis Databricks, sans avoir à déplacer ou à copier les données, le tout dans une expérience simplifiée et unifiée. Cela signifie que les fonctionnalités de sécurité avancées d'Unity Catalog, telles que les contrôles d'accès au niveau des lignes et des colonnes, les fonctionnalités de découverte comme les tags et le lignage des données, seront disponibles sur ces sources de données externes, garantissant ainsi une gouvernance cohérente.
« Les data scientists et les utilisateurs métier peuvent désormais accéder à diverses sources de données via une interface utilisateur uniforme, avec des autorisations cohérentes gérées en un seul endroit », a déclaré Jelle de Jong, Tech Lead chez Bayer. « Nous standardisons continuellement notre format de données sur Delta Lake, mais nous sommes ravis que Lakehouse Federation nous ait permis d'itérer avec agilité avant d'investir dans l'extraction de données. »
Des milliers d'organisations de toutes tailles innovent dans le monde entier et dans tous les Secteurs d'activité grâce aux données et à l'IA sur la Databricks Lakehouse Platform. Mais pour des raisons historiques, organisationnelles ou technologiques, les données sont dispersées dans de nombreux systèmes opérationnels et analytiques, ce qui entraîne de nouveaux défis :
Lakehouse Federation répond à ces points de friction critiques et permet aux organisations d'exposer, de query et de gouverner facilement les systèmes de données cloisonnés en tant qu'extension de leur lakehouse. Avec ces nouvelles fonctionnalités, vous pouvez :
« Lakehouse Federation nous permet de combiner des données (telles que les données d'utilisation, de Ventes et de télémétrie de jeu) provenant de sources multiples, à travers plusieurs clouds, et de tout consulter et interroger depuis un seul endroit. » « Désormais, nous laissons les données dans la source de données d'origine, mais nous pouvons les utiliser depuis le Lakehouse Databricks », a déclaré Felix Baker, Head of Data Services chez SEGA Europe. « Comme nous n'avons plus à déplacer nos données financières, qui sont fréquemment actualisées, nous gagnons un temps précieux que nous pouvons consacrer à offrir à nos consommateurs la meilleure expérience de jeu possible. »
« Lakehouse Federation nous a permis de consolider plus rapidement notre paysage de données existant dans Unity Catalog. Cela simplifie la gouvernance des données de Shell – davantage de datasets deviennent découvrables en un seul endroit, l'authentification est normalisée et l'interrogation de datasets avec un langage de programmation commun devient possible », a déclaré Bryce Bartmann, conseiller principal en Technologie digital chez Shell. « En fin de compte, cela nous rend plus efficaces pour naviguer dans la transformation qui s'opère aujourd'hui dans le secteur de l'énergie. »
Ces nouvelles fonctionnalités, associées à l'interface Hive ouverte récemment annoncée, permettent aux organisations de centraliser la gestion de données, la découverte et la gouvernance de leurs données dans Unity Catalog, et de s'y connecter à partir d'un large éventail de plateformes de calcul, notamment Amazon EMR, Apache Spark, Amazon Athena, Presto, Trino et d'autres. La nouvelle interface élimine le besoin de maintenir plusieurs data catalogs et garantit une gouvernance cohérente des données sur ces plateformes.
Ces fonctionnalités sont actuellement en préversion publique, vous pouvez donc démarrer dès maintenant !
Nous étendons également les capacités de gouvernance de Unity Catalog à divers formats de stockage ouverts, notamment Apache Iceberg et Hudi, avec la préversion publique du format universel Delta (« UniForm »). Cette intégration permet de lire les tables Delta comme s'il s'agissait de tables Iceberg (et bientôt Apache Hudi également), faisant de Unity Catalog le seul catalogue universel qui prend en charge les trois principaux formats de stockage ouverts de lakehouse.
Enfin, à l'avenir, vous pourrez également propager les politiques d'accès définies dans Unity Catalog aux sources de données fédérées pour une application cohérente, quel que soit l'endroit où les données sont consultées. Il n'est ainsi plus nécessaire de maintenir des définitions de politiques redondantes sur différents outils de gouvernance.
Regardez la keynote du Data+AI Summit 2023 de Matei Zaharia, co-fondateur et Chief Technologie Officer de Databricks, pour en savoir plus.
Inscrivez-vous au Data + AI Summit ici pour nous rejoindre en personne ou virtuellement et découvrir les nouveautés en matière de données, d'analytique et d'IA !
Anúncios
June 17, 2021/7 min de leitura

