Lakehouse Federation ist jetzt in der Public Preview verfügbar!
Datenteams stehen vor vielen Herausforderungen beim schnellen Zugriff auf die richtigen Daten, hauptsächlich aufgrund von Datenfragmentierung, dem Zeit- und Kostenaufwand für die Datenkonsolidierung und Schwierigkeiten bei der Verwaltung der Data Governance über viele Systeme hinweg.
Deshalb freuen wir uns, heute auf dem Data+AI Summit die Lakehouse Federation-Funktionen in Unity Catalog anzukündigen, die es Unternehmen ermöglichen, eine hochskalierbare und leistungsstarke Data-Mesh-Architektur mit einheitlicher Governance zu erstellen.
Unity Catalog bietet eine einheitliche Governance -Lösung für Daten und KI. Die Lakehouse Federation-Funktionen in Unity Catalog ermöglichen es Ihnen, Daten über Datenplattformen wie MySQL, PostgreSQL, Amazon Redshift, Snowflake, Azure SQL Database, Azure Synapse, Google BigQuery und weitere hinweg von Databricks aus zu entdecken, abzufragen und zu steuern, ohne die Daten verschieben oder kopieren zu müssen – alles in einer vereinfachten und einheitlichen Umgebung. Das bedeutet, dass die erweiterten Sicherheitsfunktionen von Unity Catalog wie Zugriffskontrollen auf Zeilen- und Spaltenebene, Erkennungsfunktionen wie Tags und Datenherkunft für diese externen Datenquellen verfügbar sein werden, was eine konsistente Governance gewährleistet.
„Sowohl Data Scientists als auch Geschäftsanwender können jetzt über eine einheitliche Benutzeroberfläche auf verschiedene Datenquellen zugreifen, wobei die Berechtigungen konsistent an einem Ort verwaltet werden“, so Jelle de Jong, Tech Lead bei Bayer. „Wir standardisieren unser Datenformat kontinuierlich auf Delta Lake, sind aber begeistert, dass Lakehouse Federation es uns ermöglicht hat, agil zu iterieren, bevor wir in die Datenextraktion investieren.“
Tausende von Organisationen jeder Größe treiben weltweit und in allen Branchen mit Daten und KI auf der Databricks Lakehouse Platform Innovationen voran. Doch aus historischen, organisatorischen oder technologischen Gründen sind die Daten über viele operative und Analytics-Systeme verstreut, was zu weiteren Herausforderungen führt:
Lakehouse Federation geht diese kritischen Schwachstellen an und macht es für Organisationen einfach, isolierte Datensysteme als eine Erweiterung ihres Lakehouse bereitzustellen, abzufragen und zu verwalten. Mit diesen neuen Funktionen können Sie:
„Mit Lakehouse Federation können wir Daten – wie Nutzungs-, Verkaufs- und Spieletelemetriedaten – aus verschiedenen Quellen und über mehrere Clouds hinweg kombinieren und alles von einem Ort aus einsehen und abfragen. „Wir belassen die Daten jetzt in der ursprünglichen Datenquelle, können sie aber vom Databricks Lakehouse aus nutzen“, sagte Felix Baker, Head of Datendienste bei SEGA Europe. „Da wir unsere Finanzdaten, die häufig aktualisiert werden, nicht mehr verschieben müssen, sparen wir wertvolle Zeit, die wir darauf verwenden können, unseren Kunden das bestmögliche Spielerlebnis zu bieten.“
„Lakehouse Federation hat es uns ermöglicht, bei der Konsolidierung unserer bestehenden Datenlandschaft in Unity Catalog schneller voranzukommen. Das vereinfacht die Data Governance von Shell – mehr Datensätze werden an einem Ort auffindbar, die Authentifizierung wird standardisiert und die datensatzübergreifende Abfrage mit einer gemeinsamen Programmiersprache wird möglich", so Bryce Bartmann, Chief Digital Technology Advisor bei Shell. "Letztendlich macht uns das effektiver bei der Bewältigung der Transformation, die heute im Energiesektor stattfindet."
Diese neuen Funktionen in Verbindung mit der kürzlich angekündigten offenen Hive-Schnittstelle bedeuten, dass Unternehmen ihre Datenverwaltung, -ermittlung und -governance in Unity Catalog zentralisieren und sich von einer Vielzahl von Computing-Plattformen aus damit verbinden können, darunter Amazon EMR, Apache Spark, Amazon Athena, Presto, Trino und andere. Die neue Benutzeroberfläche macht die Pflege mehrerer Datenkataloge überflüssig und gewährleistet eine konsistente Data Governance über diese Plattformen hinweg.
Diese Funktionen sind derzeit in der Public Preview verfügbar, sodass Sie sofort starten können!
Wir erweitern außerdem die Governance-Funktionen von Unity Catalog auf verschiedene offene Speicherformate, einschließlich Apache Iceberg und Hudi, mit der Public Preview des Delta Universal Format („UniForm“). Diese Integration ermöglicht es, Delta-Tabellen wie Iceberg-Tabellen (und bald auch Apache Hudi) zu lesen, was den Unity Catalog zum einzigen universellen Katalog macht, der alle drei wichtigen offenen Lakehouse-Speicherformate unterstützt.
Schließlich können Sie in Zukunft auch einen Push von Zugriffsrichtlinien, die in Unity Catalog definiert sind, an föderierte Datenquellen durchführen, um eine konsistente Durchsetzung zu gewährleisten, wo auch immer auf Daten zugegriffen wird. Dadurch entfällt die Notwendigkeit, redundante Richtliniendefinitionen über verschiedene Governance-Tools hinweg zu pflegen.
Sehen Sie sich die Keynote von Matei Zaharia, Mitbegründer und Chief Technologie Officer bei Databricks, auf dem Data+KI Summit 2023 an, um mehr zu erfahren.
Registrieren Sie sich hier für den Data + AI Summit, um persönlich oder virtuell teilzunehmen und die neuesten Entwicklungen in den Bereichen Daten, Analysen und KI zu entdecken!
Data Warehousing
November 2, 2021/12 min de leitura

