Veröffentlicht: 12. Juni 2025
von Ali Ghodsi, Reynold Xin, Adam Conway, Daniel Weeks, Ryan Blue und Jason Reid
Wir freuen uns, die Public Preview für die Apache IcebergTM-Unterstützung in Databricks anzukündigen, die das gesamte Apache Iceberg- und Delta Lake-Ökosystem mit Unity Catalog erschließt. Diese Preview führt zwei neue Funktionen in Unity Catalog ein. Erstens können Sie jetzt verwaltete Iceberg-Tabellen mit Databricks oder externen Iceberg-Engines über die Iceberg REST Catalog API von Unity Catalog lesen und schreiben. Diese Tabellen werden von Predictive Optimization unterstützt und führen automatisch erweiterte Tabellenoperationen aus, einschließlich Liquid Clustering, um sofort einsatzbereite, schnelle Abfrageleistung und Speichereffizienz zu bieten. Verwaltete Iceberg-Tabellen sind auch in erweiterte Funktionen auf der gesamten Databricks-Plattform integriert, darunter DBSQL, Mosaic AI, Delta Sharing und MVs. Zweitens ermöglicht Unity Catalog im Rahmen der Lakehouse Federation jetzt den nahtlosen Zugriff auf und die Verwaltung von Iceberg-Tabellen, die von fremden Katalogen wie AWS Glue, Hive Metastores und Snowflake Horizon Catalog verwaltet werden.
Mit diesen neuen Funktionen können Sie sich von jeder Engine aus mit Unity Catalog verbinden und auf alle Ihre Daten zugreifen, über Kataloge hinweg und unabhängig vom Format, wodurch Datensilos aufgebrochen und Ökosystem-Inkompatibilitäten behoben werden. In diesem Blog werden wir Folgendes behandeln:
Es sind neue Datensilos entstanden, die sich auf zwei grundlegende Komponenten des Lakehouse beziehen: offene Tabellenformate und Datenkataloge. Offene Tabellenformate ermöglichen ACID-Transaktionen für Daten, die im Objektspeicher gespeichert sind. Delta Lake und Apache Iceberg, die beiden führenden offenen Tabellenformate, haben Connector-Ökosysteme für eine breite Palette von Open-Source-Frameworks und kommerziellen Plattformen entwickelt. Die meisten gängigen Plattformen haben jedoch nur einen der beiden Standards übernommen, was die Kunden bei der Wahl eines Formats zur Wahl der Engines zwingt.
Kataloge stellen zusätzliche Herausforderungen dar. Eine Kernaufgabe eines Katalogs ist die Verwaltung der aktuellen Metadatendateien einer Tabelle über Writer und Reader hinweg. Einige Kataloge schränken jedoch ein, welche Engines in sie schreiben dürfen. Selbst wenn Sie es schaffen, alle Ihre Daten in einem Format zu speichern, das von allen Ihren Engines unterstützt wird, können Sie Ihre gewählte Engine möglicherweise trotzdem nicht verwenden, da sie sich nicht mit Ihrem Katalog verbinden kann. Diese Herstellerbindung zwingt die Kunden, die Datenermittlung und -verwaltung über verschiedene Kataloge zu fragmentieren.
In den nächsten beiden Abschnitten werden wir erläutern, wie Unity Catalog offene Standards und Katalogföderation verwendet, um Format- und Kataloginkompatibilitäten zu beheben.
Unity Catalog durchbricht Formatsilos durch offene Standards. Jetzt in der Public Preview können Sie Databricks und externe Engines verwenden, um von Unity Catalog verwaltete Iceberg-Tabellen zu schreiben. Verwaltete Iceberg-Tabellen sind über die Implementierung der Iceberg REST Catalog APIs von Unity Catalog vollständig für das gesamte Iceberg-Ökosystem geöffnet. Der REST Catalog ist eine offene API-Spezifikation, die eine Standardschnittstelle für die Interaktion mit Iceberg-Tabellen bietet. Unity Catalog war ein früher Anwender des REST Catalog und hat die Unterstützung erstmals im Jahr 2023 eingeführt. Diese Preview baut auf dieser Grundlage auf. Jetzt kann praktisch jeder Iceberg-Client, der mit der REST-Spezifikation kompatibel ist, wie z. B. Apache Spark™, Apache Flink oder Trino, in Unity Catalog lesen und schreiben.
Wir planen, alle unsere Daten in einem offenen Format zu speichern und wünschen uns einen einzigen Katalog, der sich mit allen von uns verwendeten Tools verbinden kann. Unity Catalog ermöglicht es uns, Iceberg-Tabellen zu schreiben, die für jeden Iceberg-Client vollständig offen sind, wodurch das gesamte Lakehouse-Ökosystem erschlossen und unsere Architektur zukunftssicher gemacht wird. — Hen Ben-Hemo, Data Platform Architect

Mit Managed Iceberg können Sie die Unity Catalog-Governance in das Iceberg-Ökosystem einbringen, selbst bei OSS-Tools wie PyIceberg, die die Autorisierung nicht nativ unterstützen. Unity Catalog ermöglicht es Ihnen, Datenpipelines zu erstellen, die das gesamte Lakehouse-Ökosystem umfassen. Apache Iceberg bietet beispielsweise einen beliebten Sink Connector für das Schreiben von Kafka in Iceberg-Tabellen. Sie können Kafka Connect verwenden, um Iceberg-Tabellen in Unity Catalog zu schreiben und Downstream die erstklassige Preis-Leistungs-Fähigkeit von Databricks für ETL, Data Warehousing und Machine Learning zu nutzen.
Alle Managed Tables bieten automatisch erstklassige Leseleistung und Speicheroptimierung mithilfe von Predictive Optimization. Predictive Optimization lässt automatisch alte Snapshots ablaufen, löscht nicht referenzierte Dateien und gruppiert Ihre Daten inkrementell mithilfe von Liquid Clustering. In unserem Beispiel mit Kafka verhindert dies Leistungseinbußen, die häufig durch die Verbreitung kleiner Dateien verursacht werden. Sie können Ihre Iceberg-Tabellen gesund und leistungsfähig halten, ohne sich um die manuelle Verwaltung Ihrer eigenen Tabellenwartung kümmern zu müssen.
Verwaltete Iceberg-Tabellen sind in die Databricks-Plattform integriert, sodass Sie diese Tabellen mit erweiterten Plattformfunktionen wie DBSQL, Mosaic AI, Delta Sharing und MVs nutzen können. Über Databricks hinaus unterstützt Unity Catalog ein Partner-Ökosystem, um Daten mit externen Tools sicher in Iceberg zu speichern. Redpanda beispielsweise nimmt Streaming-Daten auf, die über die Iceberg REST Catalog API von Unity Catalog in Kafka-Themen erzeugt werden:
Mit Unity Catalog Managed Iceberg Tables und dem Iceberg REST Catalog kann Redpanda jetzt die größten und anspruchsvollsten Kafka-Workloads direkt in Iceberg-Tabellen streamen, die von Unity Catalog optimiert werden, wodurch sofortige Auffindbarkeit und schnelle Abfrageleistung für beliebige Streams ermöglicht werden. Dank der Konfiguration per Knopfdruck sind alle Echtzeit-Streaming-Daten jetzt vollständig für das Iceberg-Ökosystem verfügbar, sodass Kunden darauf vertrauen können, dass ihre Architektur auf Langlebigkeit ausgelegt ist, egal wie sich ihr Stack entwickelt. — Matthew Schumpert, Head of Product, Platform

Wir freuen uns, die folgenden Launch-Partner an Bord zu haben: Atlan, Buf, CelerData, Clickhouse, dbt Labs, dltHub, Fivetran, Informatica, PuppyGraph, Redpanda, RisingWave, StreamNative und mehr.
Mit Unity Catalog können Sie nicht nur tabellenformatübergreifend, sondern auch katalogübergreifend zusammenarbeiten. Jetzt auch in der Public Preview können Sie Iceberg-Tabellen, die von externen Katalogen wie AWS Glue, Hive Metastores und Snowflake Horizon Catalog verwaltet werden, nahtlos abfragen und verwalten. Diese Konnektoren erweitern die Hive Metastore- und AWS Glue-Föderation und ermöglichen es Ihnen, ganze Kataloge in Unity Catalog einzubinden, wodurch eine einheitliche Schnittstelle für die Datenermittlung und -verwaltung entsteht.
Federation bietet eine nahtlose Integration, um die erweiterten Funktionen von Unity Catalog für Iceberg-Tabellen zu nutzen, die von fremden Katalogen verwaltet werden. Sie können die detaillierten Zugriffskontrollen, die Lineage und die Überwachung von Databricks für alle Ihre Daten verwenden, über Kataloge hinweg und unabhängig vom Format.
Unity Catalog ermöglicht es den ML-Ingenieuren und Data Scientists von Rippling, nahtlos und ohne Kopieren auf Iceberg-Tabellen in bestehenden OLAP-Data-Warehouses zuzugreifen. Dies hilft uns, Kosten zu senken, konsistente Single Sources of Truth zu schaffen und die Latenz der Datenaktualisierung zu reduzieren – und das alles unter Beibehaltung hoher Standards für den Datenzugriff und den Datenschutz während des gesamten Datenlebenszyklus. — Albert Strasheim, Chief Technology Officer

Mit Federation kann Unity Catalog Ihr gesamtes Lakehouse verwalten – über alle Ihre Tabellen, KI-Modelle, Dateien, Notebooks und Dashboards hinweg.
Unity Catalog bringt die Branche der Verwirklichung der Einfachheit, Flexibilität und der niedrigeren Kosten des offenen Data Lakehouse näher. Wir bei Databricks glauben, dass wir die Branche noch weiter voranbringen können - mit einem einzigen, einheitlichen offenen Tabellenformat. Delta Lake und Apache Iceberg haben viele Gemeinsamkeiten im Design, aber subtile Unterschiede führen zu großen Inkompatibilitäten für die Kunden. Um diese gemeinsamen Probleme zu lösen, gleichen die Delta- und Apache Iceberg-Communitys Konzepte und Beiträge an und vereinheitlichen so das Lakehouse-Ökosystem.
Iceberg v3 ist ein wichtiger Schritt in Richtung dieser Vision. Iceberg v3 enthält wichtige Funktionen wie Deletion Vectors, Variant data type, Row IDs und geospatial data types, die in Delta Lake identische Implementierungen haben. Diese Verbesserungen ermöglichen es Ihnen, Daten zu verschieben und Dateien zwischen Formaten einfach zu löschen, ohne Petabyte an Daten neu schreiben zu müssen.
In zukünftigen Delta Lake- und Apache Iceberg-Releases wollen wir auf dieser Grundlage aufbauen, sodass Delta- und Iceberg-Clients dieselben Metadaten verwenden und somit Tabellen direkt gemeinsam nutzen können. Mit diesen Investitionen können die Kunden das ursprüngliche Ziel eines offenen Data Lakehouse verwirklichen – eine vollständig integrierte Plattform für Daten und KI auf einer einzigen Datenkopie.
Managed und Foreign Iceberg-Tabellen sind jetzt in der Public Preview verfügbar. In unserer Dokumentation erfahren Sie, wie Sie loslegen können! Sehen Sie sich unsere Ankündigungen auf dem Data and AI Summit vom 9. bis 12. Juni 2025 noch einmal an, um mehr über unsere neuesten Iceberg-Funktionen und die Zukunft offener Tabellenformate zu erfahren.
(Dieser Blogbeitrag wurde mit KI-gestützten Tools übersetzt.) Originalbeitrag
