Erstellen, lesen und schreiben Sie verwaltete Delta-Tabellen aus externen Engines.
von Alex Jiang und Tathagata Das
Unity Catalog wurde für das offene Lakehouse entwickelt. Zuvor waren Datenteams in Silos gefangen und mussten oft Daten auf verschiedenen Plattformen duplizieren, nur um die gewünschten Tools nutzen zu können. Jede neue Plattform oder jedes neue Tool bedeutete das Kopieren von Datensätzen, das Neuerstellen von Zugriffsrichtlinien von Grund auf und das Synchronhalten von allem. Das Ergebnis waren erhöhte Kosten durch redundante Speicherung, nicht mehr synchronisierte Richtlinien und fragmentierter Datenzugriff und -entdeckung.
Als wir Unity Catalog Open Source machten und Open APIs starteten, brachen wir die Silos auf, die Kunden zuvor gefangen hielten. Unternehmen konnten endlich eine Kopie der Daten behalten, jede Compute-Engine nutzen und alles von einem Ort aus verwalten. Das UC-Ökosystem hat sich seitdem weiterentwickelt. Heute nutzen Tausende von Kunden Unity Catalog zur Verwaltung und zum Zugriff auf Delta Lake- und Apache Iceberg-Tabellen, mit Dutzenden von Integrationen im wachsenden Unity Catalog-Ökosystem – von Apache Spark und Trino bis hin zu DuckDB und Confluent Tableflow.
UC-verwaltete Tabellen vereinen Offenheit und Leistung. Diese fortschrittlichen Tabellen nutzen Predictive Optimization und Liquid Clustering, um Datenlayouts automatisch abzustimmen, Kompaktierungs- und Bereinigungsaufgaben durchzuführen und Statistiken aktuell zu halten – für bis zu 20-mal schnellere Abfragen und 50 % niedrigere Speicherkosten, während sie über offene APIs vollständig zugänglich bleiben.
Jetzt in der Beta-Version können externe Engines wie Apache Spark, Flink und DuckDB UC-verwaltete Delta-Tabellen mit zentralisierter Verwaltung und automatischen Optimierungen erstellen und beschreiben.
Mit der Beta-Version können externe Engines:
Da jeder Vorgang über UC-verwaltete Tabellen läuft, die auf Catalog Commits basieren, erhalten Sie serialisierte Commits, die Log-Korruption verhindern, und eine vollständige Auditierbarkeit jedes Lese- und Schreibvorgangs. Predictive Optimization läuft weiterhin nahtlos, auch bei Tabellen, auf die von externen Engines zugegriffen wird. Catalog Commits legen auch den Grundstein für Funktionen wie Multi-Statement-, Multi-Table-Transaktionen, die einen zentralisierten Commit-Koordinator erfordern.
Das florierende UC-Ökosystem wächst weiter, da die Engines die Unterstützung für den externen Zugriff auf verwaltete Tabellen erweitern. Delta Kernel – die Open-Source-Java- und Rust-Bibliothek zum Lesen, Schreiben und Committen von Delta-Tabellen – abstrahiert die Low-Level-Protokolldetails, sodass sich Connector-Entwickler auf die UC-Integration konzentrieren können, nicht auf die Delta-Implementierung. Apache Spark, Delta Flink und DuckDB haben alle Delta Kernel genutzt, um externe Schreibvorgänge auf UC-verwaltete Tabellen zu unterstützen und sich mit Catalog-verwalteten Commits zu integrieren. Das Ökosystem wächst weiter. Durch die Handhabung der Low-Level-Protokollkomplexität macht Delta Kernel es für jede Engine einfach, sich in Unity Catalog zu integrieren, was zu einem wachsenden Ökosystem von Connectoren beiträgt.
Damit eine externe Engine auf Daten in UC zugreifen kann, benötigt sie eine sichere Möglichkeit zur Authentifizierung und zum Erhalt eines begrenzten Zugriffs auf Cloud-Speicher, ohne breite, statische Berechtigungen oder Anmeldeinformationen, die an ein bestimmtes Konto gebunden sind, zu erfordern. Unity Catalog verwaltet dies über Credential Vending, das jetzt allgemein verfügbar (GA) ist: UC stellt externen Engines bei Bedarf kurzlebige, begrenzte Anmeldeinformationen zur Verfügung, wobei Zugriffsrichtlinien zentral durchgesetzt werden.
Tausende von Kunden nutzen UC Open APIs, und zwei Ergänzungen machen sie für den Unternehmenseinsatz bereit. Externe Engines können sich jetzt über Machine-to-Machine (M2M) OAuth bei UC authentifizieren, was die Sicherheitsanforderungen von Unternehmen erfüllt, ohne auf personalisierte Zugriffstoken (PATs) angewiesen zu sein, die pro Benutzer gelten, lange gültig sind und schwer zu rotieren sind. Und die Anmeldeinformationen werden von den Engines über die UC Credential Vending APIs automatisch aktualisiert, sodass Pipelines, die stundenlang laufen, zuverlässig abgeschlossen werden, ohne dass Token mitten im Job ablaufen.
Mit Credential Vending können Unternehmen verwaltete und externe Tabellen in Unity Catalog von jeder kompatiblen Engine oder jedem Tool aus lesen, schreiben und erstellen. Diese Anmeldeinformationen sind kurzlebig, auf die angeforderte Ressource beschränkt und werden durch UC-Berechtigungen gesteuert. Das bedeutet, Ihr Plattformteam behält die volle Kontrolle darüber, welche Prinzipale extern auf Daten zugreifen können und was sie damit tun können.
Mit den Open APIs von Unity Catalog haben wir unsere Teams befähigt, ihre bevorzugten Tools zu nutzen und gleichzeitig die Governance und Datenkonsistenz zu wahren. Wir können die Vorteile von verwalteten Tabellen innerhalb einer wirklich interoperablen Daten- und KI-Plattform nutzen, die über mehrere Compute-Engines hinweg funktioniert.— Sudipta Das, Director of Enterprise Data Operations bei PepsiCo
Credential Vending erstreckt sich nicht nur auf Tabellen, sondern auch auf unstrukturierte Daten. Volume Credential Vending ist jetzt in der Public Preview verfügbar, sodass externe Clients temporäre, begrenzte Anmeldeinformationen anfordern können, um Bilder, PDFs und Videos, die in Volumes gespeichert sind, mit Unity Catalog-Governance abzurufen. Das gleiche Zugriffssteuerungsmodell, der gleiche Audit-Trail und die gleichen begrenzten Anmeldeinformationen gelten, unabhängig davon, ob Sie eine Tabelle abfragen oder eine Rohvideodatei extern verarbeiten.
Wir investieren weiterhin in die Verbesserung der externen Zugriffsfunktionen. Credential Vending verwaltet derzeit grob granulare Zugriffskontrollen für externe Engines. Wir haben auch Funktionalität entwickelt, um Attributbasierte Zugriffskontrollen (ABAC) für externe Lesevorgänge durchzusetzen, was die Verwaltung fein granulieren lässt. Dies ermöglicht die Durchsetzung von ABAC-Richtlinien auf Zeilen- und Spaltenebene, wenn UC-verwaltete Tabellen von externen Engines gelesen werden.
Um mit Credential Vending zu beginnen, lesen Sie unsere Dokumentation. Um die Beta-Version des externen Zugriffs auf verwaltete Delta-Tabellen zu nutzen:
Der Data and AI Summit 2026 steht vor der Tür! Besuchen Sie uns vom 15. bis 18. Juni 2026 im Moscone Center in San Francisco, Kalifornien, um zu erfahren, wie führende Organisationen Unity Catalog zur Verwaltung von Daten und KI über verschiedene Engines hinweg einsetzen. Registrieren Sie sich noch heute, um einen ersten Blick auf die nächsten Schritte für eine offene, einheitliche Verwaltung zu erhalten.
(Dieser Blogbeitrag wurde mit KI-gestützten Tools übersetzt.) Originalbeitrag
Abonnieren Sie unseren Blog und erhalten Sie die neuesten Beiträge direkt in Ihren Posteingang.