Direkt zum Hauptinhalt
Produkt

Rüsten Sie Ihr Lakehouse auf: Ihre Anleitung für die Konvertierung zu Unity Catalog verwalteten Tabellen

Konvertieren Sie von externen UC-Tabellen zu von UC verwalteten Tabellen, um Abfragen zu beschleunigen und Kosten zu sparen.

von Elizabeth Bowman und Amit Vaswani

• Erfahren Sie, wie Sie externe Unity Catalog (UC)-Tabellen nahtlos in von UC verwaltete Tabellen konvertieren, Ausfallzeiten minimieren, Tabellenkonfigurationen beibehalten und die Tabellenhistorie bewahren.
• Steigern Sie die Abfrageleistung um das 20-fache, senken Sie die Kosten um über 50 % und schalten Sie erweiterte Funktionen mit von Unity Catalog verwalteten Tabellen frei.
• Erfahren Sie, wie Sie die Kontrolle über den physischen Speicherort Ihrer Daten behalten, Massenkonvertierungen durchführen, Rollbacks handhaben und Ihre Migration planen.

Der neue Befehl SET MANAGED bietet einen nahtlosen Mechanismus, um UC externe Tabellen in UC verwaltete Tabellen umzuwandeln, während Ausfallzeiten minimiert, gleichzeitige Schreibvorgänge verarbeitet, Tabellenkonfigurationen beibehalten und, wo möglich, die Tabellenhistorie bewahrt werden. Dieser Artikel teilt Best Practices und bietet eine Schritt-für-Schritt-Anleitung zur Verwendung dieses allgemein verfügbaren (GA) Befehls:

Warum zu UC verwalteten Tabellen konvertieren?

Mit Unity Catalog als Quelle der Wahrheit erschließen verwaltete Tabellen einzigartige Funktionen, die Leistung, Governance und Benutzerfreundlichkeit verbessern – bei gleichzeitiger Wahrung von Interoperabilität und Portabilität.

Die wichtigsten Vorteile sind:

  • Automatische Optimierungen, die die Abfrageleistung um das 20-fache steigern und die Speicherkosten um über 50 % senken können (weitere Details hier).
  • Optimierte Datenverwaltung mit automatischer Bereinigung gelöschter Daten zur Kosteneinsparung sowie Unterstützung für UNDROP.
  • Verbesserte Governance mit Datenherkunft, fein abgestuften Zugriffssteuerungen und sicherem Tabellenzugriff unter Unity Catalog-Aufsicht über alle Lese- und Schreibvorgänge.
  • Eine Grundlage für zukünftige Funktionen wie automatische Zeilenlöschung (Auto-TTL) und zeilenweise Datenerfassung (Zerobus Ingest).
  • Interoperabilität: Konvertierte Tabellen unterstützen Lesevorgänge von jedem Drittanbieter-Client (weitere Details finden Sie hier).

Wie kann der SET MANAGED Konvertierungsbefehl helfen?

Der SET MANAGED Befehl vereinfacht die Konvertierung von externen zu verwalteten Tabellen

Funktion

Vorteil des SET MANAGED Befehls

Ausfallzeiten minimieren

Halten Sie die Tabelle online und für Lesevorgänge mit Databricks Runtime 16.1 oder höher verfügbar und minimieren Sie Ausfallzeiten für Schreibvorgänge (oder für Lesevorgänge mit Databricks Runtime 15.4 oder niedriger) auf nur wenige Minuten.

Identität bewahren

Der Name, die Berechtigungen, Tags und Einstellungen der Tabelle für alle Tabellen sowie die Tabellenhistorie (für Delta-Tabellen) bleiben alle erhalten.

Gleichzeitigkeit handhaben

Der SET MANAGED Befehl verarbeitet sicher gleichzeitige Schreibvorgänge, die während der Konvertierung auftreten können.

"Rückgängig" als Sicherheitsnetz

Ein weiterer Befehl namens UNSET MANAGED ermöglicht das Zurücksetzen einer konvertierten Tabelle auf UC extern innerhalb von 14 Tagen, als Sicherheitsnetz.

Wie konvertiere ich von externen zu verwalteten Tabellen?

Eine Schritt-für-Schritt-Anleitung für die Konvertierung für Praktiker

Der SET MANAGED Befehl macht die Tabellenkonvertierung unkompliziert. In einer Schritt-für-Schritt-Anleitung haben wir wichtige Tipps skizziert, um einen reibungslosen Übergang von externen zu verwalteten Tabellen zu gewährleisten.

Schritt 1: Externe Tabellen zur Konvertierung auswählen

Beginnen Sie damit, einige Unity Catalog externe Tabellen auszuwählen, die zuerst in UC verwaltete Tabellen konvertiert werden sollen, um Ihr Team mit dem Prozess, den Voraussetzungen und den Schritten nach der Konvertierung vertraut zu machen.

Sie können diesen Befehl beispielsweise zuerst an einigen Tabellen ausprobieren, die ausschließlich von Databricks-Clients gelesen und beschrieben werden (siehe den Abschnitt „Planung einer gestuften Migration“ weiter unten).

Schritt 2: Vorab-Checkliste

Stellen Sie sicher, dass Ihr Ökosystem von Tabellenlesern und -schreibern bereit für die Änderung ist. Für jede ausgewählte UC externe Tabelle und die damit verbundenen Workloads sollten Sie Folgendes tun:

  1. Auf namensbasierten Zugriff aktualisieren: Überprüfen Sie Ihre Jobs, Notebooks und Abfragen, um sicherzustellen, dass sie auf die Tabelle über ihren dreiteiligen Namen (catalog.schema.table) zugreifen, anstatt über pfadbasierten Zugriff (z. B. SELECT * FROM delta.'s3://path/to/table'). Databricks Labs hat UCX-Tools entwickelt, die Ihnen helfen können, pfadbasierte Referenzen zu finden, indem Sie den folgenden Databricks Labs UCX lint-local-code von einem IDE-Terminal ausführen, um den Verzeichniscode Ihrer lokalen Maschine (.py- oder .sql-Dateien) zu analysieren.
    1. test123
    2. Pfadbasierte Umleitung ist auch für die Handhabung von Legacy-Code verfügbar, falls eine Aktualisierung auf namensbasierten Zugriff nicht möglich ist.
  2. Alle Wartungsjobs abbrechen: Um Konflikte zu vermeiden, stellen Sie sicher, dass während des Konvertierungsprozesses keine OPTIMIZE-, ZORDER- oder CLUSTER BY-Jobs auf der Tabelle laufen oder geplant sind, falls vorhanden (kann mit DESCRIBE HISTORY überprüft werden). Nach der Konvertierung übernimmt die Predictive Optimization automatisch die Optimierungsjobs.
  3. [Optional] Databricks Runtime-Versionen aktualisieren: Alle Databricks-Cluster, die von der Tabelle lesen oder in sie schreiben, sollten idealerweise auf Databricks Runtime 15.4 LTS oder höher sein, um die vollständige Tabellenhistorie für Delta-Tabellen zu erhalten. Databricks Runtime 16.1 oder höher kann die Ausfallzeiten für Leser vollständig eliminieren.

Schritt 3: Den Konvertierungsbefehl ausführen

Führen Sie die Konvertierung mit dem folgenden Konvertierungsbefehl aus:

Hinweis: Für Tabellen, bei denen UniForm aktiviert ist, verwenden Sie SET MANAGED TRUNCATE UNIFORM HISTORY.

Schritt 4: Das Ergebnis überprüfen

Nachdem der Befehl abgeschlossen ist, bestätigen Sie, dass die Konvertierung erfolgreich war, indem Sie die Metadaten der Tabelle überprüfen.

In der Ausgabe dieses Befehls sollte die Eigenschaft „Type“ nun als „MANAGED“ angezeigt werden. Dieselben Informationen finden Sie auch im Abschnitt „Über diese Tabelle“ des Catalog Explorers.

Schritt 5: Aufräumarbeiten nach der Konvertierung

Nach einer erfolgreichen Konvertierung führen Sie diese letzten Schritte aus, um einen reibungslosen Übergang zu gewährleisten:

  • Starten Sie Streaming-Lese- oder Schreibjobs, die die Tabelle verwenden, neu, falls diese pausiert wurden.
  • Führen Sie Funktionstests durch, indem Sie wichtige Abfragen ausführen, um sicherzustellen, dass alle Leser und Schreiber wie erwartet auf der neu verwalteten Tabelle arbeiten.
  • Bestätigen Sie, dass Predictive Optimization jetzt für die Tabelle aktiviert ist, um von der automatisierten Wartung zu profitieren (Sie können auch CLUSTER by AUTO aktivieren, für automatisches Liquid Clustering, oder prüfen, ob es aktiviert wurde).
  • Planung einer schrittweisen Umstellung

    Eine erfolgreiche Umstellung aller Tabellen auf UC-verwaltete Tabellen ist ein Prozess – ein phasenweiser Ansatz und vorausschauende Planung können einen reibungslosen Übergang gewährleisten:

    1. Databricks-exklusive Tabellen konvertieren: Priorisieren Sie die Konvertierung von Tabellen, die ausschließlich von Databricks-Clients gelesen und beschrieben werden. Ein experimentelles Tool, Access Insights, kann verwendet werden, um Tabellen mit nur „Databricks-Lesern und -Schreibern“ gegenüber „Nicht-Databricks-Lesern“ oder „Nicht-Databricks-Schreibern“ zu identifizieren.
    2. Tabellen mit unterstützten externen Tools konvertieren: Bestimmen Sie, auf welche Tabellen von Drittanbieter-Tools zugegriffen wird, die auch Lesevorgänge nativ unterstützen von UC-verwalteten Tabellen, und konvertieren Sie diese als Nächstes. Der Zugriff von Drittanbietern funktioniert nach der Konvertierung weiterhin.
    3. Komplexe Fälle zuletzt behandeln: Für Tabellen, auf die mit nicht unterstützten Legacy-Tools zugegriffen wird – planen Sie, Lösungen wie den Compatibility Mode für Lesevorgänge zu verwenden. Wo Schreibvorgänge von Drittanbietern erforderlich sind, erstellen Sie diese Tabellen neu und aktivieren Sie Schreibvorgänge für diese UC-verwalteten Tabellen in der Preview Preview.

    Zusätzliche Überlegungen

    Die folgenden Details zum Konvertierungsbefehl könnten im Voraus nützlich sein:

    • Rollback-Zeitlimit: Um das Rollback-Sicherheitsnetz zu nutzen, muss UNSET MANAGED innerhalb von 14 Tagen nach der Konvertierung auf der UC-verwalteten Tabelle ausgeführt werden – danach werden die ursprünglichen externen Daten dauerhaft gelöscht, um Speicherkosten zu sparen.
    • Nuancen der Zeitreise: Das Upgrade von Clients auf 15.4 LTS oder höher kann hilfreich sein. Für Cluster, die auf Databricks Runtime 14.3 LTS oder niedriger laufen, oder wenn Sie den Befehl UNSET MANAGED zum Rollback verwenden, können Sie nach der Konvertierung nur über die Versionsnummer zu historischen Commits zurückkehren, nicht über den Zeitstempel.
    • Minimierte Ausfallzeit für Schreiber: Der Befehl ist darauf ausgelegt, Ausfallzeiten zu minimieren – Schreiber können während der letzten Phase, wenn der Speicherort der Tabelle auf den neuen verwalteten Speicherort umgestellt wird, eine kurze Unterbrechung (geschätzt zwischen 1 und 5 Minuten) erleben.
    • Temporäre Unterbrechung von Delta Sharing: Delta Sharing wird während der Konvertierung vorübergehend unterbrochen, funktioniert aber wieder ordnungsgemäß, sobald der Prozess abgeschlossen ist.

    Profi-Tipp: Skalierung mit Massenkonvertierung

    Um Hunderte oder Tausende von Unity Catalog externen Tabellen in einem bestimmten Schema in großen Mengen zu konvertieren, können Sie das folgende einfache SQL-Skript verwenden.

    Hinweis: Dieses Skript führt Live-Modifikationen durch. Es wird dringend empfohlen, es in einer Entwicklungsumgebung gründlich zu testen, bevor es in der Produktion ausgeführt wird.

    Kontrolle über den physischen Speicherort Ihrer Daten

    Unified Catalog (UC) verwaltete Tabellen befinden sich in kundenverwaltetem Speicher und sind über offene Katalog-APIs zugänglich. Wenn Sie mehr Kontrolle darüber wünschen, wie Ihre Daten physisch gespeichert werden oder Ihre Daten trennen möchten, können Sie einen verwalteten Speicherort definieren auf Katalog- oder Schemaebene – alle neuen verwalteten Tabellen, die in diesem Katalog oder Schema erstellt werden, werden automatisch an diesem angegebenen Speicherort organisiert.

    Für bereits bestehende externe Tabellen können Sie einen verwalteten Speicherort festlegen und dann den Befehl SET MANAGED verwenden, um sie in UC-verwaltete Tabellen zu konvertieren. Während der Konvertierung berücksichtigt das System den von Ihnen definierten verwalteten Speicherort, wodurch Sie die Kontrolle über das physische Layout Ihrer Daten im Cloud-Speicher erhalten. Bitte kontaktieren Sie Ihr Account-Team, um noch heute Zugang zu dieser Funktion in der Private Preview zu erhalten.

    Konvertierung von externen zu verwalteten Tabellen heute

    In nur wenigen Monaten seit der Public Preview haben Hunderte von Kunden erfolgreich Tausende von Tabellen mit SET MANAGED konvertiert.

    Alles hier Beschriebene ist jetzt GA – probieren Sie es noch heute aus und nutzen Sie die Leistung, Governance und Einfachheit von Unity Catalog Managed Tables.

    (Dieser Blogbeitrag wurde mit KI-gestützten Tools übersetzt.) Originalbeitrag

    Erhalten Sie die neuesten Beiträge in Ihrem Posteingang

    Abonnieren Sie unseren Blog und erhalten Sie die neuesten Beiträge direkt in Ihren Posteingang.