Veröffentlicht: 12. März 2025
von Zoé Durand, Jonathan Chang und Matt Jones
DLT bietet eine robuste Plattform zum Erstellen zuverlässiger, wartbarer und testbarer Datenverarbeitungs-Pipelines innerhalb von Databricks. Durch die Nutzung seines deklarativen Frameworks und die automatische Bereitstellung optimaler serverloser Rechenleistung vereinfacht DLT die Komplexität von Streaming, Datentransformation und -verwaltung und liefert Skalierbarkeit und Effizienz für moderne Daten-Workflows.
Wir freuen uns, eine lang erwartete Verbesserung ankündigen zu können: die Möglichkeit, Tabellen in mehreren Schemas und Katalogen innerhalb einer einzigen DLT-Pipeline zu veröffentlichen. Diese Funktion reduziert die betriebliche Komplexität, senkt die Kosten und vereinfacht die Datenverwaltung, indem sie es Ihnen ermöglicht, Ihre Medaillon-Architektur (Bronze, Silber, Gold) in einer einzigen Pipeline zu konsolidieren und gleichzeitig organisatorische und Governance-Best-Practices beizubehalten.
Mit dieser Verbesserung können Sie:
LIVE-Syntax, um Abhängigkeiten zwischen Tabellen zu kennzeichnen. Vollständig und teilweise qualifizierte Tabellennamen werden unterstützt, zusammen mit USE SCHEMA und USE CATALOG-Befehlen, genau wie in Standard-SQL.„Die Möglichkeit, von einer DLT-Pipeline aus in mehrere Kataloge und Schemas zu veröffentlichen – und nicht mehr das LIVE-Schlüsselwort zu benötigen – hat uns geholfen, Best Practices für Pipelines zu standardisieren, unsere Entwicklungsbemühungen zu optimieren und den einfachen Übergang von Teams von Nicht-DLT-Workloads zu DLT im Rahmen unserer groß angelegten unternehmensweiten Einführung des Toolings zu erleichtern.“ — Ron DeFreitas, Principal Data Engineer, HealthVerity
Alle Pipelines, die über die Benutzeroberfläche erstellt werden, unterstützen jetzt standardmäßig mehrere Kataloge und Schemas. Sie können einen Standardkatalog und ein Standardschema auf Pipeline-Ebene über die Benutzeroberfläche, die API oder Databricks Asset Bundles (DABs) festlegen.
Wenn Sie eine Pipeline programmgesteuert erstellen, können Sie diese Funktion aktivieren, indem Sie das Feld schema in den PipelineSettings angeben. Dies ersetzt das vorhandene Feld target und stellt sicher, dass Datasets über mehrere Kataloge und Schemas hinweg veröffentlicht werden können.
Um eine Pipeline mit dieser Funktion über die API zu erstellen, können Sie diesem Codebeispiel folgen (Hinweis: Personal Access Token-Authentifizierung muss für den Workspace aktiviert sein):
Durch Festlegen des Feldes schema unterstützt die Pipeline automatisch die Veröffentlichung von Tabellen in mehreren Katalogen und Schemas, ohne dass das Schlüsselwort LIVE erforderlich ist.
schema in der Pipeline-YAML fest und entfernen Sie das Feld target, falls es vorhanden ist.
databricks bundle validate“ aus, um zu überprüfen, ob die DAB-Konfiguration gültig ist.databricks bundle deploy -t <environment>“ aus, um Ihre erste DPM-Pipeline bereitzustellen!„Die Funktion funktioniert genau so, wie wir es erwarten! Ich konnte die verschiedenen Datasets innerhalb von DLT in unsere Stage-, Core- und UDM-Schemas (im Grunde ein Bronze-, Silber-, Gold-Setup) innerhalb einer einzigen Pipeline aufteilen.“ — Florian Duhme, Expert Data Software Developer, Arvato

Sobald Ihre Pipeline eingerichtet ist, können Sie Tabellen mit vollständig oder teilweise qualifizierten Namen sowohl in SQL als auch in Python definieren.
SQL-Beispiel
Python-Beispiel
Sie können Datasets mit vollständig oder teilweise qualifizierten Namen referenzieren, wobei das LIVE-Schlüsselwort aus Gründen der Abwärtskompatibilität optional ist.
SQL-Beispiel
Python-Beispiel
Mit dieser neuen Funktion wurden wichtige API-Methoden aktualisiert, um mehrere Kataloge und Schemas nahtloser zu unterstützen:
Früher konnten diese Methoden nur Datasets referenzieren, die innerhalb der aktuellen Pipeline definiert wurden. Jetzt können sie Datasets über mehrere Kataloge und Schemas hinweg referenzieren und dabei automatisch Abhängigkeiten verfolgen. Dies erleichtert den Aufbau von Pipelines, die Daten aus verschiedenen Quellen integrieren, ohne zusätzliche manuelle Konfiguration.
Früher erforderten diese Methoden explizite Referenzen auf externe Datasets, was abteilungsübergreifende Abfragen umständlicher machte. Mit dem neuen Update werden Abhängigkeiten nun automatisch verfolgt und das LIVE-Schema ist nicht mehr erforderlich. Dies vereinfacht den Prozess des Lesens von Daten aus mehreren Quellen innerhalb einer einzigen Pipeline.
Die Databricks SQL-Syntax unterstützt jetzt das dynamische Festlegen aktiver Kataloge und Schemas, wodurch die Verwaltung von Daten an mehreren Standorten erleichtert wird.
SQL-Beispiel
Python-Beispiel
Diese Funktion ermöglicht es Pipeline-Besitzern auch, Event Logs im Unity Catalog Metastore zu veröffentlichen, um die Beobachtbarkeit zu verbessern. Um dies zu aktivieren, geben Sie das Feld event_log in der Pipeline-Einstellungen-JSON an. Zum Beispiel:
Damit können Sie nun GRANTS auf die Event Log-Tabelle ausstellen, genau wie bei jeder regulären Tabelle:
Sie können auch eine Ansicht über die Event Log-Tabelle erstellen:
Außerdem können Sie von der Event Log-Tabelle streamen:
Zukünftig werden diese Verbesserungen zum Standard für alle neu erstellten Pipelines, egal ob über die Benutzeroberfläche, die API oder Databricks Asset Bundles erstellt. Zusätzlich wird bald ein Migrationstool verfügbar sein, das bei der Umstellung bestehender Pipelines auf das neue Publishing-Modell hilft.
Lesen Sie mehr in der Dokumentation hier.
(Dieser Blogbeitrag wurde mit KI-gestützten Tools übersetzt.) Originalbeitrag
