Direkt zum Hauptinhalt

Best Practices: Databricks Workflows nativ in Azure Data Factory starten

Azure Data Factory-Kunden können jetzt das Beste aus der Databricks Data Intelligence Platform herausholen, indem sie Databricks Workflows nutzen.

db - pbi image 3

Veröffentlicht: 16. Mai 2025

Partner5 min Lesezeit

Summary

  • Die Databricks Job-Aktivität in Azure Data Factory ist die empfohlene Methode zur Orchestrierung von Jobs in Databricks.
  • Diese Integration bietet sofortigen Geschäftswert und Kosteneinsparungen, indem sie Zugriff auf die gesamte Data Intelligence Platform ermöglicht.
  • Benutzer mit ETL-Frameworks, die Notebook-Aktivitäten verwenden, sollten zu Databricks Workflows und der ADF Databricks Job-Aktivität migrieren.

Azure Databricks ist ein Microsoft-Dienst erster Klasse, der nativ in das Azure-Ökosystem integriert ist, um Daten und KI mit Hochleistungsanalysen und umfassender Tool-Unterstützung zu vereinheitlichen. Diese enge Integration umfasst jetzt eine native Databricks Job-Aktivität in Azure Data Factory (ADF), die es einfacher als je zuvor macht, Databricks Workflows direkt in ADF auszulösen.

Diese neue Aktivität in ADF ist eine sofortige Best Practice, und alle ADF- und Azure Databricks-Benutzer sollten in Erwägung ziehen, zu diesem Muster zu wechseln.

Die neue Databricks Job-Aktivität ist sehr einfach zu bedienen:

  1. Ziehen Sie in Ihrer ADF-Pipeline die Databricks Job-Aktivität auf den Bildschirm  
  2. Wählen Sie auf der Registerkarte Azure Databricks einen Databricks-verknüpften Dienst zur Authentifizierung bei der Azure Databricks-Arbeitsumgebung aus
    • Sie können sich mit einer der folgenden Optionen authentifizieren: 
      • ein PAT-Token 
      • die vom ADF-System zugewiesene verwaltete Identität oder 
      • eine benutzerseitig zugewiesene verwaltete Identität
    • Obwohl der verknüpfte Dienst die Konfiguration eines Clusters erfordert, wird dieser Cluster bei der Ausführung dieser Aktivität weder erstellt noch verwendet. Er wird zur Kompatibilität mit anderen Aktivitätstypen beibehalten

jobs activity

3. Wählen Sie auf der Registerkarte Einstellungen in der Dropdown-Liste „Job“ einen Databricks Workflow aus, der ausgeführt werden soll (Sie sehen nur die Jobs, auf die Ihr authentifizierter Principal Zugriff hat). Konfigurieren Sie im Abschnitt „Job-Parameter“ unten die Job-Parameter (falls vorhanden), die an den Databricks Workflow gesendet werden sollen. Weitere Informationen zu Databricks Job-Parametern finden Sie in der Dokumentation.  

  • Beachten Sie, dass der Job und die Job-Parameter mit dynamischen Inhalten konfiguriert werden können

job parameter

Das war's schon. ADF startet Ihren Databricks Workflow und gibt die Job Run ID und URL zurück. ADF prüft dann, ob der Job Run abgeschlossen ist. Lesen Sie weiter unten, warum dieses neue Muster ein sofortiger Klassiker ist. 

gif pbi

Durch das Auslösen von Databricks Workflows aus ADF können Sie mehr Leistung aus Ihrer Azure Databricks-Investition herausholen

Die gemeinsame Nutzung von Azure Data Factory und Azure Databricks ist seit 2018 ein GA-Muster, als es mit diesem Blogbeitrag veröffentlicht wurde. Seitdem ist die Integration ein fester Bestandteil für Azure-Kunden, die hauptsächlich diesem einfachen Muster gefolgt sind:

  1. Verwenden Sie ADF, um Daten über seine über 100 Konnektoren mithilfe einer selbstgehosteten Integration Runtime für private oder On-Premise-Verbindungen in Azure Storage zu landen
  2. Orchestrieren Sie Databricks Notebooks über die native Databricks Notebook-Aktivität, um skalierbare Datentransformationen in Databricks mithilfe von Delta Lake-Tabellen in ADLS zu implementieren
LEITFADEN

Ihr kompakter Leitfaden für moderne Analytics

Obwohl dieses Muster im Laufe der Zeit äußerst wertvoll war, hat es die Kunden auf die folgenden Betriebsmodi beschränkt, die ihnen den vollen Wert von Databricks vorenthalten:

  • Verwendung von All-Purpose-Compute zum Ausführen von Jobs, um Cluster-Startzeiten zu vermeiden -> Probleme mit „noisy neighbors“ und Bezahlung für All-Purpose-Compute für automatisierte Jobs
  • Warten auf Cluster-Starts pro Notebook-Ausführung bei Verwendung von Jobs-Compute -> klassische Cluster werden pro Notebook-Ausführung gestartet, was jedes Mal zu Cluster-Startzeiten führt, selbst für einen DAG von Notebooks
  • Verwaltung von Pools zur Reduzierung der Job-Cluster-Startzeiten -> Pools können schwer zu verwalten sein und oft dazu führen, dass für nicht genutzte VMs bezahlt wird
  • Verwendung eines übermäßig permissiven Berechtigungsmusters für die Integration zwischen ADF und Azure Databricks -> die Integration erfordert Workspace-Admin ODER die Berechtigung zum Erstellen von Clustern
  • Keine Möglichkeit, neue Funktionen in Databricks wie Databricks SQL, DLT oder Serverless zu nutzen

Obwohl dieses Muster skalierbar und nativ für Azure Data Factory und Azure Databricks ist, sind die angebotenen Tools und Funktionen seit ihrer Einführung im Jahr 2018 unverändert geblieben, obwohl sich Databricks zu der marktführenden Data Intelligence Platform über alle Clouds hinweg entwickelt hat.

Azure Databricks geht über traditionelle Analysen hinaus, um eine einheitliche Data Intelligence Platform auf Azure bereitzustellen. Es kombiniert branchenführende Lakehouse-Architektur mit integrierter KI und fortschrittlicher Governance, um Kunden zu helfen, Erkenntnisse schneller, kostengünstiger und mit unternehmensweiter Sicherheit zu gewinnen. Zu den wichtigsten Funktionen gehören:

  • OSS und offene Standards
  • Ein branchenführender Lakehouse-Katalog über Unity Catalog zur Sicherung von Daten und KI über Code, Sprachen und Compute innerhalb und außerhalb von Azure Databricks
  • Beste Leistung und Preis-Leistungs-Verhältnis für ETL 
  • Integrierte Funktionen für traditionelles ML und GenAI, einschließlich des Fine-Tunings von LLMs, der Verwendung von Basismodellen (einschließlich Claude Sonnet), des Aufbaus von Agent-Anwendungen und des Servings von Modellen 
  • Beste DW auf dem Lakehouse mit Databricks SQL
  • Automatisierte Veröffentlichung und Integration mit Power BI durch die Funktion „Publish to Power BI“ in Unity Catalog und Workflows

Mit der Veröffentlichung der nativen Databricks Job-Aktivität in Azure Data Factory können Kunden jetzt Databricks Workflows ausführen und Parameter an die Job Runs übergeben. Dieses neue Muster löst nicht nur die oben genannten Einschränkungen, sondern ermöglicht auch die Nutzung der folgenden Funktionen in Databricks, die zuvor nicht in ADF verfügbar waren, wie zum Beispiel:

  • Programmierung eines DAG von Tasks innerhalb von Databricks
  • Nutzung von Databricks SQL-Integrationen
  • Ausführung von DLT-Pipelines
  • Verwendung der dbt-Integration mit einem SQL Warehouse
  • Verwendung der Wiederverwendung von Classic Job Clustern zur Reduzierung der Cluster-Startzeiten
  • Nutzung von Serverless Jobs Compute
  • Standard-Databricks-Workflow-Funktionalität wie Run As, Task Values, bedingte Ausführungen wie If/Else und For Each, AI/BI Task, Repair Runs, Benachrichtigungen/Alerts, Git-Integration, DABs-Unterstützung, integrierte Lineage, Warteschlangen und gleichzeitige Ausführungen und vieles mehr...

Am wichtigsten ist, dass Kunden jetzt die ADF Databricks Job-Aktivität nutzen können, um die Publish to Power BI Tasks in Databricks Workflows zu nutzen, die semantische Modelle automatisch aus Schemas in Unity Catalog im Power BI Service veröffentlicht und einen Import auslöst, wenn Tabellen mit Speicher-Modi vorhanden sind, die Import oder Dual verwenden (Einrichtungsanweisungen finden Sie in der Dokumentation). Eine Demo zu Power BI Tasks in Databricks Workflows finden Sie hier. Ergänzend dazu finden Sie das Power BI on Databricks Best Practices Cheat Sheet – ein prägnanter, umsetzbarer Leitfaden, der Teams hilft, ihre Berichte von Anfang an für Leistung, Kosten und Benutzererfahrung zu konfigurieren und zu optimieren.

pbi task

publish to pbi task
Die Databricks Job-Aktivität in ADF ist die neue Best Practice

Die Verwendung der Databricks Job-Aktivität in Azure Data Factory zum Starten von Databricks Workflows ist die neue Best Practice-Integration bei der Verwendung der beiden Tools. Kunden können dieses Muster sofort nutzen, um alle Funktionen der Databricks Data Intelligence Platform zu nutzen. Für Kunden, die ADF verwenden, führt die Verwendung der ADF Databricks Job-Aktivität zu sofortigem Geschäftswert und Kosteneinsparungen. Kunden mit ETL-Frameworks, die Notebook-Aktivitäten verwenden, sollten ihre Frameworks auf Databricks Workflows und die neue ADF Databricks Job-Aktivität migrieren und diese Initiative in ihrer Roadmap priorisieren. 

Jetzt kostenlos testen mit einem 14-tägigen kostenlosen Testversion von Azure Databricks.

(Dieser Blogbeitrag wurde mit KI-gestützten Tools übersetzt.) Originalbeitrag

Never miss a Databricks post

Subscribe to our blog and get the latest posts delivered to your inbox