Passa al contenuto principale

Best Practices: Avvio nativo dei flussi di lavoro Databricks in Azure Data Factory

I clienti di Azure Data Factory possono ora ottenere il massimo dalla Piattaforma di Intelligenza dei Dati Databricks utilizzando Databricks Workflows

db - pbi image 3

Pubblicato: 16 maggio 2025

Partner5 min di lettura

Summary

  • L'attività Databricks Job in Azure Data Factory è il metodo consigliato per orchestrare i Job in Databricks.
  • Questa integrazione offre un valore aziendale immediato e risparmi sui costi fornendo l'accesso all'intera Piattaforma di Intelligenza dei Dati.
  • Gli utenti con framework ETL che utilizzano attività Notebook dovrebbero migrare a Databricks Workflows e all'attività Databricks Job di ADF.

Azure Databricks è un servizio Microsoft di prima parte, integrato nativamente con l'ecosistema Azure per unificare dati e AI con analisi ad alte prestazioni e un supporto di strumenti approfondito. Questa stretta integrazione include ora un'attività nativa di Job Databricks in Azure Data Factory (ADF), rendendo più facile che mai attivare i Workflow Databricks direttamente all'interno di ADF.

Questa nuova attività in ADF è una best practice immediata e tutti gli utenti ADF e Azure Databricks dovrebbero considerare di passare a questo modello.

La nuova attività Databricks Job è molto semplice da usare:

  1. Nella tua pipeline ADF, trascina l'attività Databricks Job sullo schermo  
  2. Nella scheda Azure Databricks, seleziona un servizio collegato Databricks per l'autenticazione all'area di lavoro Azure Databricks
    • Puoi autenticarti utilizzando una di queste opzioni: 
      • un token PAT 
      • l'identità gestita assegnata dal sistema ADF, o 
      • un'identità gestita assegnata dall'utente
    • Sebbene il servizio collegato richieda la configurazione di un cluster, questo cluster non viene né creato né utilizzato durante l'esecuzione di questa attività. Viene mantenuto per compatibilità con altri tipi di attività

jobs activity

3. Nella scheda impostazioni, seleziona un Workflow Databricks da eseguire nell'elenco a discesa Job (vedrai solo i Job a cui il tuo principal autenticato ha accesso). Nella sezione Parametri Job sottostante, configura i Parametri Job (se presenti) da inviare al Workflow Databricks. Per saperne di più sui Parametri Job Databricks, consulta la documentazione.  

  • Nota che il Job e i Parametri Job possono essere configurati con contenuto dinamico

job parameter

Tutto qui. ADF avvierà il tuo Workflow Databricks e restituirà l'ID di esecuzione del Job e l'URL. ADF quindi monitorerà il completamento dell'esecuzione del Job. Leggi di seguito per scoprire perché questo nuovo modello è un classico istantaneo. 

gif pbi

L'avvio dei Workflow Databricks da ADF ti consente di ottenere maggiore potenza dal tuo investimento in Azure Databricks

L'utilizzo congiunto di Azure Data Factory e Azure Databricks è un modello GA dal 2018, quando è stato rilasciato con questo post del blog.  Da allora, l'integrazione è stata un punto fermo per i clienti Azure che hanno seguito principalmente questo semplice modello:

  1. Utilizza ADF per caricare dati in Azure Storage tramite i suoi oltre 100 connettori, utilizzando un runtime di integrazione self-hosted per connessioni private o on-premise
  2. Orchestra Notebook Databricks tramite l'attività nativa Notebook Databricks per implementare trasformazioni dati scalabili in Databricks utilizzando tabelle Delta Lake in ADLS
GUIDA

La tua guida compatta all'analitica moderna

Sebbene questo modello sia stato estremamente prezioso nel tempo, ha limitato i clienti alle seguenti modalità operative, che li privano del pieno valore di Databricks:

  • Utilizzo di calcolo All Purpose per eseguire Job per evitare tempi di avvio del cluster -> si verificano problemi di noisy neighbor e si paga per il calcolo All Purpose per job automatizzati
  • Attesa dell'avvio del cluster per ogni esecuzione di Notebook quando si utilizza il calcolo Job -> i cluster classici vengono avviati per ogni esecuzione di notebook, con tempi di avvio del cluster per ciascuno, anche per un DAG di notebook
  • Gestione di Pool per ridurre i tempi di avvio dei cluster Job -> i pool possono essere difficili da gestire e spesso portano a pagare per VM non utilizzate
  • Utilizzo di un modello di autorizzazioni eccessivamente permissivo per l'integrazione tra ADF e Azure Databricks -> l'integrazione richiede l'amministratore dell'area di lavoro O il diritto di creare cluster
  • Nessuna possibilità di utilizzare nuove funzionalità in Databricks come Databricks SQL, DLT o Serverless

Sebbene questo modello sia scalabile e nativo per Azure Data Factory e Azure Databricks, gli strumenti e le funzionalità che offre sono rimasti gli stessi dal suo lancio nel 2018, anche se Databricks è cresciuto enormemente fino a diventare la Piattaforma di Data Intelligence leader di mercato su tutti i cloud.

Azure Databricks va oltre l'analisi tradizionale per offrire una Piattaforma di Data Intelligence unificata su Azure. Combina l'architettura Lakehouse leader del settore con AI integrata e governance avanzata per aiutare i clienti a sbloccare insight più velocemente, a costi inferiori e con sicurezza di livello enterprise. Le funzionalità chiave includono:

  • Standard OSS e Open
  • Un catalogo Lakehouse leader del settore tramite Unity Catalog per proteggere dati e AI attraverso codice, linguaggi e calcolo all'interno e all'esterno di Azure Databricks
  • Prestazioni e rapporto prezzo/prestazioni best-in-class per ETL 
  • Funzionalità integrate per ML tradizionale e GenAI, tra cui il fine-tuning di LLM, l'utilizzo di modelli fondamentali (incluso Claude Sonnet), la creazione di applicazioni Agent e il serving di modelli 
  • DW best-in-class sul lakehouse con Databricks SQL
  • Pubblicazione automatizzata e integrazione con Power BI tramite la funzionalità Publish to Power BI presente in Unity Catalog e Workflows

Con il rilascio dell'attività nativa Databricks Job in Azure Data Factory, i clienti possono ora eseguire Workflow Databricks e passare parametri alle esecuzioni dei Job. Questo nuovo modello non solo risolve i vincoli evidenziati sopra, ma consente anche l'utilizzo delle seguenti funzionalità in Databricks che non erano precedentemente disponibili in ADF come:

  • Programmare un DAG di attività in Databricks
  • Utilizzo delle integrazioni Databricks SQL
  • Esecuzione di pipeline DLT
  • Utilizzo dell'integrazione dbt con un SQL Warehouse
  • Utilizzo del riutilizzo del cluster di job classico per ridurre i tempi di avvio del cluster
  • Utilizzo del calcolo Serverless Jobs
  • Funzionalità standard di Databricks Workflow come Run As, Task Values, Esecuzioni Condizionali come If/Else e For Each, Attività AI/BI, Repair Runs, Notifiche/Avvisi, integrazione Git, supporto DABs, lineage integrato, accodamento ed esecuzioni concorrenti, e molto altro...

Soprattutto, i clienti possono ora utilizzare l'attività ADF Databricks Job per sfruttare le Pubblica attività in Power BI in Databricks Workflows, che pubblicherà automaticamente i modelli semantici al servizio Power BI dagli schemi in Unity Catalog e attiverà un'importazione se ci sono tabelle con modalità di archiviazione che utilizzano Import o Dual (istruzioni di configurazione documentazione). Una demo sulle attività di Power BI in Databricks Workflows è disponibile qui. A complemento di ciò, consulta il Foglio riassuntivo delle best practice di Power BI su Databricks – una guida concisa e attuabile che aiuta i team a configurare e ottimizzare i loro report per prestazioni, costi e user experience fin dall'inizio.

pbi task

publish to pbi task
L'attività Databricks Job in ADF è la Nuova Best Practice

Utilizzare l'attività Databricks Job in Azure Data Factory per avviare Databricks Workflows è la nuova best practice di integrazione quando si utilizzano i due strumenti. I clienti possono iniziare immediatamente a utilizzare questo pattern per sfruttare tutte le capacità della Databricks Data Intelligence Platform. Per i clienti che utilizzano ADF, l'utilizzo dell'attività Databricks Job di ADF si tradurrà in un valore aziendale immediato e risparmi sui costi. I clienti con framework ETL che utilizzano attività Notebook dovrebbero migrare i loro framework per utilizzare Databricks Workflows e la nuova attività ADF Databricks Job e dare priorità a questa iniziativa nella loro roadmap. 

Inizia con una Prova gratuita di 14 giorni di Azure Databricks.

(Questo post sul blog è stato tradotto utilizzando strumenti basati sull'intelligenza artificiale) Post originale

Never miss a Databricks post

Subscribe to our blog and get the latest posts delivered to your inbox