16 mai 2025

Meilleures pratiques : Lancement natif des workflows Databricks dans Azure Data Factory

Les clients d'Azure Data Factory peuvent désormais tirer le meilleur parti de la plateforme d'intelligence des données Databricks en utilisant les flux de travail Databricks

par Leo Furlong et Prashanth Babu Velanati Venkata

L'activité Tâche Databricks dans Azure Data Factory est la méthode recommandée pour orchestrer les tâches dans Databricks.
Cette intégration apporte une valeur commerciale immédiate et des économies grâce à l'accès à la plateforme complète d'intelligence des données.
Les utilisateurs dont les frameworks ETL utilisent des activités de Notebook devraient migrer vers les flux de travail Databricks et l'activité Tâche Databricks d'ADF.

Azure Databricks est un service Microsoft de premier plan, intégré nativement à l'écosystème Azure pour unifier les données et l'IA avec une analyse haute performance et un support d'outils approfondi. Cette intégration étroite comprend désormais une activité Databricks Job native dans Azure Data Factory (ADF), ce qui facilite plus que jamais le déclenchement de Databricks Workflows directement dans ADF.

Cette nouvelle activité dans ADF est une meilleure pratique immédiate, et tous les utilisateurs d'ADF et d'Azure Databricks devraient envisager de passer à ce modèle.

La nouvelle activité Databricks Job est très simple à utiliser :

Dans votre pipeline ADF, faites glisser l'activité Databricks Job sur l'écran
Dans l'onglet Azure Databricks, sélectionnez un service lié Databricks pour l'authentification auprès de l'espace de travail Azure Databricks
- Vous pouvez vous authentifier en utilisant l'une de ces options :
  - un jeton PAT
  - l'identité managée attribuée par le système ADF, ou
  - une identité managée attribuée par l'utilisateur
- Bien que le service lié vous oblige à configurer un cluster, ce cluster n'est ni créé ni utilisé lors de l'exécution de cette activité. Il est conservé pour la compatibilité avec d'autres types d'activités

jobs activity

3. Dans l'onglet des paramètres, sélectionnez un Databricks Workflow à exécuter dans la liste déroulante Job (vous ne verrez que les Jobs auxquels votre principal authentifié a accès). Dans la section Job Parameters ci-dessous, configurez les paramètres du Job (le cas échéant) à envoyer au Databricks Workflow. Pour en savoir plus sur les paramètres de Job Databricks, consultez la documentation.

Notez que le Job et les Job Parameters peuvent être configurés avec du contenu dynamique

job parameter

Et voilà. ADF lancera votre Databricks Workflow et renverra l'ID d'exécution du Job et l'URL. ADF interrogera ensuite l'exécution du Job jusqu'à sa complétion. Lisez la suite pour découvrir pourquoi ce nouveau modèle est un classique instantané.

gif pbi

Lancer des Databricks Workflows depuis ADF vous permet de tirer le meilleur parti de votre investissement Azure Databricks

L'utilisation conjointe d'Azure Data Factory et d'Azure Databricks est un modèle GA depuis 2018, date de sa publication avec cet article de blog. Depuis lors, l'intégration est devenue un élément essentiel pour les clients Azure qui ont principalement suivi ce modèle simple :

Utiliser ADF pour déposer des données dans le stockage Azure via ses plus de 100 connecteurs en utilisant un runtime d'intégration auto-hébergé pour les connexions privées ou sur site
Orchestrer des notebooks Databricks via l'activité native Databricks Notebook pour implémenter une transformation de données évolutive dans Databricks en utilisant des tables Delta Lake dans ADLS

Bien que ce modèle ait été extrêmement précieux au fil du temps, il a contraint les clients dans les modes de fonctionnement suivants, qui les privent de la pleine valeur de Databricks :

Utilisation du calcul All Purpose pour exécuter des Jobs afin d'éviter les temps de lancement de cluster -> problèmes de voisins bruyants et paiement du calcul All Purpose pour les jobs automatisés
Attente du lancement de cluster par exécution de notebook lors de l'utilisation du calcul Jobs -> les clusters classiques sont démarrés par exécution de notebook, entraînant un temps de lancement de cluster pour chacun, même pour un DAG de notebooks
Gestion des pools pour réduire les temps de lancement des clusters de Jobs -> les pools peuvent être difficiles à gérer et peuvent souvent entraîner le paiement de VM qui ne sont pas utilisées
Utilisation d'un modèle d'autorisations trop permissif pour l'intégration entre ADF et Azure Databricks -> l'intégration nécessite l'administrateur de l'espace de travail OU le droit de créer un cluster
Aucune possibilité d'utiliser les nouvelles fonctionnalités de Databricks comme Databricks SQL, DLT ou Serverless

Bien que ce modèle soit évolutif et natif à Azure Data Factory et Azure Databricks, les outils et les capacités qu'il offre sont restés les mêmes depuis son lancement en 2018, même si Databricks s'est considérablement développé pour devenir la plateforme d'intelligence de données leader du marché sur tous les clouds.

Azure Databricks va au-delà de l'analyse traditionnelle pour offrir une plateforme unifiée d'intelligence de données sur Azure. Elle combine une architecture Lakehouse leader de l'industrie avec l'IA intégrée et une gouvernance avancée pour aider les clients à obtenir des informations plus rapidement, à moindre coût et avec une sécurité de niveau entreprise. Les capacités clés comprennent :

Normes OSS et ouvertes
Un catalogue Lakehouse leader de l'industrie via Unity Catalog pour sécuriser les données et l'IA à travers le code, les langages et le calcul à l'intérieur et à l'extérieur d'Azure Databricks
Performances et rapport prix/performance de premier ordre pour l'ETL
Capacités intégrées pour le ML traditionnel et le GenAI, y compris le réglage fin des LLM, l'utilisation de modèles fondamentaux (y compris Claude Sonnet), la création d'applications Agent et le service de modèles
Meilleure solution d'entrepôt de données (DW) sur le Lakehouse avec Databricks SQL
Publication et intégration automatisées avec Power BI grâce à la fonctionnalité Publish to Power BI trouvée dans Unity Catalog et Workflows

Avec la sortie de l'activité native Databricks Job dans Azure Data Factory, les clients peuvent désormais exécuter des Databricks Workflows et passer des paramètres aux exécutions de Jobs. Ce nouveau modèle résout non seulement les contraintes mises en évidence ci-dessus, mais il permet également l'utilisation des fonctionnalités suivantes dans Databricks qui n'étaient pas précédemment disponibles dans ADF, comme :

Programmation d'un DAG de tâches dans Databricks
Utilisation des intégrations Databricks SQL
Exécution des pipelines DLT
Utilisation de l'intégration dbt avec un SQL Warehouse
Utilisation de la réutilisation des clusters de tâches classiques pour réduire les temps de lancement des clusters
Utilisation du calcul Serverless Jobs
Fonctionnalités standard de Databricks Workflow telles que Exécuter en tant que, Valeurs de tâche, Exécutions conditionnelles comme Si/Sinon et Pour Chaque, Tâche IA/BI, Réparer les exécutions, Notifications/Alertes, Intégration Git, prise en charge de DABs, lignage intégré, files d'attente et exécutions simultanées, et bien plus encore...

Plus important encore, les clients peuvent désormais utiliser l'activité de tâche Databricks d'ADF pour tirer parti de la Publication dans les tâches Power BI dans Databricks Workflows, qui publiera automatiquement des modèles sémantiques dans le service Power BI à partir de schémas dans Unity Catalog et déclenchera une importation s'il existe des tables avec des modes de stockage utilisant l'importation ou le mode double (instructions de configuration documentation). Une démonstration sur les tâches Power BI dans Databricks Workflows est disponible ici. Pour compléter cela, consultez la Feuille de triche sur les meilleures pratiques Power BI sur Databricks – un guide concis et actionnable qui aide les équipes à configurer et optimiser leurs rapports pour la performance, le coût et l'expérience utilisateur dès le départ.

pbi task

publish to pbi task
L'activité de tâche Databricks dans ADF est la nouvelle meilleure pratique

L'utilisation de l'activité Databricks Job dans Azure Data Factory pour lancer des Databricks Workflows est la nouvelle meilleure pratique d'intégration lors de l'utilisation des deux outils. Les clients peuvent immédiatement commencer à utiliser ce modèle pour tirer parti de toutes les capacités de la plateforme d'intelligence de données Databricks. Pour les clients utilisant ADF, l'utilisation de l'activité Databricks Job d'ADF entraînera une valeur commerciale immédiate et des économies de coûts. Les clients disposant de frameworks ETL qui utilisent des activités de notebook devraient migrer leurs frameworks pour utiliser Databricks Workflows et la nouvelle activité Databricks Job d'ADF et prioriser cette initiative dans leur feuille de route.

Commencez avec un essai gratuit de 14 jours d'Azure Databricks.

(Cet article de blog a été traduit à l'aide d'outils basés sur l'intelligence artificielle) Article original

Recevez les derniers articles dans votre boîte mail

Abonnez-vous à notre blog et recevez les derniers articles directement dans votre boîte mail.

Voir tous les blogs

Lancer des Databricks Workflows depuis ADF vous permet de tirer le meilleur parti de votre investissement Azure Databricks

Recevez les derniers articles dans votre boîte mail

Sign up