Azure Databricks est un service Microsoft de premier plan, intégré nativement à l'écosystème Azure pour unifier les données et l'IA avec une analyse haute performance et un support d'outils approfondi. Cette intégration étroite comprend désormais une activité Databricks Job native dans Azure Data Factory (ADF), ce qui facilite plus que jamais le déclenchement de Databricks Workflows directement dans ADF.
Cette nouvelle activité dans ADF est une meilleure pratique immédiate, et tous les utilisateurs d'ADF et d'Azure Databricks devraient envisager de passer à ce modèle.
La nouvelle activité Databricks Job est très simple à utiliser :

3. Dans l'onglet des paramètres, sélectionnez un Databricks Workflow à exécuter dans la liste déroulante Job (vous ne verrez que les Jobs auxquels votre principal authentifié a accès). Dans la section Job Parameters ci-dessous, configurez les paramètres du Job (le cas échéant) à envoyer au Databricks Workflow. Pour en savoir plus sur les paramètres de Job Databricks, consultez la documentation.

Et voilà. ADF lancera votre Databricks Workflow et renverra l'ID d'exécution du Job et l'URL. ADF interrogera ensuite l'exécution du Job jusqu'à sa complétion. Lisez la suite pour découvrir pourquoi ce nouveau modèle est un classique instantané.

L'utilisation conjointe d'Azure Data Factory et d'Azure Databricks est un modèle GA depuis 2018, date de sa publication avec cet article de blog. Depuis lors, l'intégration est devenue un élément essentiel pour les clients Azure qui ont principalement suivi ce modèle simple :
Bien que ce modèle ait été extrêmement précieux au fil du temps, il a contraint les clients dans les modes de fonctionnement suivants, qui les privent de la pleine valeur de Databricks :
Bien que ce modèle soit évolutif et natif à Azure Data Factory et Azure Databricks, les outils et les capacités qu'il offre sont restés les mêmes depuis son lancement en 2018, même si Databricks s'est considérablement développé pour devenir la plateforme d'intelligence de données leader du marché sur tous les clouds.
Azure Databricks va au-delà de l'analyse traditionnelle pour offrir une plateforme unifiée d'intelligence de données sur Azure. Elle combine une architecture Lakehouse leader de l'industrie avec l'IA intégrée et une gouvernance avancée pour aider les clients à obtenir des informations plus rapidement, à moindre coût et avec une sécurité de niveau entreprise. Les capacités clés comprennent :
Avec la sortie de l'activité native Databricks Job dans Azure Data Factory, les clients peuvent désormais exécuter des Databricks Workflows et passer des paramètres aux exécutions de Jobs. Ce nouveau modèle résout non seulement les contraintes mises en évidence ci-dessus, mais il permet également l'utilisation des fonctionnalités suivantes dans Databricks qui n'étaient pas précédemment disponibles dans ADF, comme :
Plus important encore, les clients peuvent désormais utiliser l'activité de tâche Databricks d'ADF pour tirer parti de la Publication dans les tâches Power BI dans Databricks Workflows, qui publiera automatiquement des modèles sémantiques dans le service Power BI à partir de schémas dans Unity Catalog et déclenchera une importation s'il existe des tables avec des modes de stockage utilisant l'importation ou le mode double (instructions de configuration documentation). Une démonstration sur les tâches Power BI dans Databricks Workflows est disponible ici. Pour compléter cela, consultez la Feuille de triche sur les meilleures pratiques Power BI sur Databricks – un guide concis et actionnable qui aide les équipes à configurer et optimiser leurs rapports pour la performance, le coût et l'expérience utilisateur dès le départ.


L'activité de tâche Databricks dans ADF est la nouvelle meilleure pratique
L'utilisation de l'activité Databricks Job dans Azure Data Factory pour lancer des Databricks Workflows est la nouvelle meilleure pratique d'intégration lors de l'utilisation des deux outils. Les clients peuvent immédiatement commencer à utiliser ce modèle pour tirer parti de toutes les capacités de la plateforme d'intelligence de données Databricks. Pour les clients utilisant ADF, l'utilisation de l'activité Databricks Job d'ADF entraînera une valeur commerciale immédiate et des économies de coûts. Les clients disposant de frameworks ETL qui utilisent des activités de notebook devraient migrer leurs frameworks pour utiliser Databricks Workflows et la nouvelle activité Databricks Job d'ADF et prioriser cette initiative dans leur feuille de route.
Commencez avec un essai gratuit de 14 jours d'Azure Databricks.
(Cet article de blog a été traduit à l'aide d'outils basés sur l'intelligence artificielle) Article original
