Revenir au contenu principal

Workflows

Orchestration unifiée des données, de l'analytique et de l'IA sur le lakehouse

Databricks Workflows est un service d'orchestration managé entièrement intégré à la plateforme lakehouse Databricks. Workflows vous permet de définir, gérer et superviser en toute simplicité des workflows multi-tâches pour vos pipelines ETL, d'analytique et de machine learning. Il prend en charge un large éventail de types de tâches, permet une observabilité approfondie et affiche une grande fiabilité. Avec ce service, vos équipes sont en mesure de mieux automatiser et orchestrer tout type de pipeline pour gagner en productivité.

yipit

« Si Databricks Workflows avait existé en 2018, nous n'aurions pas eu l'idée de développer une configuration personnalisée d'Airflow. Nous aurions tout simplement utilisé Workflows. »

— Hillevi Crognale, Responsable de l'ingénierie, YipitData
En savoir plus

graphic 6

Création simplifiée

Que vous soyez data engineer, data analyst ou data scientist, quelques clics – ou votre IDE préféré – suffisent à définir des workflows.

graphic

Insights exploitables

Obtenez une visibilité complète sur chacune des tâches de vos workflows et recevez immédiatement une notification dès qu'un problème est à corriger.

Icon Graphic

Une fiabilité éprouvée

Un service d'orchestration entièrement managé est un gage de sérénité : vous avez l'assurance que vos workflows de production sont constamment opérationnels. Avec un taux de disponibilité de 99,95 %, Databricks Workflows a la confiance de milliers d'organisations.

Comment ça marche ?

Unifié avec la plateforme Lakehouse Databricks

Fiabilité en production

Supervision et observabilité approfondies

Batch et streaming

Efficacité du calcul

Expérience utilisateur sans couture

wood mackenzie

« Grâce à Databricks Workflows, nous avons pu encourager la collaboration et abattre les murs séparant les différentes étapes du processus. Grâce à ce service, nous parlons tous le même langage. »

— Yanyan Wu, Vice-présidente des données, Wood Mackenzie
En savoir plus

Unifié avec la plateforme Lakehouse Databricks

Contrairement aux outils d'orchestration externes, Databricks Workflows est entièrement intégré à la plateforme Lakehouse Databricks. La création des workflows est incorporée nativement à votre espace de travail et vous pouvez automatiser toutes les capacités du lakehouse : pipelines Delta Live Tables, notebooks Databricks et requêtes Databricks SQL. Et avec le Unity Catalog, le data lineage de chaque workflow est automatiquement établi. Vous gardez ainsi un contrôle total sur vos assets de données, à l'échelle de toute l'organisation.

Fiabilité à grande échelle

Chaque jour, des milliers d'organisations confient à Databricks Workflows l'exécution de millions de charges de travail en production sur AWS, Azure et GCP avec un taux de disponibilité de 99,95 %. Avec un outil d'orchestration entièrement managé intégré au lakehouse Databricks, vous n'avez rien de plus à maintenir, à tenir à jour ou à dépanner.

Supervision et observabilité approfondies

En raison de son intégration complète à la plateforme Lakehouse, Databricks Workflows vous offre une observabilité plus détaillée que n'importe quel outil d'orchestration externe. Gardez le contrôle grâce à une vue complète sur chaque exécution de workflow. Configurez des notifications pour être averti en cas d'erreur par e-mail, Slack, PagerDuty ou autre webhook personnalisé. Et gardez une longueur d'avance sur les problèmes : corrigez-les avant qu'ils n'affectent les consommateurs des données.

Batch et streaming

Databricks Workflows offre une solution unique pour orchestrer les tâches de tous les scénarios sur le lakehouse. Utilisez un workflow planifié pour les tâches récurrentes en important des données par batch à heures fixes, ou implémentez des pipeline de données en temps réel qui s'exécutent en continu. Vous pouvez également configurer un workflow pour qu'il se lance lorsque de nouvelles données sont disponibles, grâce aux déclencheurs d'arrivée de fichiers.

Efficacité du calcul

En choisissant Databricks Workflows pour l'orchestration, vous bénéficiez d'un meilleur rapport performance / prix pour vos charges de travail automatisées en production. Réalisez d'importantes économies en utilisant les clusters de tâches automatisés. Ils ont un coût plus faible et ne s'exécutent que lorsqu'une tâche est planifiée pour vous éviter de payer des ressources inutilisées. Qui plus est, les clusters de tâches partagés permettent de réutiliser les ressources de calcul pour plusieurs tâches afin d'optimiser votre consommation.

Expérience utilisateur sans couture

Définissez les workflows dans votre environnement préféré : directement dans l'interface de l'espace de travail Databricks ou dans votre IDE habituel. Créez des tâches reposant sur un notebook à contrôle de version dans un dépôt Databricks ou un dépôt Git distant, et appliquez les bonnes pratiques DevOps comme le CI/CD.

grip

« Vous pouvez très facilement créer un cluster, le réutiliser pour toutes les étapes et l'arrêter quand vous avez terminé. »

— Jimmy Cooper, Cofondateur et CTO, Grip
En savoir plus

Intégrations

Databricks Workflows offre une intégration transparente avec les meilleurs partenaires de l'industrie afin de vous offrir toute la flexibilité nécessaire pour définir des workflows adaptés à vos besoins, avec la solution de données de votre choix.

dbt labs logo
Arcion
Matillion
Azure Data Factory logo
apache airflow
fivetran-logo-small.svg
dbt labs logo
Arcion
Matillion
Azure Data Factory logo
apache airflow
fivetran-logo-small.svg

FAQ

Dans le monde des données, de l'analytique et de l'IA, l'orchestration englobe l'automatisation, le déploiement et la gestion de workflows tels que les pipelines de données ETL et l'entraînement des modèles de machine learning. L'orchestration est un aspect essentiel des opérations de données. Elle joue un rôle décisif dans la mise en production des solutions de données. L'orchestration consiste à gérer les dépendances entre les tâches de workflow et à planifier leur exécution. Elle comporte également un volet d'affectation des ressources de calcul et de surveillance des workflows.

Prêt à vous lancer ?