Workflows
Orchestration unifiée des données, de l'analytique et de l'IA sur le lakehouse
Databricks Workflows est un service d'orchestration managé entièrement intégré à la plateforme lakehouse Databricks. Workflows vous permet de définir, gérer et superviser en toute simplicité des workflows multi-tâches pour vos pipelines ETL, d'analytique et de machine learning. Il prend en charge un large éventail de types de tâches, permet une observabilité approfondie et affiche une grande fiabilité. Avec ce service, vos équipes sont en mesure de mieux automatiser et orchestrer tout type de pipeline pour gagner en productivité.
Création simplifiée
Que vous soyez data engineer, data analyst ou data scientist, quelques clics – ou votre IDE préféré – suffisent à définir des workflows.
Insights exploitables
Obtenez une visibilité complète sur chacune des tâches de vos workflows et recevez immédiatement une notification dès qu'un problème est à corriger.
Une fiabilité éprouvée
Un service d'orchestration entièrement managé est un gage de sérénité : vous avez l'assurance que vos workflows de production sont constamment opérationnels. Avec un taux de disponibilité de 99,95 %, Databricks Workflows a la confiance de milliers d'organisations.
Comment ça marche ?
Unifié avec la plateforme Lakehouse Databricks
Fiabilité en production
Supervision et observabilité approfondies
Batch et streaming
Efficacité du calcul
Expérience utilisateur sans couture
Unifié avec la plateforme Lakehouse Databricks
Contrairement aux outils d'orchestration externes, Databricks Workflows est entièrement intégré à la plateforme Lakehouse Databricks. La création des workflows est incorporée nativement à votre espace de travail et vous pouvez automatiser toutes les capacités du lakehouse : pipelines Delta Live Tables, notebooks Databricks et requêtes Databricks SQL. Et avec le Unity Catalog, le data lineage de chaque workflow est automatiquement établi. Vous gardez ainsi un contrôle total sur vos assets de données, à l'échelle de toute l'organisation.
Fiabilité à grande échelle
Chaque jour, des milliers d'organisations confient à Databricks Workflows l'exécution de millions de charges de travail en production sur AWS, Azure et GCP avec un taux de disponibilité de 99,95 %. Avec un outil d'orchestration entièrement managé intégré au lakehouse Databricks, vous n'avez rien de plus à maintenir, à tenir à jour ou à dépanner.
Supervision et observabilité approfondies
En raison de son intégration complète à la plateforme Lakehouse, Databricks Workflows vous offre une observabilité plus détaillée que n'importe quel outil d'orchestration externe. Gardez le contrôle grâce à une vue complète sur chaque exécution de workflow. Configurez des notifications pour être averti en cas d'erreur par e-mail, Slack, PagerDuty ou autre webhook personnalisé. Et gardez une longueur d'avance sur les problèmes : corrigez-les avant qu'ils n'affectent les consommateurs des données.
Batch et streaming
Databricks Workflows offre une solution unique pour orchestrer les tâches de tous les scénarios sur le lakehouse. Utilisez un workflow planifié pour les tâches récurrentes en important des données par batch à heures fixes, ou implémentez des pipeline de données en temps réel qui s'exécutent en continu. Vous pouvez également configurer un workflow pour qu'il se lance lorsque de nouvelles données sont disponibles, grâce aux déclencheurs d'arrivée de fichiers.
Efficacité du calcul
En choisissant Databricks Workflows pour l'orchestration, vous bénéficiez d'un meilleur rapport performance / prix pour vos charges de travail automatisées en production. Réalisez d'importantes économies en utilisant les clusters de tâches automatisés. Ils ont un coût plus faible et ne s'exécutent que lorsqu'une tâche est planifiée pour vous éviter de payer des ressources inutilisées. Qui plus est, les clusters de tâches partagés permettent de réutiliser les ressources de calcul pour plusieurs tâches afin d'optimiser votre consommation.
Expérience utilisateur sans couture
Définissez les workflows dans votre environnement préféré : directement dans l'interface de l'espace de travail Databricks ou dans votre IDE habituel. Créez des tâches reposant sur un notebook à contrôle de version dans un dépôt Databricks ou un dépôt Git distant, et appliquez les bonnes pratiques DevOps comme le CI/CD.
Intégrations
Databricks Workflows offre une intégration transparente avec les meilleurs partenaires de l'industrie afin de vous offrir toute la flexibilité nécessaire pour définir des workflows adaptés à vos besoins, avec la solution de données de votre choix.
FAQ
Dans le monde des données, de l'analytique et de l'IA, l'orchestration englobe l'automatisation, le déploiement et la gestion de workflows tels que les pipelines de données ETL et l'entraînement des modèles de machine learning. L'orchestration est un aspect essentiel des opérations de données. Elle joue un rôle décisif dans la mise en production des solutions de données. L'orchestration consiste à gérer les dépendances entre les tâches de workflow et à planifier leur exécution. Elle comporte également un volet d'affectation des ressources de calcul et de surveillance des workflows.