Data Engineering
Des pipelines de données dédiés à l'analytique et l'IA, prêts pour la production
Importez et transformez facilement des données en batch et en streaming sur la Databricks Data Intelligence Platform. Orchestrez des workflows de production fiables et confiez à Databricks la gestion automatique de votre infrastructure à grande échelle pour profiter d'une gouvernance unifiée. Accélérez l'innovation en maximisant la productivité de votre équipe grâce à un moteur d'intelligence intégré basé sur l'IA qui comprend vos données et vos pipelines.
Produits connexes
Des données de confiance provenant de pipelines fiables
Grâce à l'intégration de la validation des données et à la fiabilité éprouvée de la plateforme, les équipes ont toutes les cartes en main pour s'assurer que les données sont correctes, complètes et à jour pour les cas d'usage en aval.
Rapport coût/performance optimisé
L'architecture lakehouse serverless, couplée à l'intelligence des données, automatise les opérations complexes associées à la création et à l'exécution de pipelines. Elle élimine les conjectures et les efforts manuels inutiles du travail d'optimisation.
Démocratiser l'accès aux données
Une plateforme unifiée conçue pour permettre aux professionnels de gérer des pipelines en batch ou en streaming en important, en transformant et en orchestrant les données. Elle s'adapte à leurs aptitudes techniques, à leurs préférences d'interface et à la finesse d'ajustement requise.
Créez avec la Data Intelligence Platform
La Data Intelligence Platform offre la meilleure base pour créer et partager des assets de données fiables et ultra-rapides, avec la confiance qu'offre la centralisation du contrôle.
Pipelines de données gérés
Les données doivent être ingérées et transformées pour être exploitées par l'analytique et l'IA. Avec Delta Live Tables (DLT), Databricks offre de puissantes fonctionnalités de création de pipelines pour les ingénieurs data, les data scientists et les analystes. DLT est un framework pionnier dans sa catégorie. Il utilise une approche déclarative simple pour créer des pipelines sur des données en batch ou en streaming. Par ailleurs, il permet de réduire la complexité opérationnelle en automatisant la gestion de l'infrastructure, l'orchestration des tâches, la gestion des erreurs et reprises d'activité, ainsi que l'optimisation des performances. Grâce à DLT, les ingénieurs peuvent traiter leurs données comme du code et appliquer les bonnes pratiques de génie logiciel, telles que les tests, le monitoring et la documentation, afin de déployer des pipelines fiables à l'échelle.
« [Avec DLT], l'équipe collabore avec une efficacité extraordinaire et exploite tous les jours le pipeline dans ses rapports et ses charges de travail. »
— Dr. Chris Inkpen, Architecte de solutions globales, Honeywell Energy & Environmental Solutions
Orchestration unifiée des workflows
Databricks Workflows offre une solution d'orchestration simple et fiable pour les données et l'IA sur la Data Intelligence Platform. Databricks Workflows vous permet d'élaborer des workflows à plusieurs étapes pour implémenter des pipelines ETL, entraîner des modèles ML et bien plus encore. La solution offre de riches capacités de flux de contrôle et prend en charge un large éventail de types de tâches et d'options de déclenchement. En tant qu'orchestrateur natif, Databricks Workflows apporte également un niveau avancé d'observabilité pour superviser et visualiser l'exécution des workflows, tout en émettant des alertes en cas de problème. Les options de calcul serverless vous permettent de profiter d'une mise à l'échelle intelligente afin d'exécuter les tâches avec un maximum d'efficacité.
« Avec Databricks Workflows, nous avons réduit notre empreinte technologique, ce qui se traduit par des déploiements plus rapides et plus simples. Nous parvenons beaucoup plus facilement à tout réunir au même endroit. »
— Ivo Van de Grift, Responsable technique de l'équipe data, Ahold Delhaize (Etos)
Alimenté par la data intelligence
DatabricksIQ est un moteur d'intelligence des données. Il intègre l'IA à tous les aspects de la Data Intelligence Platform pour maximiser la productivité des ingénieurs data à l'aide d'outils comme le Databricks Assistant. Équipé d'une IA générative et d'une compréhension approfondie de votre environnement Databricks, Databricks Assistant peut générer ou expliquer du code SQL ou Python, détecter des problèmes et suggérer des corrections. DatabricksIQ comprend également vos pipelines et peut les optimiser grâce à une orchestration et une gestion de flux intelligentes, pour vous faire bénéficier d'un calcul serverless.
Un moteur de streaming des données de nouvelle génération
Apache Spark™ Structured Streaming est le moteur de streaming open source le plus utilisé au monde. Largement adoptée par les entreprises dans sa forme open source, cette technologie fondamentale sous-tend les pipelines de données en streaming de Databricks, la meilleure plateforme pour exécuter des charges Spark. Spark Structured Streaming propose une API unique et unifiée pour le traitement en batch et en streaming. Cela permet d'implémenter des charges de streaming sans modifier le code, ni acquérir de nouvelles compétences. Alternez très facilement entre le traitement continu et le traitement sur déclenchement pour trouver l'équilibre optimal entre latence et coût.
Gouvernance, fiabilité et performance des données à la pointe
Avec le data engineering sur Databricks, vous bénéficiez des composants fondamentaux de la Data Intelligence Platform : Unity Catalog et Delta Lake. Vos données brutes sont optimisées avec Delta Lake, un format de stockage open source à la fiabilité assurée par les transactions ACID, qui réunit une gestion évolutive des métadonnées et des performances ultra-rapides. Cet outil se combine à Unity Catalog pour vous donner les moyens d'appliquer une gouvernance fine à l'ensemble de vos données et assets d’IA, simplifiant ainsi leur administration. Un même modèle cohérent permet de découvrir, consulter et partager des données entre les clouds. Unity Catalog fournit également une prise en charge native de Delta Sharing, le premier protocole ouvert du secteur pour un partage de données simple et sécurisé avec d’autres organisations.
Intégrations
Profitez d'un écosystème ouvert de partenaires technologiques pour intégrer les meilleurs outils de data engineering en toute simplicité.
Clients
« Il nous arrive régulièrement d'être confrontés à des questions qui nous paraissent complexes, de demander à un data engineer d'examiner, sans aucun contexte, un pipeline de données et d'obtenir rapidement les réponses dont nous avons besoin. »
— Barb MacLean, Vice-président senior, Coastal Community Bank
« Delta Live Tables a considérablement accru notre vitesse de développement. Jusque-là, nous utilisions des processus ETL complexes pour convertir les données brutes en informations lisibles. Aujourd'hui, tout est fait par un simple notebook. Nous utilisons ensuite Delta Live Tables pour faire passer les données au niveau Silver ou Gold en fonction de nos besoins. »
— Advait Raje, responsable d'équipe, Data Engineering, Trek Bicycle
« Databricks Workflows est notre outil d'orchestration par défaut pour l'ETL. Nous l'utilisons pour automatiser environ 300 tâches, dont 120 environ s'exécutent à intervalle régulier. »
— Robert Hamlet, Data engineer en chef, Enterprise Data Services, Cox Automotive
« Nous tenions à optimiser le rapport prix/performance, et Databricks a parfaitement répondu à ce critère. La Data Intelligence Platform nous a permis de réduire nos coûts sans sacrifier les performances sur une gamme variée de charges de travail. Cela nous aide à optimiser nos opérations de données et d'IA, aujourd'hui comme demain. »
— Mohit Saxena, Cofondateur et directeur technique groupe, InMobi