Revenir au contenu principal

Data Engineering

Des pipelines de données dédiés à l'analytique et l'IA, prêts pour la production

dataIngestion

Importez et transformez facilement des données en batch et en streaming sur la Databricks Data Intelligence Platform. Orchestrez des workflows de production fiables et confiez à Databricks la gestion automatique de votre infrastructure à grande échelle pour profiter d'une gouvernance unifiée. Accélérez l'innovation en maximisant la productivité de votre équipe grâce à un moteur d'intelligence intégré basé sur l'IA qui comprend vos données et vos pipelines.

« Nous ingérons des quantités considérables de données structurées et non structurées en provenance de divers systèmes. Nous les normalisons puis nous développons des modèles ML qui produisent des alertes et des recommandations extrêmement utiles à nos collaborateurs dans les centres d'appel, dans les boutiques et en ligne. »

PEB Kate Hopkins, vice-président, AT&T
AT&T logo

Produits connexes

Operate from First Principles

Des données de confiance provenant de pipelines fiables

Grâce à l'intégration de la validation des données et à la fiabilité éprouvée de la plateforme, les équipes ont toutes les cartes en main pour s'assurer que les données sont correctes, complètes et à jour pour les cas d'usage en aval.

Raise the Bar

Rapport coût/performance optimisé

L'architecture lakehouse serverless, couplée à l'intelligence des données, automatise les opérations complexes associées à la création et à l'exécution de pipelines. Elle élimine les conjectures et les efforts manuels inutiles du travail d'optimisation.

We Put the Company First

Démocratiser l'accès aux données

Une plateforme unifiée conçue pour permettre aux professionnels de gérer des pipelines en batch ou en streaming en important, en transformant et en orchestrant les données. Elle s'adapte à leurs aptitudes techniques, à leurs préférences d'interface et à la finesse d'ajustement requise.

multicloud

Créez avec la Data Intelligence Platform

La Data Intelligence Platform offre la meilleure base pour créer et partager des assets de données fiables et ultra-rapides, avec la confiance qu'offre la centralisation du contrôle.

demarketecture

Pipelines de données gérés

Les données doivent être ingérées et transformées pour être exploitées par l'analytique et l'IA. Avec Delta Live Tables (DLT), Databricks offre de puissantes fonctionnalités de création de pipelines pour les ingénieurs data, les data scientists et les analystes. DLT est un framework pionnier dans sa catégorie. Il utilise une approche déclarative simple pour créer des pipelines sur des données en batch ou en streaming. Par ailleurs, il permet de réduire la complexité opérationnelle en automatisant la gestion de l'infrastructure, l'orchestration des tâches, la gestion des erreurs et reprises d'activité, ainsi que l'optimisation des performances. Grâce à DLT, les ingénieurs peuvent traiter leurs données comme du code et appliquer les bonnes pratiques de génie logiciel, telles que les tests, le monitoring et la documentation, afin de déployer des pipelines fiables à l'échelle.

« [Avec DLT], l'équipe collabore avec une efficacité extraordinaire et exploite tous les jours le pipeline dans ses rapports et ses charges de travail. »

— Dr. Chris Inkpen, Architecte de solutions globales, Honeywell Energy & Environmental Solutions

honeywell logo

dataIngestion

Orchestration unifiée des workflows

Databricks Workflows offre une solution d'orchestration simple et fiable pour les données et l'IA sur la Data Intelligence Platform. Databricks Workflows vous permet d'élaborer des workflows à plusieurs étapes pour implémenter des pipelines ETL, entraîner des modèles ML et bien plus encore. La solution offre de riches capacités de flux de contrôle et prend en charge un large éventail de types de tâches et d'options de déclenchement. En tant qu'orchestrateur natif, Databricks Workflows apporte également un niveau avancé d'observabilité pour superviser et visualiser l'exécution des workflows, tout en émettant des alertes en cas de problème. Les options de calcul serverless vous permettent de profiter d'une mise à l'échelle intelligente afin d'exécuter les tâches avec un maximum d'efficacité.

« Avec Databricks Workflows, nous avons réduit notre empreinte technologique, ce qui se traduit par des déploiements plus rapides et plus simples. Nous parvenons beaucoup plus facilement à tout réunir au même endroit. »

— Ivo Van de Grift, Responsable technique de l'équipe data, Ahold Delhaize (Etos)

ahold delhaize logo

automated-etl-processing

Alimenté par la data intelligence

DatabricksIQ est un moteur d'intelligence des données. Il intègre l'IA à tous les aspects de la Data Intelligence Platform pour maximiser la productivité des ingénieurs data à l'aide d'outils comme le Databricks Assistant. Équipé d'une IA générative et d'une compréhension approfondie de votre environnement Databricks, Databricks Assistant peut générer ou expliquer du code SQL ou Python, détecter des problèmes et suggérer des corrections. DatabricksIQ comprend également vos pipelines et peut les optimiser grâce à une orchestration et une gestion de flux intelligentes, pour vous faire bénéficier d'un calcul serverless.

reliable-workflow

Un moteur de streaming des données de nouvelle génération

Apache Spark™ Structured Streaming est le moteur de streaming open source le plus utilisé au monde. Largement adoptée par les entreprises dans sa forme open source, cette technologie fondamentale sous-tend les pipelines de données en streaming de Databricks, la meilleure plateforme pour exécuter des charges Spark. Spark Structured Streaming propose une API unique et unifiée pour le traitement en batch et en streaming. Cela permet d'implémenter des charges de streaming sans modifier le code, ni acquérir de nouvelles compétences. Alternez très facilement entre le traitement continu et le traitement sur déclenchement pour trouver l'équilibre optimal entre latence et coût.

observability

Gouvernance, fiabilité et performance des données à la pointe

Avec le data engineering sur Databricks, vous bénéficiez des composants fondamentaux de la Data Intelligence Platform : Unity Catalog et Delta Lake. Vos données brutes sont optimisées avec Delta Lake, un format de stockage open source à la fiabilité assurée par les transactions ACID, qui réunit une gestion évolutive des métadonnées et des performances ultra-rapides. Cet outil se combine à Unity Catalog pour vous donner les moyens d'appliquer une gouvernance fine à l'ensemble de vos données et assets d’IA, simplifiant ainsi leur administration. Un même modèle cohérent permet de découvrir, consulter et partager des données entre les clouds. Unity Catalog fournit également une prise en charge native de Delta Sharing, le premier protocole ouvert du secteur pour un partage de données simple et sécurisé avec d’autres organisations.

Intégrations

Profitez d'un écosystème ouvert de partenaires technologiques pour intégrer les meilleurs outils de data engineering en toute simplicité.

Ingestion de données et ETL

fivetran
dbt
arcion
matillion
informatica
confluent
qlikq
airbyte
prophecy
streamsets
alteryx
snaplogic

Clients

« Il nous arrive régulièrement d'être confrontés à des questions qui nous paraissent complexes, de demander à un data engineer d'examiner, sans aucun contexte, un pipeline de données et d'obtenir rapidement les réponses dont nous avons besoin. »
— Barb MacLean, Vice-président senior, Coastal Community Bank

Lire l'article de blog

« Delta Live Tables a considérablement accru notre vitesse de développement. Jusque-là, nous utilisions des processus ETL complexes pour convertir les données brutes en informations lisibles. Aujourd'hui, tout est fait par un simple notebook. Nous utilisons ensuite Delta Live Tables pour faire passer les données au niveau Silver ou Gold en fonction de nos besoins. »
— Advait Raje, responsable d'équipe, Data Engineering, Trek Bicycle

Lire l'article de blog

« Databricks Workflows est notre outil d'orchestration par défaut pour l'ETL. Nous l'utilisons pour automatiser environ 300 tâches, dont 120 environ s'exécutent à intervalle régulier. »
— Robert Hamlet, Data engineer en chef, Enterprise Data Services, Cox Automotive

Lire l'article de blog

« Nous tenions à optimiser le rapport prix/performance, et Databricks a parfaitement répondu à ce critère. La Data Intelligence Platform nous a permis de réduire nos coûts sans sacrifier les performances sur une gamme variée de charges de travail. Cela nous aide à optimiser nos opérations de données et d'IA, aujourd'hui comme demain. »
— Mohit Saxena, Cofondateur et directeur technique groupe, InMobi

Lire l'article de blog

FAQ

Le data engineering est la pratique qui consiste à prendre les données brutes en provenance d'une source, puis à les traiter, les stocker et les organiser pour qu'elles soient exploitables par une application en aval – analytique, business intelligence (BI) ou entraînement de modèle de machine learning (ML). Autrement dit, c'est le processus qui prépare les données afin que nous puissions en extraire de la valeur. Le processus ETL (extraire, transformer et charger) en est un exemple courant : il définit un pipeline qui extrait les données d'une source, les transforme et les charge (ou les stocke) dans un système cible, un data warehouse par exemple.