Revenir au contenu principal

Data Engineering

Des dizaines de millions de charges de travail de production s’exécutent quotidiennement sur Databricks

data-engineering-header

Importez et transformez facilement des données en lot et en streaming sur la plateforme Databricks Lakehouse. Orchestrez des workflows de production fiables et confiez à Databricks la gestion automatique de votre infrastructure à grande échelle. Maximisez la productivité de vos équipes grâce aux tests intégrés de qualité des données et à l'implémentation de bonnes pratiques de développement logiciel.

Operate from First Principles

Unifier batch et streaming

Éliminez les silos : grâce à une API unique et unifiée, ingérez, transformez et traitez les données en lots et en streaming de manière incrémentielle et à grande échelle, au sein d'une même plateforme

Raise the Bar

La priorité : créer de la valeur à partir des données

Databricks gère automatiquement votre infrastructure et les composants opérationnels de vos workflows de production : vous pouvez vous concentrer sur la valeur plutôt que sur les outils.

We Put the Company First

Connectez vos outils préférés

La plateforme Lakehouse ouverte connecte et exploite vos outils préférés de data engineering pour l'ingestion des données, l'ETL / ELT et l'orchestration.

multicloud

Développez sur la plateforme Lakehouse

La plateforme Lakehouse offre la meilleure base pour créer et partager des assets de données fiables et ultra-rapides, avec la confiance que donne la centralisation du contrôle.

« Chez nous, Databricks est en train de devenir le centre nerveux de toutes nos tâches ETL. Plus nous utilisons la plateforme Lakehouse, plus cela devient facile pour les utilisateurs et les administrateurs. »

— Hillevi Crognale, Responsable de l'ingénierie, YipitData

Comment ça marche ?

demarketecture

Simplification de l'ingestion des données

Traitement ETL automatisé

Orchestration fiable des workflows

Observabilité et surveillance de bout en bout

Moteur de traitement des données de nouvelle génération

Une base robuste pour la gouvernance, la fiabilité et la performance

dataIngestion

Simplification de l'ingestion des données

Ingérez les données dans votre plateforme Lakehouse pour alimenter vos applications d'analytique, d'IA et de streaming depuis une seule et même source.Auto Loader traite automatiquement les fichiers au fil de leur arrivée dans le stockage cloud, par le biais de tâches planifiées ou continues. Vous n'avez même pas besoin de gérer les informations d’état. Cette solution est capable de tracer des milliards de nouveaux fichiers sans avoir à les indexer dans un répertoire. Elle sait aussi déduire automatiquement le schéma des données source et l'adapter au fil du temps. Pour les analystes, la commande COPY INTO simplifie l'ingestion de lots de fichiers dans Delta Lake avec SQL.

« Nous avons constaté une hausse de 40 % de la productivité du data engineering : le développement de nouvelles idées, qui prenait plusieurs jours auparavant, se fait désormais en quelques minutes. Nos données ont par ailleurs gagné en disponibilité et en précision. »
— Shaun Pearce, Chief Technology Officer, Gousto

automated-etl-processing

Traitement ETL automatisé

Une fois ingérées, les données brutes doivent être transformées pour être exploitables par l'analytique et l'IA. Avec Delta Live Tables (DLT), Databricks offre de puissantes fonctionnalités ETL pour les ingénieurs data, les data scientists et les analystes. DLT est un framework pionnier dans sa catégorie. Il utilise une approche déclarative simple pour créer des pipelines ETL et ML sur des données en lot ou en streaming. Par ailleurs, il permet de réduire la complexité opérationnelle en automatisant la gestion de l'infrastructure, l'orchestration des tâches, la gestion des erreurs et des reprises d'activité, ainsi que l'optimisation des performances. Grâce à DLT, les ingénieurs peuvent traiter leurs données comme du code et appliquer les bonnes pratiques de génie logiciel, telles que les tests, le monitoring et la documentation, afin de déployer des pipelines fiables à l'échelle.

reliable-workflow

Orchestration fiable des workflows

Databricks Workflows est un service d'orchestration entièrement managé pour toutes vos données et applications IA, ainsi que votre analytique. Il provient nativement de la plateforme Lakehouse. Orchestrez différentes charges de travail couvrant l'intégralité du cycle de vie : Delta Live Tables et Jobs pour SQL, Spark, notebooks, dbt, modèles ML et bien plus encore. Sa profonde intégration avec la plateforme Lakehouse sous-jacente vous assure la création et l'exécution de charges fiables en production sur n'importe quel cloud. Les utilisateurs finaux bénéficient en outre d'un monitoring détaillé et centralisé d'une grande simplicité.

"Notre mission est de transformer la façon dont nous alimentons la planète en énergie. Nos clients du secteur de l'énergie ont besoin de données, de services de conseil et de recherche pour réaliser cette transformation. Databricks Workflows nous offre la rapidité et la flexibilité nécessaires pour fournir à nos clients les informations dont ils ont besoin."

— Yanyan Wu, Vice-présidente des données, Wood Mackenzie

observability

Observabilité et surveillance de bout en bout

La plateforme Lakehouse vous offre une visibilité sur l'ensemble du cycle de vie des données et de l'IA. Elle donne ainsi aux data engineers et aux équipes opérationnelles une vue de l'état de santé de leurs workflows de production en temps réel. Elle leur permet également de gérer la qualité des données et de comprendre les tendances historiques. Les workflows Databricks mettent à votre disposition des graphiques de dataflow et des tableaux de bord pour suivre l'état et les performances de vos tâches de production et de vos pipelines Delta Live Tables. Les journaux d’événements sont également présentés sous forme de tables Delta Lake. Vous pouvez ainsi surveiller et visualiser facilement les métriques de performance, de qualité des données et de fiabilité sous n’importe quel angle.

next-generation

Moteur de traitement des données de nouvelle génération

Le data engineering Databricks s'appuie sur Photon, un moteur de nouvelle génération compatible avec les API Apache Spark. Il délivre un rapport performance / prix record et peut automatiquement prendre en charge des milliers de nœuds.Spark Structured Streaming propose une API unique et unifiée pour le traitement en lot et en streaming, ce qui permet d'adopter le streaming sur Lakehouse sans modifier le code, ni acquérir de nouvelles compétences.

state-of-the-art

Gouvernance, fiabilité et performance des données à la pointe

Avec le data engineering sur Databricks, vous bénéficiez des composants fondamentaux de la plateforme Lakehouse : Unity Catalog et Delta Lake. Vos données brutes sont optimisées avec Delta Lake, un format de stockage open source à la fiabilité assurée par les transactions ACID, qui réunit une gestion évolutive des métadonnées et des performances ultra-rapides. Cet outil se combine à Unity Catalog pour vous donner les moyens d'appliquer une gouvernance fine à toutes vos données et assets d’IA, simplifiant ainsi leur administration. Un même modèle cohérent permet de découvrir, consulter et partager des données entre les clouds. Unity Catalog fournit également une prise en charge native de Delta Sharing, le premier protocole ouvert du secteur pour un partage de données simple et sécurisé avec d’autres organisations.

Migrer vers Databricks

Vous en avez assez des silos de données, de la lenteur des performances et des coûts élevés associés aux anciens systèmes comme Hadoop et aux entrepôts de données d'entreprise ? Migrez vers Databricks Lakehouse : la plateforme moderne pour tous vos cas d'utilisation de données, d'analyses et d'IA.

Migrer vers Databricks

Intégrations

Offrez un maximum de flexibilité à vos équipes de données : appuyez-vous sur Partner Connect et notre écosystème de partenaires technologiques pour intégrer de manière transparente les outils les plus répandus de data engineering. Vous pouvez par exemple ingérer les données stratégiques avec Fivetran, les transformer in situ avec dbt et orchestrer vos pipelines avec Apache Airflow.

Ingestion de données et ETL

fivetran
dbt
arcion
matillion
informatica
confluent
qlikq
airbyte
prophecy
streamsets
alteryx
snaplogic

+ tout autre client compatible Apache Spark™

Témoignages de clients

comcast
hsbc
laliga
atlassian
columbia
comcast
hsbc
laliga
atlassian
columbia
comcast

En savoir plus

Delta

Delta Lake

Partner Connect

Workflows

Unity

Delta Live tables

icon-orange-Collaborative-min

Delta Sharing

Contenu associé