Data Engineering

Des dizaines de millions de charges de travail de production s’exécutent quotidiennement sur Databricks

image d'arrière-plan

Importez et transformez facilement des données en lot et en streaming sur la plateforme Databricks Lakehouse. Orchestrez des workflows de production fiables et confiez à Databricks la gestion automatique de votre infrastructure à grande échelle. Maximisez la productivité de vos équipes grâce aux tests intégrés de qualité des données et à l'implémentation de bonnes pratiques de développement logiciel.

Unifier batch et streaming

Éliminez les silos : grâce à une API unique et unifiée, ingérez, transformez et traitez les données en lots et en streaming de manière incrémentielle et à grande échelle, au sein d'une même plateforme

La priorité : créer de la valeur à partir des données

Databricks gère automatiquement votre infrastructure et les composants opérationnels de vos workflows de production : vous pouvez vous concentrer sur la valeur plutôt que sur les outils.

Connectez vos outils préférés

La plateforme Lakehouse ouverte connecte et exploite vos outils préférés de data engineering pour l'ingestion des données, l'ETL / ELT et l'orchestration.

Développez sur la plateforme Lakehouse

La plateforme Lakehouse offre la meilleure base pour créer et partager des assets de données fiables et ultra-rapides, avec la confiance que donne la centralisation du contrôle.

image d'arrière-plan

Comment ça marche ?

Simplification de l'ingestion des données

Traitement ETL automatisé

Orchestration fiable des workflows

Observabilité et surveillance de bout en bout

Moteur de traitement des données de nouvelle génération

Une base robuste pour la gouvernance, la fiabilité et la performance

Simplification de l'ingestion des données

Ingérez les données dans votre plateforme Lakehouse pour alimenter vos applications d'analytique, d'IA et de streaming depuis une seule et même source. Auto Loader traite automatiquement les fichiers au fil de leur arrivée dans le stockage cloud, par le biais de tâches planifiées ou continues. Vous n'avez même pas besoin de gérer les informations d’état. Cet outil est capable de tracer des milliards de nouveaux fichiers sans avoir à les indexer dans un répertoire. Il sait aussi déduire automatiquement le schéma des données source et l'adapter au fil du temps. Pour les analystes, la commande COPY INTO simplifie l'ingestion de lots de fichiers dans Delta Lake avec SQL.

En savoir plus

Data Ingestion Code Graphic

Traitement ETL automatisé

Traitement ETL automatisé

Une fois ingérées, les données brutes doivent être transformées pour être exploitables par l'analytique et l'IA. Avec Delta Live Tables (DLT), Databricks offre de puissantes fonctionnalités ETL pour les data engineers, les data scientists et les analystes. DLT est un framework pionnier dans sa catégorie. Il utilise simplement une approche déclarative pour créer des pipelines ETL et ML sur des données en lot ou en streaming. Par ailleurs, il automatise les complexités opérationnelles : gestion de l'infrastructure, orchestration des tâches, gestion des erreurs et rétablissement, et optimisation des performances. Grâce à DLT, les ingénieurs peuvent traiter leurs données comme du code et appliquer les bonnes pratiques de génie logiciel, telles que les tests, le monitoring et la documentation, afin de déployer des pipelines fiables à l'échelle.

En savoir plus

Orchestration fiable des workflows

Databricks Workflows is the fully managed orchestration service for all your data, analytics and AI that is native to your Lakehouse Platform. Orchestrate diverse workloads for the full lifecycle including Delta Live Tables and Jobs for SQL, Spark, notebooks, dbt, ML models and more. Deep integration with the underlying Lakehouse Platform ensures you will create and run reliable production workloads on any cloud while providing deep and centralized monitoring with simplicity for end users.

En savoir plus

Orchestration fiable des workflows

Observabilité et surveillance de bout en bout

Observabilité et surveillance de bout en bout

La plateforme Lakehouse vous offre une visibilité sur l'ensemble du cycle de vie des données et de l'IA. Elle donne ainsi aux data engineers et aux équipes opérationnelles une vue de l'état de santé de leurs workflows de production en temps réel, et leur permet de gérer la qualité des données et de comprendre les tendances historiques. Les workflows Databricks mettent à votre disposition des graphiques de dataflow et des tableaux de bord pour suivre l'état et les performances de vos tâches de production et de vos pipelines Delta Live Tables. Les journaux d’événements sont également présentés sous forme de tables Delta Lake. Vous pouvez ainsi surveiller et visualiser facilement les mesures de performance, de qualité des données et de fiabilité sous n’importe quel angle.

Moteur de traitement des données de nouvelle génération

Le data engineering Databricks s'appuie sur Photon, un moteur de nouvelle génération compatible avec les API Apache Spark. Il délivre un rapport performance / prix record et peut automatiquement prendre en charge des milliers de nœuds. Spark Structured Streaming propose une API unique et unifiée pour le traitement en lot et en streaming, ce qui permet d'adopter le streaming sur Lakehouse sans modifier le code, ni acquérir de nouvelles compétences.

En savoir plus

Moteur de traitement des données de nouvelle génération

Gouvernance, fiabilité et performance des données à la pointe

Gouvernance, fiabilité et performance des données à la pointe

Avec le data engineering sur Databricks, vous bénéficiez des composants fondamentaux de la plateforme Lakehouse : Unity Catalog et Delta Lake. Vos données brutes sont optimisées avec Delta Lake, un format de stockage open source à la fiabilité assurée par les transactions ACID, qui réunit une gestion évolutive des métadonnées et des performances ultra-rapides. Cet outil se combine à Unity Catalog pour vous donner les moyens d'appliquer une gouvernance fine à toutes vos données et assets d’IA, simplifiant ainsi leur administration. Un même modèle cohérent permet de découvrir, consulter et partager des données entre les clouds. Unity Catalog fournit également une prise en charge native de Delta Sharing, le premier protocole ouvert du secteur pour un partage de données simple et sécurisé avec d’autres organisations.

Live Tables
Lakehouse Plateform
Workflows

Intégrations

Offrez un maximum de flexibilité à vos équipes de données : appuyez-vous sur Partner Connect et notre écosystème de partenaires technologiques pour intégrer de manière transparente les outils les plus répandus de data engineering. Vous pouvez par exemple ingérer les données stratégiques avec Fivetran, les transformer in situ avec dbt et orchestrer vos pipelines avec Apache Airflow.

Ingestion de données et ETL

+ tout autre client compatible Apache Spark™

Témoignages de clients

ADP
Témoignage client Asurion

Témoignage de client

Shell Logo
« Chez ADP, nous sommes en train de migrer nos données de gestion des ressources humaines vers un magasin de données intégré au lakehouse. Delta Live Tables a permis à notre équipe d'intégrer des contrôles qualité, et grâce aux API déclaratives, à la prise en charge batch et en temps réel via SQL, notre équipe a pu gagner du temps et de l'énergie dans la gestion de nos données. »

– Jack Berkowitz, CDO, ADP

yipitdata
Témoignage client Asurion

Témoignage de client

Shell Logo
« Avec les workflows Databricks, nos analystes créent, exécutent, supervisent et corrigent aisément les pipelines de données sans avoir à gérer aucune infrastructure. Ils ont ainsi une autonomie totale sur la conception et l'amélioration des processus ETL qui génèrent des insights indispensables pour nos clients. Nous sommes ravis de convertir nos pipelines Airflow en workflows Databricks. »

— Anup Segu, Senior Software Engineer, YipitData

Contenu associé

Toutes les ressources dont vous avez besoin. Réunies au même endroit. Image

Toutes les ressources dont vous avez besoin. Réunies au même endroit.

Explorez notre bibliothèque de ressources : vous y trouverez des ebooks et des vidéos sur les atouts du data engineering sur Databricks.

Prêt à vous
lancer ?

Guides de démarrage

AWSAzureGCP