Databricks met à disposition les pipelines déclaratifs dans le cadre du projet open source Apache Spark™
June 11, 2025
Data + AI Summit, San Francisco (Californie), 11 juin 2025 — Databricks, spécialiste des données et de l'IA, annonce la disponibilité en open source de son framework déclaratif d’ETL sous le nom de Apache Spark™ Declarative Pipelines. Apache Spark a récemment dépassé les deux milliards de téléchargements et la version 4.0 de Spark vient tout juste d’être lancée. Ces annonces illustrent l’engagement de longue date de Databricks en faveur d’un écosystème ouvert, offrant aux utilisateurs flexibilité et maîtrise, sans dépendance vis-à-vis d’un fournisseur. Spark Declarative Pipelines relève l’un des principaux défis du data engineering : concevoir et opérer simplement des pipelines de données fiables, évolutifs et entièrement intégrés.
Spark Declarative Pipelines facilite la définition et l’exécution des pipelines de données pour les charges de travail ETL, en batch ou en streaming, sur l’ensemble des sources compatibles avec Apache Spark, notamment les stockages cloud, les bus de messages, les flux de données modifiées et les systèmes externes. Ce framework déclaratif, éprouvé en production, aide les ingénieurs à surmonter des obstacles fréquents : complexité de conception, surcharge opérationnelle manuelle et cloisonnement entre traitements batch et streaming.
Spark Declarative Pipelines repose sur le cœur du framework déclaratif d’ETL de Databricks, déjà adopté par des milliers de clients. Conçu pour gérer des charges complexes ainsi que des flux en temps réel à faible latence, il constitue une base robuste pour une nouvelle génération de traitements et de gouvernance des données. En le mettant à disposition de la communauté, Databricks permet à un plus grand nombre d’équipes de réduire leurs coûts et délais d’ingénierie, tout en garantissant un support fiable pour les systèmes d’IA agentique et autres charges de travail en production.
« Nous sommes résolument engagés en faveur de l’open source. Issue de la recherche académique et de la communauté open source, Databricks a été fondée en 2013 par les créateurs de l’architecture lakehouse et de projets tels qu’Apache Spark, Delta Lake, MLflow et Unity Catalog », déclare Matei Zaharia, cofondateur et CTO de Databricks. « Nous avons travaillé main dans la main avec la communauté pour lever les blocages liés aux formats de données, sources de silos. Spark Declarative Pipelines offre désormais aux entreprises une solution ouverte pour concevoir des pipelines de qualité. »
Les principaux bénéfices de Spark Declarative Pipelines :
- Une conception de pipelines simplifiée : Les data engineers et analystes peuvent définir rapidement des pipelines robustes avec un minimum de code, se concentrant ainsi sur l’essentiel : la production d’informations critiques pour l’entreprise.
- Une opérabilité renforcée : Grâce à des définitions du pipeline claires et entièrement validées avant exécution, Spark Declarative Pipelines permet d’identifier plus tôt les erreurs, de limiter les échecs en aval et de simplifier à la fois le débogage et la maintenance.
- Une API unifiée pour le batch et le streaming : Les équipes data peuvent répondre, avec un seul outil, aux besoins en temps réel comme différés, ce qui facilite le développement et la gestion des pipelines.
« Les pipelines déclaratifs dissimulent la complexité de l’ingénierie des données moderne derrière un modèle de programmation simple et intuitif. En tant que manager, j’apprécie que mes équipes puissent se concentrer sur les enjeux métier. Le fait que cette innovation soit désormais partagée en open source est une excellente nouvelle pour de nombreuses équipes. » précise Jian (Miracle) Zhou, Senior Engineering Manager, Navy Federal Credit Union.
« Chez 84.51˚, nous cherchons constamment à simplifier la construction et la maintenance de nos pipelines de données, tout en adoptant des outils plus ouverts et plus flexibles. L’approche déclarative nous a beaucoup aidés à réduire la quantité de code à gérer, et à unifier nos traitements batch et streaming sans avoir à les connecter manuellement. Rendre ce framework open source, sous le nom Spark Declarative Pipelines est une avancée majeure pour la communauté Spark. » ajoute Brad Turnbaugh, Senior Data Engineer, 84.51°
A propos de Databricks
Databricks est une société spécialisée dans les données et l'IA. Plus de 10 000 organisations dans le monde entier, dont Comcast, Condé Nast, Grammarly et plus de 50 % des entreprises du Fortune 500, font confiance à la Data Intelligence Plateforme de Databricks pour unifier et démocratiser les données, l'analyse et l'IA. Databricks a son siège à San Francisco, avec des bureaux dans le monde entier, et a été fondée par les créateurs originaux de Lakehouse, Apache Spark™, Delta Lake et MLflow. Pour en savoir plus, suivez Databricks sur X, LinkedIn et Facebook.
Contacts presse Databricks - Rumeur Publique
Victor ESTEVES | tél. : 06 63 06 09 14
Marie POINSINET | tél. : 07 76 60 88 75
Louise-Camille BOUTTIER | tél. : 06 18 73 74 00
Tûba KOCAEFE | tél. : 06 75 96 66 90