Lors du Data + AI Summit de cette année, nous avons présenté l'IDE pour l'ingénierie des données : une nouvelle expérience développeur conçue pour la création de pipelines de données directement dans l'espace de travail Databricks. En tant que nouvelle expérience de développement par défaut, l'IDE reflète notre approche réfléchie de l'ingénierie des données : déclarative par défaut, modulaire dans sa structure, intégrée à Git et assistée par l'IA.
En bref, l'IDE pour l'ingénierie des données est tout ce dont vous avez besoin pour créer et tester des pipelines de données - le tout au même endroit.
Avec cette nouvelle expérience de développement disponible en aperçu public, nous aimerions utiliser ce blog pour expliquer pourquoi les pipelines déclaratifs bénéficient d'une expérience IDE dédiée et mettre en évidence les fonctionnalités clés qui rendent le développement de pipelines plus rapide, plus organisé et plus facile à déboguer.
Les pipelines déclaratifs simplifient l'ingénierie des données en vous permettant de déclarer ce que vous voulez accomplir au lieu d'écrire des instructions détaillées étape par étape sur la façon de le construire. Bien que la programmation déclarative soit une approche extrêmement puissante pour construire des pipelines de données, travailler avec plusieurs jeux de données et gérer le cycle de vie complet du développement peut devenir difficile à gérer sans outils dédiés.
C'est pourquoi nous avons créé une expérience IDE complète pour les pipelines déclaratifs directement dans l'espace de travail Databricks. Disponible en tant que nouvel éditeur pour Lakeflow Spark Declarative Pipelines, il vous permet de déclarer des jeux de données et des contraintes de qualité dans des fichiers, de les organiser en dossiers et de visualiser les connexions via un graphe de dépendances généré automatiquement affiché à côté de votre code. L'éditeur évalue vos fichiers pour déterminer le plan d'exécution le plus efficace et vous permet d'itérer rapidement en réexécutant des fichiers uniques, un ensemble de jeux de données modifiés ou l'ensemble du pipeline.
L'éditeur affiche également des informations sur l'exécution, fournit des aperçus de données intégrés et inclut des outils de débogage pour vous aider à affiner votre code. Il s'intègre également au contrôle de version et à l'exécution planifiée avec Lakeflow Jobs. Ainsi, vous pouvez effectuer toutes les tâches liées à votre pipeline à partir d'une seule surface.
En consolidant toutes ces capacités dans une seule surface de type IDE, l'éditeur permet les pratiques et la productivité que les ingénieurs de données attendent d'un IDE moderne, tout en restant fidèle au paradigme déclaratif.
La vidéo intégrée ci-dessous montre ces fonctionnalités en action, avec plus de détails couverts dans les sections suivantes.
"Le nouvel éditeur rassemble tout en un seul endroit : le code, le graphe du pipeline, les résultats, la configuration et le dépannage. Fini le jonglage entre les onglets du navigateur ou la perte de contexte. Le développement semble plus ciblé et efficace. Je peux voir directement l'impact de chaque modification de code. Un clic me mène à la ligne d'erreur exacte, ce qui accélère le débogage. Tout est connecté : le code aux données ; le code aux tables ; les tables au code. Changer de pipeline est facile, et des fonctionnalités comme les dossiers utilitaires auto-configurés éliminent la complexité. C'est comme cela que le développement de pipelines devrait fonctionner."— Chris Sharratt, Data Engineer, Rolls-Royce
"À mon avis, le nouvel éditeur de pipelines est une amélioration considérable. Je trouve beaucoup plus facile de gérer des structures de dossiers complexes et de passer d'un fichier à l'autre grâce à l'expérience multi-onglets. La vue DAG intégrée m'aide vraiment à maîtriser des pipelines complexes, et la gestion améliorée des erreurs change la donne : elle m'aide à identifier rapidement les problèmes et rationalise mon flux de travail de développement."— Matt Adams, Senior Data Platforms Developer, PacificSource Health Plans
Nous avons conçu l'éditeur de manière à ce que même les utilisateurs novices du paradigme déclaratif puissent rapidement construire leur premier pipeline.
Ces fonctionnalités aident les utilisateurs à devenir rapidement productifs et à transformer leur travail en pipelines prêts pour la production.
La construction de pipelines est un processus itératif. L'éditeur rationalise ce processus avec des fonctionnalités qui simplifient la création et accélèrent le test et le raffinement de la logique :
Ces capacités réduisent le changement de contexte et maintiennent les développeurs concentrés sur la construction de la logique du pipeline.
Le développement de pipelines implique plus que l'écriture de code. La nouvelle expérience développeur rassemble toutes les tâches connexes sur une seule surface, de la modularisation du code pour la maintenabilité à la configuration de l'automatisation et de l'observabilité :
En unifiant ces capacités, l'éditeur rationalise à la fois le développement quotidien et les opérations de pipeline à long terme.
Découvrez la vidéo ci-dessous pour plus de détails sur toutes ces fonctionnalités en action.
Nous ne nous arrêtons pas là. Voici un aperçu de ce que nous explorons actuellement :
Faites-nous savoir ce que vous aimeriez voir d'autre : vos commentaires guident ce que nous construisons.
L'IDE pour l'ingénierie des données est disponible sur tous les clouds. Pour l'activer, ouvrez un fichier associé à un pipeline existant, cliquez sur la bannière 'Lakeflow Pipelines Editor: OFF' et activez-la. Vous pouvez également l'activer lors de la création d'un pipeline avec une bascule similaire, ou depuis la page des paramètres utilisateur.
Apprenez-en davantage en utilisant ces ressources :
(Cet article de blog a été traduit à l'aide d'outils basés sur l'intelligence artificielle) Article original
