Nous sommes ravis d’annoncer que Lakeflow, la solution unifiée d’ingénierie des données de Databricks, est désormais disponible de manière générale. Elle comprend des connecteurs d’ingestion étendus pour les sources de données populaires, un nouvel « IDE pour l’ingénierie des données » qui facilite la création et le débogage des pipelines de données, et des fonctionnalités étendues pour l’exploitation et la surveillance de l’ETL.
Lors du Data + AI Summit de l’année dernière, nous avons présenté Lakeflow, notre vision de l’avenir de l’ingénierie des données, une solution de bout en bout qui comprend trois composantes principales :
En unifiant l’ingénierie des données, Lakeflow élimine la complexité et le coût liés à l’assemblage de différents outils, ce qui permet aux équipes de données de se concentrer sur la création de valeur pour l’entreprise. Lakeflow Designer, le nouvel outil visuel de création de pipelines basé sur l’IA, permet à tout utilisateur de créer des pipelines de données de qualité production sans écrire de code.
L’année a été bien remplie et nous sommes très heureux de partager les nouveautés de Lakeflow, qui est désormais disponible de manière générale.
Dans tous les secteurs, la capacité d’une entreprise à extraire de la valeur de ses données grâce à l’analytique et à l’IA est son avantage concurrentiel. Les données sont utilisées dans toutes les facettes de l’organisation : pour créer des vues Customer 360° et de nouvelles expériences client, pour activer de nouvelles sources de revenus, pour optimiser les opérations et pour donner plus de pouvoir aux employés. Lorsque les organisations cherchent à utiliser leurs propres données, elles se retrouvent avec un ensemble d’outils disparate. Les ingénieurs de données ont du mal à s’attaquer à la complexité des tâches d’ingénierie des données tout en naviguant dans des piles d’outils fragmentées qui sont difficiles à intégrer et coûteuses à maintenir.
Un défi majeur est la gouvernance des données : la fragmentation des outils rend difficile l’application des normes, ce qui entraîne des lacunes en matière de découverte, de traçabilité et d’observabilité. Une étude récente de The Economist a révélé que « la moitié des ingénieurs de données affirment que la gouvernance prend plus de temps que tout le reste ». Le même sondage a demandé aux ingénieurs de données ce qui apporterait le plus grand bénéfice à leur productivité, et ils ont identifié « la simplification des connexions aux sources de données pour l’ingestion des données », « l’utilisation d’une solution unifiée unique au lieu de plusieurs outils » et « une meilleure visibilité des pipelines de données pour trouver et corriger les problèmes » parmi les principales interventions.
Lakeflow aide les équipes de données à relever ces défis en fournissant une solution d’ingénierie des données de bout en bout sur la Data Intelligence Platform. Les clients Databricks peuvent utiliser Lakeflow pour tous les aspects de l’ingénierie des données : ingestion, transformation et orchestration. Étant donné que toutes ces fonctionnalités sont disponibles dans le cadre d’une solution unique, il n’y a pas de temps à consacrer à l’intégration complexe d’outils ni de coûts supplémentaires pour l’obtention de licences d’outils externes.
De plus, Lakeflow est intégré à la Data Intelligence Platform, ce qui permet d’uniformiser les façons de déployer, de gouverner et d’observer toutes les données et tous les cas d’utilisation de l’IA. Par exemple, pour la gouvernance, Lakeflow s’intègre à Unity Catalog, la solution de gouvernance unifiée pour la Data Intelligence Platform. Grâce à Unity Catalog, les ingénieurs de données bénéficient d’une visibilité et d’un contrôle complets sur chaque partie du pipeline de données, ce qui leur permet de comprendre facilement où les données sont utilisées et de résoudre les problèmes à la source lorsqu’ils surviennent.
Qu’il s’agisse de la gestion des versions du code, du déploiement de pipelines CI/CD, de la sécurisation des données ou de l’observation des mesures opérationnelles en temps réel, Lakeflow tire parti de la Data Intelligence Platform pour fournir un emplacement unique et cohérent pour gérer les besoins d’ingénierie des données de bout en bout.
Au cours de la dernière année, nous avons constaté une forte adoption de Lakeflow Connect, avec plus de 2 000 clients utilisant nos connecteurs d’ingestion pour libérer la valeur de leurs données. Un exemple est Porsche Holding Salzburg, qui constate déjà les avantages de l’utilisation de Lakeflow Connect pour unifier ses données CRM avec l’analytique afin d’améliorer l’expérience client.
« L’utilisation du connecteur Salesforce de Lakeflow Connect nous aide à combler une lacune essentielle pour Porsche du point de vue commercial en termes de facilité d’utilisation et de prix. Du côté client, nous sommes en mesure de créer une expérience client entièrement nouvelle qui renforce le lien entre Porsche et le client grâce à un parcours client unifié et non fragmenté. » — Lucas Salzburger, chef de projet, Porsche Holding Salzburg
Aujourd’hui, nous élargissons l’étendue des sources de données prises en charge avec davantage de connecteurs intégrés pour une ingestion simple et fiable. Les connecteurs de Lakeflow sont optimisés pour une extraction efficace des données, notamment en utilisant des méthodes de capture des données modifiées (CDC) personnalisées pour chaque source de données respective.
Ces connecteurs gérés couvrent désormais les applications d’entreprise, les sources de fichiers, les bases de données et les entrepôts de données, et sont déployés dans divers états de publication :
De plus, un cas d’utilisation courant que nous observons chez les clients est l’ingestion de données d’événements en temps réel, généralement avec une infrastructure de bus de messages hébergée à l’extérieur de leur plateforme de données. Pour simplifier ce cas d’utilisation sur Databricks, nous annonçons Zerobus, une API Lakeflow Connect qui permet aux développeurs d’écrire des données d’événements directement dans leur lakehouse à un débit très élevé (100 Mo/s) avec une latence quasi temps réel (< 5 secondes). Cette infrastructure d’ingestion rationalisée offre des performances à l’échelle et est unifiée avec la plateforme Databricks afin que vous puissiez tirer parti d’outils d’analytique et d’IA plus larges immédiatement.
« Joby est en mesure d’utiliser nos agents de fabrication avec Zerobus pour transférer des gigaoctets par minute de données de télémétrie directement vers notre lakehouse, ce qui accélère le délai d’obtention d’informations, le tout avec Databricks Lakeflow et la Data Intelligence Platform. » — Dominik Müller, responsable des systèmes d’usine, Joby Aviation Inc.
Après des années d’exploitation et d’évolution de DLT avec des milliers de clients sur des pétaoctets de données, nous avons pris tout ce que nous avons appris et créé une nouvelle norme ouverte : Spark Declarative Pipelines. Il s’agit de la prochaine évolution du développement de pipelines : déclarative, évolutive et ouverte.
Et aujourd’hui, nous sommes ravis d’annoncer la disponibilité générale de Lakeflow Declarative Pipelines, apportant la puissance de Spark Declarative Pipelines à la Databricks Data Intelligence Platform. Elle est 100 % compatible avec le code source de la norme ouverte, de sorte que vous pouvez développer des pipelines une seule fois et les exécuter n’importe où. Elle est également 100 % rétrocompatible avec les pipelines DLT, de sorte que les utilisateurs existants peuvent adopter les nouvelles fonctionnalités sans rien réécrire. Lakeflow Declarative Pipelines est une expérience entièrement gérée sur Databricks : calcul sans serveur mains libres, intégration approfondie avec Unity Catalog pour une gouvernance unifiée et un IDE pour l’ingénierie des données spécialement conçu.
Le nouvel IDE pour l’ingénierie des données est un environnement moderne et intégré conçu pour rationaliser l’expérience de développement de pipelines. Il comprend

« Le nouvel éditeur rassemble tout en un seul endroit : code, graphique de pipeline, résultats, configuration et dépannage. Plus besoin de jongler avec les onglets du navigateur ou de perdre le contexte. Le développement est plus ciblé et efficace. Je peux voir directement l’impact de chaque modification de code. Un seul clic me mène à la ligne d’erreur exacte, ce qui accélère le débogage. Tout est connecté : le code aux données, le code aux tables, les tables au code. Il est facile de passer d’un pipeline à l’autre, et des fonctionnalités comme les dossiers d’utilitaires auto-configurés éliminent la complexité. C’est comme ça que le développement de pipelines devrait fonctionner. » — Chris Sharratt, ingénieur de données, Rolls-Royce
Lakeflow Declarative Pipelines est désormais la façon unifiée de créer des pipelines évolutifs, gouvernés et continuellement optimisés sur Databricks, que vous travailliez dans le code ou visuellement via Lakeflow Designer, une nouvelle expérience sans code qui permet aux praticiens des données de toute compétence technique de créer des pipelines de données fiables.
Les workflows Databricks sont depuis longtemps considérés comme fiables pour orchestrer les workflows essentiels, avec des milliers de clients qui comptent sur notre plateforme pour que les pipelines exécutent plus de 110 millions de tâches chaque semaine. Avec la disponibilité générale de Lakeflow, nous faisons évoluer Workflows vers Lakeflow Jobs, unifiant cet orchestrateur natif mature avec le reste de la pile d’ingénierie des données.

Lakeflow Jobs vous permet d’orchestrer n’importe quel processus sur la Data Intelligent Platform avec un ensemble croissant de fonctionnalités, notamment :
« Avec les Lakeflow Jobs sans serveur, nous avons obtenu une amélioration de la latence de 3 à 5 fois. Ce qui prenait auparavant 10 minutes ne prend plus que 2 à 3 minutes, ce qui réduit considérablement les temps de traitement. Cela nous a permis de fournir des boucles de rétroaction plus rapides aux joueurs et aux entraîneurs, en veillant à ce qu’ils obtiennent les informations dont ils ont besoin en temps quasi réel pour prendre des décisions concrètes. » — Bryce Dugar, directeur de l’ingénierie des données, Cincinnati Reds
Dans le cadre de l’unification de Lakeflow, Lakeflow Jobs apporte une observabilité de bout en bout à chaque couche du cycle de vie des données, de l’ingestion des données à la transformation et à l’orchestration complexe. Un ensemble d’outils diversifié s’adapte à tous les besoins de surveillance : les outils de surveillance visuelle permettent la recherche, l’état et le suivi en un coup d’œil, les outils de débogage comme les profils de requête aident à optimiser les performances, les alertes et les tables système aident à faire surface les problèmes et offrent des informations historiques, et les attentes en matière de qualité des données appliquent des règles et garantissent des normes élevées pour les besoins de votre pipeline de données.
Lakeflow Connect, Lakeflow Declarative Pipelines et Lakeflow Jobs sont tous disponibles de manière générale pour tous les clients Databricks dès aujourd’hui. Pour en savoir plus sur Lakeflow, cliquez ici et consultez la documentation officielle pour commencer à utiliser Lakeflow pour votre prochain projet d’ingénierie des données.
(Cet article de blog a été traduit à l'aide d'outils basés sur l'intelligence artificielle) Article original
