Revenir au contenu principal

Delta Live tables

Des pipelines de données fiables en toute simplicité

dlt

Delta Live Tables (DLT) est un framework ETL déclaratif pour la plateforme lakehouse de Databricks qui aide les équipes data à simplifier et à rentabiliser l’ETL en mode streaming et batch. Il vous suffit de définir les transformations à effectuer sur vos données et de laisser les pipelines DLT gérer automatiquement l’orchestration des tâches, la gestion des clusters, le monitoring ainsi que la gestion de la qualité des données et des erreurs.

DLT flow
data ingestion

Ingestion efficace des données

La création de pipelines ETL prêts pour la production sur le lakehouse commence par l’ingestion. DLT permet une ingestion facile et efficace pour l’ensemble de votre équipe, qu’il s’agisse de vos data engineers, développeurs Python, data scientists ou analystes SQL. Avec DLT, vous pouvez charger des données sur Databricks à partir de n’importe quelle source de données prise en charge par Apache Spark™. 

« J’aime Delta Live Tables parce qu’il va au-delà des capacités d’Auto Loader en rendant la lecture des fichiers encore plus facile. Je suis resté bouche bée lorsque nous avons pu mettre en place un pipeline de streaming en 45 minutes ».

— Kahveh Saramout, Senior Data Engineer, Labelbox

data transformation

Transformation intelligente et rentable des données

À partir de quelques lignes de code, DLT détermine la meilleure façon de créer et d’exécuter vos pipelines de données en streaming ou en batch. Cela permet d’optimiser le rapport prix/performance (près de 4 fois le niveau de référence de Databricks) tout en minimisant la complexité.

« Delta Live Tables a aidé nos équipes à gagner du temps et à gérer les données à l’échelle de plusieurs milliers de milliards d’enregistrements, tout en améliorant continuellement nos capacités d’ingénierie... Databricks bouleverse les marchés de l’ETL et du data warehouse. »

— Dan Jeavons, Directeur général – Data Science, Shell

simple pipeline

Mise en place et maintenance simples des pipelines

Les pipelines DLT simplifient le développement ETL en automatisant presque toute la complexité opérationnelle inhérente. Grâce aux pipelines DLT, les ingénieurs peuvent se concentrer sur la fourniture de données de haute qualité plutôt que sur l’exploitation et la maintenance des pipelines. Voici les opérations dont DLT se charge automatiquement :

« Les architectures complexes, telles que la gestion dynamique des schémas et les transformations avec ou sans état, étaient difficiles à mettre en œuvre avec une architecture classique de data warehouse multi-cloud. Les data scientists et les data engineers peuvent désormais effectuer de tels changements à l’aide des tables évolutives Delta Live Tables, sans le moindre obstacle. »

— Sai Ravuru, Senior Manager of Data Science and Analytics, JetBlue

dlt tco graph

Moteur de traitement en streaming de nouvelle génération

Le Streaming structuré Spark est la technologie fondamentale à la base du streaming de pipelines DLT. Il fournit une API unifiée pour le traitement en batch et en streaming. Les pipelines DLT tirent parti de la latence inhérente au Streaming structuré Spark, et offrent un rapport prix/performance record. Bien que vous puissiez manuellement créer vos propres pipelines de streaming performants avec le Streaming structuré Spark, les pipelines DLT offrent un délai de rentabilité plus court, une meilleure vitesse de développement continu et un coût total de possession plus faible en raison des frais généraux opérationnels qu’ils gèrent automatiquement.

« Nous n’avons rien eu à faire pour que DLT monte en charge. Nous donnons au système plus de données, et il réagit bien. Dès le départ, il nous a donné la conviction qu’il pouvait traiter toutes les données que nous lui envoyions. »

— Dr. Chris Inkpen, Global Solutions Architect, Honeywell

Comparaison entre les pipelines Delta Live Tables et les pipelines créés par vous-même avec le Streaming structuré Spark

Spark Structured Streaming pipelines

DLT pipelines

S’exécutent sur la plateforme Lakehouse de Databricks
Optimisés par le moteur de Streaming structuré Spark
Intégration à Unity Catalog
Orchestration avec Databricks Workflows
Ingestion à partir de dizaines de sources, du stockage cloud aux bus de messages
Orchestration des flux de données

Manuel

Automatisation

Contrôle et assurance de la qualité des données

Manuel

Automatisation

Gestion des erreurs et reprise en cas de panne

Manuel

Automatisation

CI/CD et contrôle de version

Manuel

Automatisation

Dimensionnement automatique du calcul

Basique

Lakehouse Platform Architecture

Unification de la gouvernance et du stockage des données

Lorsque vous exécutez des pipelines DLT sur Databricks, vous bénéficiez des composants fondamentaux de la plateforme Lakehouse : Unity Catalog et Delta Lake. Vos données brutes sont optimisées avec Delta Lake, le seul framework de stockage open source conçu de A à Z pour les données en streaming et en batch. Unity Catalog intègre une gouvernance détaillée pour toutes vos données et ressources d’IA. Il fournit un modèle cohérent pour la découverte, l’accès et le partage des données sur tous les clouds. Unity Catalog fournit également une prise en charge native de Delta Sharing, le premier protocole ouvert du secteur pour un partage de données simple et sécurisé avec d’autres organisations.

« Nous avons hâte d’intégrer Delta Live Tables à Unity Catalog. Cette intégration nous permettra de faciliter et d’automatiser la gouvernance des données pour nos pipelines DLT. En effet, elle nous aidera à répondre à nos exigences en matière de données sensibles et de sécurité, car nous ingérons des millions d’événements en temps réel. Cela ouvre de nombreuses possibilités et améliorations pour nos cas d’usage commerciaux liés à la modélisation des risques et à la détection des fraudes. »

— Yue Zhang, Staff Software Engineer, Block

FAQ

Les pipelines DLT sont constitués des deux éléments fondamentaux suivants : les tables de streaming et les vues matérialisées. Ils sont construits sur les standards fiables de Delta Tables et de Streaming structuré Spark. 

Ressources