Passa al contenuto principale

Delta Live Tables

Pipeline di dati affidabili semplificate

Delta Live Tables (DLT) è un framework ETL dichiarativo per Databricks Lakehouse Platform che aiuta i team di gestione dei dati a semplificare i processi ETL in streaming e batch con costi contenuti. Basta definire le trasformazioni da applicare ai dati e lasciare che le pipeline DLT gestiscano automaticamente l'orchestrazione delle attività, la gestione dei cluster, il monitoraggio, la qualità dei dati e la risoluzione degli errori.

DLT flow

data ingestion

Acquisizione di dati efficiente

La costruzione di pipeline ETL pronte per la produzione sul lakehouse comincia con la cosiddetta "ingestione", cioè l'acquisizione dei dati. DLT consente un'acquisizione semplice ed efficiente per tutto il team, dai data engineer agli sviluppatori in Python, dai data scientist agli analisti SQL. Con DLT si possono caricare dati da qualsiasi sorgente supportata da Apache Spark™ su Databricks. 

“Delta Live Tables mi piace perché va oltre le funzionalità di Auto Loader, e rende ancora più semplice la lettura dei file. Sono rimasto a bocca aperta quando siamo riusciti a impostare una pipeline di streaming in 45 minuti."

— Kahveh Saramout, Senior Data Engineer, Labelbox

data transformation

Trasformazione di dati intelligente a costi contenuti

Con poche righe di codice, DLT riesce a determinare il modo più efficiente per costruire ed eseguire pipeline di dati in streaming o in batch, ottimizzando il rapporto prezzo/prestazioni (quasi 4 volte il valore base di Databricks) e al tempo stesso riducendo al minimo la complessità.

"Delta Live Tables ha aiutato i nostri team a risparmiare tempo e sforzi nella gestione dei dati nell'ordine di migliaia di miliardi di record e a migliorare continuamente le nostre capacità di ingegneria AI... Databricks sta rivoluzionando i mercati dell'ETL e dei data warehouse.”

— Dan Jeavons, General Manager Data Science, Shell

simple pipeline

Semplice impostazione e manutenzione delle pipeline

Le pipeline DLT semplificano lo sviluppo di processi ETL automatizzando praticamente tutte le complessità operative. Grazie alle pipeline DLT, i tecnici si possono concentrare sulla fornitura di dati di alta qualità invece che sulla gestione e sulla manutenzione delle pipeline. DLT gestisce automaticamente:

“Le architetture complesse, come la gestione dinamica degli schemi e le trasformazioni stateful/stateless (con/senza stato), erano difficili da implementare con una classica architettura data warehouse multicloud. Ora, data scientist e data engineer possono eseguire tali modifiche utilizzando Delta Live Tables scalabili senza barriere di ingresso.”

— Sai Ravuru, Senior Manager of Data Science and Analytics, JetBlue

dlt tco graph

Motore di elaborazione in streaming di nuova generazione

Spark Structured Streaming è la tecnologia chiave che sblocca lo streaming delle pipeline DLT, mettendo a disposizione un'API unificata per l'elaborazione in batch e streaming. Le pipeline DLT sfruttano la latenza intrinseca con tempi inferiori al secondo di Spark Structured Streaming, unita a un rapporto prezzo/prestazioni da record. L'utente ha sempre la possibilità di costruire le proprie pipeline di streaming ad alte prestazioni con Spark Structured Streaming, ma le pipeline DLT offrono un time-to-value più rapido, una velocità di sviluppo superiore e costi di gestione (TCO) inferiori, grazie alla gestione automatica delle attività operative.

“Non abbiamo dovuto fare nulla per portare DLT a pieno regime. Semplicemente, forniamo al sistema più dati e lui si adatta. Abbiamo la certezza che, senza alcuna configurazione o impostazione, gestirà tutto quello che gli diamo in pasto."

— Dott. Chris Inkpen, Global Solutions Architect, Honeywell

Confronto fra pipeline di Delta Live Tables e pipeline di Spark Structured Streaming "costruite su misura"

Spark Structured Streaming pipelines

DLT pipelines

Esecuzione su Databricks Lakehouse Platform
Basato sul motore Spark Structured Streaming
Integrazione con Unity Catalog
Orchestrazione con Databricks Workflows
Acquisizione dei dati da decine di sorgenti, dai sistemi di storage in cloud ai bus di messaggi
Orchestrazione del flusso di dati

Manuale

Automazione

Verifiche e controllo della qualità dei dati

Manuale

Automazione

Gestione degli errori e ripristino da guasti

Manuale

Automazione

CI/CD e controllo delle versioni

Manuale

Automazione

Autoscalabilità della capacità di calcolo

Base

Lakehouse Platform Architecture

Governance e storage dei dati unificati

Eseguendo le pipeline DLT su Databricks si possono sfruttare i componenti che costituiscono le fondamenta della Lakehouse Platform: Unity Catalog e Delta Lake. I dati grezzi vengono ottimizzati con Delta Lake, l'unico framework di storage open-source progettato fin dall'inizio per dati in streaming e in batch. Unity Catalog offre una governance integrata e dettagliata per tutti gli asset di dati e AI, con un unico modello omogeneo di scoperta, accesso e condivisione dei dati su diversi cloud. Unity Catalog offre inoltre supporto nativo per Delta Sharing, il primo protocollo aperto per la condivisione semplice e sicura dei dati con altre organizzazioni.

“Siamo assolutamente entusiasti dell'integrazione di Delta Live Tables con Unity Catalog. Questa integrazione contribuirà a snellire e automatizzare la governance dei dati per le nostre pipeline DLT, aiutandoci a soddisfare i nostri stringenti requisiti di gestione e sicurezza dei dati, oltre ad acquisire milioni di eventi in tempo reale. Si apre così un mondo di potenziali opportunità e migliorie per i nostri casi d'uso relativi a modellazione del rischio e rilevamento delle frodi."

— Yue Zhang, Staff Software Engineer, Block

Domande frequenti

Le pipeline DLT sono costituite da due "mattoni" fondamentali: tabelle di streaming e viste materializzate. Sono basate sugli standard affidabili di Delta Tables e Spark Structured Streaming. 

Risorse