
Delta Live Tables (DLT) agevola la costruzione e la gestione di pipeline di dati affidabili in batch e in streaming, per fornire dati di alta qualità alla Databricks Lakehouse Platform. DLT aiuta i team di data engineering a semplificare lo sviluppo e la gestione di processi ETL con sviluppo di pipeline dichiarative, test automatici sui dati e visibilità approfondita per monitoraggio e recupero.

Facilità nella costruzione e manutenzione di pipeline di dati
Delta Live Tables consente di definire facilmente pipeline di dati complete in SQL o Python. Basta specificare la sorgente dei dati, la logica di trasformazione e lo stato di destinazione dei dati, invece di assemblare manualmente lavori separati di elaborazione dei dati. È possibile mantenere automaticamente tutte le dipendenze dei dati lungo la pipeline e riutilizzare le pipeline ETL con una gestione dei dati indipendente dall'ambiente. I dati possono essere elaborati in batch o in streaming, specificando il calcolo incrementale o completo per ogni tabella.

Verifica automatica della qualità dei dati
Delta Live Tables contribuisce a garantire lo svolgimento di attività accurate e utili di BI, data science e machine learning con dati di alta qualità per gli utenti a valle. Controlli di convalida e integrità impediscono che dati scadenti finiscano nelle tabelle, mentre politiche predefinite per la gestione degli errori (errore, abbandono, avviso o quarantena) evitano problemi di qualità dei dati. Inoltre, l'andamento della qualità dei dati nel tempo può essere monitorato per capire come si evolvono i dati e dove potrebbero essere necessarie modifiche.

Streaming a costi contenuti grazie alla scalabilità automatica efficiente della potenza di calcolo
Delta Live Tables Enhanced Autoscaling è pensato per gestire carichi di lavoro in streaming caratterizzati da picchi e imprevedibilità. La soluzione ottimizza l'utilizzo dei cluster modulandosi solo sul numero di nodi necessari nel pieno rispetto dei livelli di servizio (SLA), chiudendo poi i nodi quando il fabbisogno diminuisce, per evitare costi inutili.

Visibilità approfondita per monitoraggio e osservabilità delle pipeline
Gli strumenti per tracciare visivamente le statistiche operative e la provenienza dei dati offrono una visibilità approfondita delle operazioni sulla pipeline. I tempi morti vengono ridotti grazie alla gestione automatica degli errori e alla facilità di riesecuzione (replay). L'implementazione e gli aggiornamenti con un unico clic velocizzano la manutenzione.
Shells trusts Delta Live Tables
"In Shell, stiamo aggregando tutti i dati dei nostri sensori in un data store integrato. Delta Live Tables ha aiutato i nostri team a risparmiare tempo e lavoro nella gestione dei dati [nell'ordine di migliaia di miliardi di record] e a migliorare continuamente le nostre capacità di ingegneria AI. Grazie a queste funzionalità che potenziano l'architettura lakehouse esistente, Databricks sta rivoluzionando i mercati di ETL e data warehouse, una svolta importante per aziende come la nostra. Siamo entusiasti di continuare a lavorare con Databricks come partner per l'innovazione”.
Casi d'uso
Procedure ETL in batch e streaming unificate
Le pipeline in batch e in streaming possono essere costruite ed eseguite in un unico punto, con impostazioni di aggiornamento controllabili e automatizzate, risparmiando tempo e riducendo la complessità operativa. Per lo streaming di dati sul lakehouse, lo streaming ETL con Delta Live Tables è la soluzione migliore per cominciare.
Semplificare l'implementazione e i test delle pipeline di dati
Grazie a diverse copie dei dati, isolati e aggiornati attraverso un'unica base di codice, le informazioni sulla provenienza dei dati possono essere acquisite e utilizzate per mantenere i dati aggiornati, sempre e ovunque. Lo stesso set di definizioni di query può essere così eseguito in fase di sviluppo, staging e produzione.
Soddisfare i requisiti normativi
Tutte le informazioni sulla tabella per analisi e verifiche possono essere catturate automaticamente con il registro eventi. Diventa così chiaro come i dati fluiscono all'interno dell'organizzazione e rispettano i requisiti di conformità.