23 novembre 2020

Transazioni ACID su Data Lake Dibattiti tecnici: Primi passi con Delta Lake

Ottieni un' anteprima del nuovo e-book di O'Reilly per ricevere la guida passo passo necessaria per iniziare a utilizzare Delta Lake.

Nell'ambito del nostro Meetup online Data + AI, abbiamo esplorato argomenti che spaziano dalla genomica (con ospiti di Regeneron) alle pipeline di machine learning e all'ML accelerato da GPU, fino all'ottimizzazione delle prestazioni di Tableau. Un'area tematica chiave è stata l'esplorazione del Lakehouse.

L'ascesa del pattern architetturale Lakehouse si basa su innovazioni tecnologiche che consentono al data lake di supportare transazioni ACID e altre funzionalità dei carichi di lavoro dei data warehouse tradizionali.

La serie di tech talk Getting Started with Delta Lake ti guida attraverso le fondamenta della tecnologia di Delta Lake (Apache Spark™), la creazione di pipeline di dati altamente scalabili, la gestione di carichi di lavoro che uniscono streaming e batch, l'utilizzo di Delta Lake e MLflow per potenziare la Data Science, e va persino dietro le quinte con gli ingegneri di Delta Lake per comprenderne le origini.

Migliorare Apache Spark™ con Delta Lake

Apache Spark è il framework di elaborazione dominante per i big data. Delta Lake aggiunge affidabilità a Spark, così le tue iniziative di analitiche e machine learning hanno accesso immediato a dati di qualità e affidabili, archiviati in object store cloud a basso costo come AWS S3, Azure Storage e Google Cloud Storage. In questa sessione, imparerai come utilizzare Delta Lake per migliorare l'affidabilità dei dati per i tuoi data lake.

Semplifica e scala le pipeline di data ingegneria

Una comune architettura di pipeline di data ingegneria utilizza tabelle che corrispondono a diversi livelli di qualità, aggiungendo progressivamente struttura ai dati: ingestione dei dati (tabelle "Bronze"), trasformazione/feature ingegneria (tabelle "Silver") e tabelle aggregate/addestramento o previsione di machine learning (tabelle "Gold"). Nel loro insieme, queste tabelle sono definite architettura "multi-hop". Consente ai data engineer di creare una pipeline che parte dai dati grezzi come "unica fonte di verità" da cui tutto deriva. In questa sessione imparerai a conoscere l'architettura delle pipeline di data ingegneria, gli scenari e le best practice, in che modo Delta Lake migliora le pipeline di data ingegneria e quanto sia facile adottare Delta Lake per creare le tue pipeline di data ingegneria.

Oltre Lambda: introduzione all'architettura Delta

L'architettura Lambda è una tecnica diffusa in cui i record vengono elaborati in parallelo da un sistema batch e da un sistema di streaming. I risultati vengono quindi combinati in fase di query per fornire una risposta completa. Con l'avvento di Delta Lake, stiamo notando che molti dei nostri clienti stanno adottando un semplice modello di flusso di dati continuo per elaborare i dati man mano che arrivano. Questa architettura è denominata “Delta Architecture”. In questa sessione tratteremo i principali colli di bottiglia nell'adozione di un modello di flusso di dati continuo e come l'architettura Delta risolva tali problemi.

Preparare i dati per la data science con Delta Lake e MLflow

Per pianificare le iniziative di data science, è necessario avere una visione d'insieme dell'intero mondo delle analitiche dei dati. L'ingegneria dei dati è un fattore chiave per la data science, poiché aiuta a fornire dati affidabili e di qualità in modo tempestivo. In questa sessione, scoprirai il ciclo di vita della Data Science, i principi chiave della moderna ingegneria dei dati, in che modo Delta Lake può aiutare a preparare dati affidabili per le analitiche, quanto è facile adottare Delta Lake per alimentare il tuo data lake e come integrare Delta Lake nella tua infrastruttura dati per abilitare la Data Science.

Dietro le quinte: la genesi di Delta Lake

Il Developer Advocate Denny Lee intervista Burak Yavuz, Software Engineer di Databricks, per saperne di più sul processo decisionale del team di Delta Lake e sul perché hanno progettato, architettato e implementato l'architettura così com'è oggi. In questa sessione scoprirai le sfide tecniche che il team ha affrontato, come sono state risolte e quali sono i loro piani per il futuro.

Comincia

Inizia oggi stesso a riempire il tuo Delta Lake guardando questa serie completa.

E adesso?

Se vuoi ampliare le tue conoscenze su Delta Lake, guarda la nostra serie di tech talk Diving into Delta Lake. Guidato dal team di ingegneri di Delta Lake, tra cui Burak Yavuz, Andrea Neumann, Tathagata “TD” Das e il Developer Advocate, Denny Lee, imparerai a conoscere l'implementazione interna di Delta Lake.

Se vuoi essere informato sui futuri meetup online, unisciti al nostro Meetup online Data + AI su meetup.com

Approfondimento su Delta Lake
Immergiti nel funzionamento interno di Delta Lake, una popolare tecnologia open source per data lake più affidabili.

Guarda

Ricevi gli ultimi articoli nella tua casella di posta

Iscriviti al nostro blog e ricevi gli ultimi articoli direttamente nella tua casella di posta.

Visualizza tutti i blog