Siamo lieti di annunciare che Lakeflow, la soluzione unificata di data engineering di Databricks, è ora disponibile a livello generale. Include connettori di acquisizione estesi per le origini dati più comuni, un nuovo "IDE per il data engineering" che semplifica la creazione e il debug di pipeline di dati e funzionalità ampliate per l'operazionalizzazione e il monitoraggio di ETL.
Al Data + AI Summit dello scorso anno, abbiamo presentato Lakeflow, la nostra visione per il futuro del data engineering, una soluzione end-to-end che include tre componenti principali:
Unificando il data engineering, Lakeflow elimina la complessità e il costo di unire diversi strumenti, consentendo ai team di dati di concentrarsi sulla creazione di valore per l'azienda. Lakeflow Designer, il nuovo generatore di pipeline visivo basato sull'intelligenza artificiale, consente a qualsiasi utente di creare pipeline di dati di livello di produzione senza scrivere codice.
È stato un anno intenso e siamo entusiasti di condividere le novità man mano che Lakeflow raggiunge la disponibilità generale.
In ogni settore, la capacità di un'azienda di estrarre valore dai propri dati attraverso l'analisi e l'AI è il suo vantaggio competitivo. I dati vengono utilizzati in ogni aspetto dell'organizzazione: per creare viste a 360° dei clienti e nuove esperienze cliente, per abilitare nuovi flussi di entrate, per ottimizzare le operazioni e per responsabilizzare i dipendenti. Mentre le organizzazioni cercano di utilizzare i propri dati, finiscono per avere un insieme eterogeneo di strumenti. I data engineer hanno difficoltà ad affrontare la complessità delle attività di data engineering mentre navigano in stack di strumenti frammentati che sono difficili da integrare e costosi da mantenere.
Una sfida fondamentale è la data governance: gli strumenti frammentati rendono difficile l'applicazione degli standard, portando a lacune nella discovery, nella lineage e nell'osservabilità. Un recente studio di The Economist ha rilevato che "la metà dei data engineer afferma che la governance richiede più tempo di qualsiasi altra cosa". Lo stesso sondaggio ha chiesto ai data engineer cosa porterebbe i maggiori vantaggi per la loro produttività e hanno identificato "la semplificazione delle connessioni alle origini dati per l'acquisizione dei dati", "l'utilizzo di un'unica soluzione unificata invece di più strumenti" e "una migliore visibilità nelle pipeline di dati per trovare e risolvere i problemi" tra i principali interventi.
Lakeflow aiuta i team di dati ad affrontare queste sfide fornendo una soluzione di data engineering end-to-end sulla Data Intelligence Platform. I clienti Databricks possono utilizzare Lakeflow per ogni aspetto del data engineering: acquisizione, trasformazione e orchestrazione. Poiché tutte queste funzionalità sono disponibili come parte di un'unica soluzione, non si perde tempo con integrazioni complesse di strumenti o costi aggiuntivi per la licenza di strumenti esterni.
Inoltre, Lakeflow è integrato nella Data Intelligence Platform e con questo arrivano modi coerenti per distribuire, governare e osservare tutti i casi d'uso di dati e AI. Ad esempio, per la governance, Lakeflow si integra con Unity Catalog, la soluzione di governance unificata per la Data Intelligence Platform. Attraverso Unity Catalog, i data engineer ottengono piena visibilità e controllo su ogni parte della pipeline di dati, consentendo loro di capire facilmente dove vengono utilizzati i dati e di individuare le cause principali dei problemi quando si presentano.
Che si tratti di versionare il codice, distribuire pipeline CI/CD, proteggere i dati o osservare metriche operative in tempo reale, Lakeflow sfrutta la Data Intelligence Platform per fornire un unico punto coerente per gestire le esigenze di data engineering end-to-end.
Quest'anno abbiamo assistito a una forte adozione di Lakeflow Connect con oltre 2.000 clienti che utilizzano i nostri connettori di acquisizione per sbloccare valore dai propri dati. Un esempio è Porsche Holding Salzburg che sta già vedendo i vantaggi dell'utilizzo di Lakeflow Connect per unificare i propri dati CRM con l'analisi per migliorare l'esperienza del cliente.
"L'utilizzo del connettore Salesforce di Lakeflow Connect ci aiuta a colmare una lacuna critica per Porsche dal punto di vista aziendale in termini di facilità d'uso e prezzo. Dal lato del cliente, siamo in grado di creare un'esperienza cliente completamente nuova che rafforza il legame tra Porsche e il cliente con un percorso cliente unificato e non frammentato." — Lucas Salzburger, Project Manager, Porsche Holding Salzburg
Oggi stiamo ampliando la gamma di origini dati supportate con più connettori integrati per un'acquisizione semplice e affidabile. I connettori di Lakeflow sono ottimizzati per un'estrazione efficiente dei dati, incluso l'utilizzo di metodi di acquisizione dei dati modificati (CDC) personalizzati per ogni rispettiva origine dati.
Questi connettori gestiti ora coprono applicazioni aziendali, origini file, database e data warehouse, implementati in vari stati di rilascio:
Inoltre, un caso d'uso comune che vediamo dai clienti è l'acquisizione di dati di eventi in tempo reale, in genere con un'infrastruttura di message bus ospitata al di fuori della loro piattaforma dati. Per semplificare questo caso d'uso su Databricks, stiamo annunciando Zerobus, un'API Lakeflow Connect che consente agli sviluppatori di scrivere dati di eventi direttamente nel loro lakehouse con una velocità effettiva molto elevata (100 MB/s) con una latenza quasi in tempo reale (<5 secondi). Questa infrastruttura di acquisizione semplificata offre prestazioni su vasta scala ed è unificata con la Databricks Platform in modo da poter sfruttare subito strumenti di analisi e AI più ampi.
"Joby è in grado di utilizzare i nostri agenti di produzione con Zerobus per inviare gigabyte al minuto di dati di telemetria direttamente al nostro lakehouse, accelerando il tempo per ottenere informazioni dettagliate, il tutto con Databricks Lakeflow e la Data Intelligence Platform." — Dominik Müller, Factory Systems Lead, Joby Aviation Inc.
Dopo anni di gestione ed evoluzione di DLT con migliaia di clienti su petabyte di dati, abbiamo preso tutto ciò che abbiamo imparato e creato un nuovo standard aperto: Spark Declarative Pipelines. Questa è la prossima evoluzione nello sviluppo di pipeline: dichiarativa, scalabile e aperta.
E oggi, siamo entusiasti di annunciare la disponibilità generale di Lakeflow Declarative Pipelines, portando la potenza di Spark Declarative Pipelines alla Databricks Data Intelligence Platform. È compatibile al 100% con il codice sorgente con lo standard aperto, quindi puoi sviluppare pipeline una volta ed eseguirle ovunque. È anche compatibile al 100% con le pipeline DLT, quindi gli utenti esistenti possono adottare le nuove funzionalità senza riscrivere nulla. Lakeflow Declarative Pipelines sono un'esperienza completamente gestita su Databricks: calcolo serverless automatico, integrazione profonda con Unity Catalog per una governance unificata e un IDE per il Data Engineering appositamente creato.
Il nuovo IDE per il Data Engineering è un ambiente moderno e integrato creato per semplificare l'esperienza di sviluppo della pipeline. Include

"Il nuovo editor riunisce tutto in un unico posto: codice, grafico della pipeline, risultati, configurazione e risoluzione dei problemi. Niente più schede del browser da destreggiarsi o perdita di contesto. Lo sviluppo sembra più mirato ed efficiente. Posso vedere direttamente l'impatto di ogni modifica del codice. Un clic mi porta alla riga di errore esatta, il che rende il debug più veloce. Tutto si collega: codice ai dati; codice alle tabelle; tabelle al codice. Passare da una pipeline all'altra è facile e funzionalità come le cartelle di utilità configurate automaticamente rimuovono la complessità. Sembra che questo sia il modo in cui dovrebbe funzionare lo sviluppo della pipeline." — Chris Sharratt, Data Engineer, Rolls-Royce
Lakeflow Declarative Pipelines sono ora il modo unificato per creare pipeline scalabili, governate e continuamente ottimizzate su Databricks, sia che tu stia lavorando in codice o visivamente attraverso Lakeflow Designer, una nuova esperienza no-code che consente ai professionisti dei dati di qualsiasi competenza tecnica di creare pipeline di dati affidabili.
Databricks Workflows è da tempo considerato affidabile per orchestrare flussi di lavoro mission-critical, con migliaia di clienti che si affidano alla nostra piattaforma per pipeline per eseguire oltre 110 milioni di processi ogni settimana. Con la disponibilità generale di Lakeflow, stiamo evolvendo Workflows in Lakeflow Jobs, unificando questo orchestratore nativo e maturo con il resto dello stack di data engineering.

Lakeflow Jobs ti consente di orchestrare qualsiasi processo sulla Data Intelligent Platform con una serie crescente di funzionalità, tra cui:
"Con i Lakeflow Jobs serverless, abbiamo ottenuto un miglioramento di 3-5 volte nella latenza. Ciò che prima richiedeva 10 minuti ora ne richiede solo 2-3, riducendo significativamente i tempi di elaborazione. Questo ci ha permesso di fornire cicli di feedback più rapidi per giocatori e allenatori, assicurando che ottengano le informazioni di cui hanno bisogno quasi in tempo reale per prendere decisioni attuabili." — Bryce Dugar, Data Engineering Manager, Cincinnati Reds
Come parte dell'unificazione di Lakeflow, Lakeflow Jobs offre osservabilità end-to-end in ogni livello del ciclo di vita dei dati, dall'acquisizione dei dati alla trasformazione e all'orchestrazione complessa. Un set di strumenti diversificato si adatta a ogni esigenza di monitoraggio: strumenti di monitoraggio visivo forniscono ricerca, stato e tracciamento a colpo d'occhio, strumenti di debug come i profili di query aiutano a ottimizzare le prestazioni, avvisi e tabelle di sistema aiutano a far emergere i problemi e offrono informazioni storiche e aspettative di qualità dei dati applicano regole e garantiscono standard elevati per le esigenze della tua pipeline di dati.
Lakeflow Connect, Lakeflow Declarative Pipelines e Lakeflow Jobs sono tutti generalmente disponibili per ogni cliente Databricks oggi. Scopri di più su Lakeflow qui e visita la documentazione ufficiale per iniziare con Lakeflow per il tuo prossimo progetto di data engineering.
(Questo post sul blog è stato tradotto utilizzando strumenti basati sull'intelligenza artificiale) Post originale
