Passa al contenuto principale

Annuncio della disponibilità generale di Databricks Lakeflow

L'approccio unificato al data engineering per l'inserimento, la trasformazione e l'orchestrazione

Lakeflow GA blog image

Pubblicato: 12 giugno 2025

Annunci8 min di lettura

Summary

  • Databricks Lakeflow risolve le sfide di data engineering poste dagli stack frammentati offrendo una soluzione unificata per l'inserimento, la trasformazione e l'orchestrazione sulla piattaforma di data intelligence.
  • Lakeflow Connect aggiunge più connettori a database, origini file, applicazioni aziendali e data warehouse. Zerobus introduce scritture dirette ad alta velocità con bassa latenza.
  • Lakeflow Declarative Pipelines, basato sul nuovo standard aperto Spark Declarative Pipelines, offre un nuovo IDE per i data engineer per un migliore sviluppo di pipeline ETL.

Siamo lieti di annunciare che Lakeflow, la soluzione unificata di data engineering di Databricks, è ora disponibile a livello generale. Include connettori di acquisizione estesi per le origini dati più comuni, un nuovo "IDE per il data engineering" che semplifica la creazione e il debug di pipeline di dati e funzionalità ampliate per l'operazionalizzazione e il monitoraggio di ETL. 
 
Al Data + AI Summit dello scorso anno, abbiamo presentato Lakeflow, la nostra visione per il futuro del data engineering, una soluzione end-to-end che include tre componenti principali:

  • Lakeflow Connect: acquisizione affidabile e gestita da app aziendali, database, file system e flussi in tempo reale, senza l'overhead di connettori personalizzati o servizi esterni.
  • Lakeflow Declarative Pipelines: pipeline ETL scalabili basate sullo standard aperto di Spark Declarative Pipelines, integrate con governance e osservabilità e che forniscono un'esperienza di sviluppo semplificata attraverso un moderno "IDE per il data engineering".
  • Lakeflow Jobs: orchestrazione nativa per la Data Intelligence Platform, che supporta il flusso di controllo avanzato, i trigger di dati in tempo reale e il monitoraggio completo.

Unificando il data engineering, Lakeflow elimina la complessità e il costo di unire diversi strumenti, consentendo ai team di dati di concentrarsi sulla creazione di valore per l'azienda. Lakeflow Designer, il nuovo generatore di pipeline visivo basato sull'intelligenza artificiale, consente a qualsiasi utente di creare pipeline di dati di livello di produzione senza scrivere codice.

È stato un anno intenso e siamo entusiasti di condividere le novità man mano che Lakeflow raggiunge la disponibilità generale.

I team di data engineering faticano a tenere il passo con le esigenze di dati della loro organizzazione

In ogni settore, la capacità di un'azienda di estrarre valore dai propri dati attraverso l'analisi e l'AI è il suo vantaggio competitivo. I dati vengono utilizzati in ogni aspetto dell'organizzazione: per creare viste a 360° dei clienti e nuove esperienze cliente, per abilitare nuovi flussi di entrate, per ottimizzare le operazioni e per responsabilizzare i dipendenti. Mentre le organizzazioni cercano di utilizzare i propri dati, finiscono per avere un insieme eterogeneo di strumenti. I data engineer hanno difficoltà ad affrontare la complessità delle attività di data engineering mentre navigano in stack di strumenti frammentati che sono difficili da integrare e costosi da mantenere.

Una sfida fondamentale è la data governance: gli strumenti frammentati rendono difficile l'applicazione degli standard, portando a lacune nella discovery, nella lineage e nell'osservabilità. Un recente studio di The Economist ha rilevato che "la metà dei data engineer afferma che la governance richiede più tempo di qualsiasi altra cosa". Lo stesso sondaggio ha chiesto ai data engineer cosa porterebbe i maggiori vantaggi per la loro produttività e hanno identificato "la semplificazione delle connessioni alle origini dati per l'acquisizione dei dati", "l'utilizzo di un'unica soluzione unificata invece di più strumenti" e "una migliore visibilità nelle pipeline di dati per trovare e risolvere i problemi" tra i principali interventi.

Una soluzione di data engineering unificata integrata nella Data Intelligence Platform

Lakeflow aiuta i team di dati ad affrontare queste sfide fornendo una soluzione di data engineering end-to-end sulla Data Intelligence Platform. I clienti Databricks possono utilizzare Lakeflow per ogni aspetto del data engineering: acquisizione, trasformazione e orchestrazione. Poiché tutte queste funzionalità sono disponibili come parte di un'unica soluzione, non si perde tempo con integrazioni complesse di strumenti o costi aggiuntivi per la licenza di strumenti esterni.

Inoltre, Lakeflow è integrato nella Data Intelligence Platform e con questo arrivano modi coerenti per distribuire, governare e osservare tutti i casi d'uso di dati e AI. Ad esempio, per la governance, Lakeflow si integra con Unity Catalog, la soluzione di governance unificata per la Data Intelligence Platform. Attraverso Unity Catalog, i data engineer ottengono piena visibilità e controllo su ogni parte della pipeline di dati, consentendo loro di capire facilmente dove vengono utilizzati i dati e di individuare le cause principali dei problemi quando si presentano.

Che si tratti di versionare il codice, distribuire pipeline CI/CD, proteggere i dati o osservare metriche operative in tempo reale, Lakeflow sfrutta la Data Intelligence Platform per fornire un unico punto coerente per gestire le esigenze di data engineering end-to-end.

Lakeflow Connect: più connettori e scritture dirette veloci in Unity Catalog

Quest'anno abbiamo assistito a una forte adozione di Lakeflow Connect con oltre 2.000 clienti che utilizzano i nostri connettori di acquisizione per sbloccare valore dai propri dati. Un esempio è Porsche Holding Salzburg che sta già vedendo i vantaggi dell'utilizzo di Lakeflow Connect per unificare i propri dati CRM con l'analisi per migliorare l'esperienza del cliente.

"L'utilizzo del connettore Salesforce di Lakeflow Connect ci aiuta a colmare una lacuna critica per Porsche dal punto di vista aziendale in termini di facilità d'uso e prezzo. Dal lato del cliente, siamo in grado di creare un'esperienza cliente completamente nuova che rafforza il legame tra Porsche e il cliente con un percorso cliente unificato e non frammentato."   — Lucas Salzburger, Project Manager, Porsche Holding Salzburg

Oggi stiamo ampliando la gamma di origini dati supportate con più connettori integrati per un'acquisizione semplice e affidabile. I connettori di Lakeflow sono ottimizzati per un'estrazione efficiente dei dati, incluso l'utilizzo di metodi di acquisizione dei dati modificati (CDC) personalizzati per ogni rispettiva origine dati.

Questi connettori gestiti ora coprono applicazioni aziendali, origini file, database e data warehouse, implementati in vari stati di rilascio

  • Applicazioni aziendali: Salesforce, Workday, ServiceNow, Google Analytics, Microsoft Dynamics 365, Oracle NetSuite 
  • Origini file: SFTP, SharePoint
  • Database: Microsoft SQL Server, Oracle Database, MySQL, PostgreSQL
  • Data warehouse: Snowflake, Amazon Redshift, Google BigQuery

Inoltre, un caso d'uso comune che vediamo dai clienti è l'acquisizione di dati di eventi in tempo reale, in genere con un'infrastruttura di message bus ospitata al di fuori della loro piattaforma dati. Per semplificare questo caso d'uso su Databricks, stiamo annunciando Zerobus, un'API Lakeflow Connect che consente agli sviluppatori di scrivere dati di eventi direttamente nel loro lakehouse con una velocità effettiva molto elevata (100 MB/s) con una latenza quasi in tempo reale (<5 secondi). Questa infrastruttura di acquisizione semplificata offre prestazioni su vasta scala ed è unificata con la Databricks Platform in modo da poter sfruttare subito strumenti di analisi e AI più ampi.

"Joby è in grado di utilizzare i nostri agenti di produzione con Zerobus per inviare gigabyte al minuto di dati di telemetria direttamente al nostro lakehouse, accelerando il tempo per ottenere informazioni dettagliate, il tutto con Databricks Lakeflow e la Data Intelligence Platform."  — Dominik Müller, Factory Systems Lead, Joby Aviation Inc.
LEADER PER LA 5ª VOLTA

Gartner®: Databricks leader dei database cloud

Lakeflow Declarative Pipelines: sviluppo ETL accelerato basato su standard aperti

Dopo anni di gestione ed evoluzione di DLT con migliaia di clienti su petabyte di dati, abbiamo preso tutto ciò che abbiamo imparato e creato un nuovo standard aperto: Spark Declarative Pipelines. Questa è la prossima evoluzione nello sviluppo di pipeline: dichiarativa, scalabile e aperta.

E oggi, siamo entusiasti di annunciare la disponibilità generale di Lakeflow Declarative Pipelines, portando la potenza di Spark Declarative Pipelines alla Databricks Data Intelligence Platform. È compatibile al 100% con il codice sorgente con lo standard aperto, quindi puoi sviluppare pipeline una volta ed eseguirle ovunque. È anche compatibile al 100% con le pipeline DLT, quindi gli utenti esistenti possono adottare le nuove funzionalità senza riscrivere nulla. Lakeflow Declarative Pipelines sono un'esperienza completamente gestita su Databricks: calcolo serverless automatico, integrazione profonda con Unity Catalog per una governance unificata e un IDE per il Data Engineering appositamente creato.

Il nuovo IDE per il Data Engineering è un ambiente moderno e integrato creato per semplificare l'esperienza di sviluppo della pipeline. Include

  • Codice e DAG affiancati, con visualizzazione delle dipendenze e anteprime istantanee dei dati
  • Debug sensibile al contesto che fa emergere i problemi in linea
  • Integrazione Git integrata per uno sviluppo rapido
  • Authoring e configurazione assistiti dall'AI

Interfaccia utente di Lakeflow Declarative Pipelines

"Il nuovo editor riunisce tutto in un unico posto: codice, grafico della pipeline, risultati, configurazione e risoluzione dei problemi. Niente più schede del browser da destreggiarsi o perdita di contesto. Lo sviluppo sembra più mirato ed efficiente. Posso vedere direttamente l'impatto di ogni modifica del codice. Un clic mi porta alla riga di errore esatta, il che rende il debug più veloce. Tutto si collega: codice ai dati; codice alle tabelle; tabelle al codice. Passare da una pipeline all'altra è facile e funzionalità come le cartelle di utilità configurate automaticamente rimuovono la complessità. Sembra che questo sia il modo in cui dovrebbe funzionare lo sviluppo della pipeline."  — Chris Sharratt, Data Engineer, Rolls-Royce

Lakeflow Declarative Pipelines sono ora il modo unificato per creare pipeline scalabili, governate e continuamente ottimizzate su Databricks, sia che tu stia lavorando in codice o visivamente attraverso Lakeflow Designer, una nuova esperienza no-code che consente ai professionisti dei dati di qualsiasi competenza tecnica di creare pipeline di dati affidabili.

Lakeflow Jobs: orchestrazione affidabile per tutti i carichi di lavoro con osservabilità unificata

Databricks Workflows è da tempo considerato affidabile per orchestrare flussi di lavoro mission-critical, con migliaia di clienti che si affidano alla nostra piattaforma per pipeline per eseguire oltre 110 milioni di processi ogni settimana. Con la disponibilità generale di Lakeflow, stiamo evolvendo Workflows in Lakeflow Jobs, unificando questo orchestratore nativo e maturo con il resto dello stack di data engineering.

Interfaccia utente di Lakeflow Jobs

Lakeflow Jobs ti consente di orchestrare qualsiasi processo sulla Data Intelligent Platform con una serie crescente di funzionalità, tra cui:

  • Supporto per una raccolta completa di tipi di attività per l'orchestrazione di flussi che includono Declarative Pipelines, notebook, query SQL, trasformazioni dbt e persino la pubblicazione di dashboard AI/BI o su Power BI.
  • Funzionalità di flusso di controllo come l'esecuzione condizionale, i loop e l'impostazione dei parametri a livello di attività o processo.
  • Trigger per l'esecuzione di processi oltre alla semplice pianificazione con trigger di arrivo file e i nuovi trigger di aggiornamento tabella, che garantiscono che i processi vengano eseguiti solo quando sono disponibili nuovi dati.
  • Processi serverless che forniscono ottimizzazioni automatiche per prestazioni migliori e costi inferiori.
"Con i Lakeflow Jobs serverless, abbiamo ottenuto un miglioramento di 3-5 volte nella latenza. Ciò che prima richiedeva 10 minuti ora ne richiede solo 2-3, riducendo significativamente i tempi di elaborazione. Questo ci ha permesso di fornire cicli di feedback più rapidi per giocatori e allenatori, assicurando che ottengano le informazioni di cui hanno bisogno quasi in tempo reale per prendere decisioni attuabili."  — Bryce Dugar, Data Engineering Manager, Cincinnati Reds

Come parte dell'unificazione di Lakeflow, Lakeflow Jobs offre osservabilità end-to-end in ogni livello del ciclo di vita dei dati, dall'acquisizione dei dati alla trasformazione e all'orchestrazione complessa. Un set di strumenti diversificato si adatta a ogni esigenza di monitoraggio: strumenti di monitoraggio visivo forniscono ricerca, stato e tracciamento a colpo d'occhio, strumenti di debug come i profili di query aiutano a ottimizzare le prestazioni, avvisi e tabelle di sistema aiutano a far emergere i problemi e offrono informazioni storiche e aspettative di qualità dei dati applicano regole e garantiscono standard elevati per le esigenze della tua pipeline di dati.

Inizia con Lakeflow

Lakeflow Connect, Lakeflow Declarative Pipelines e Lakeflow Jobs sono tutti generalmente disponibili per ogni cliente Databricks oggi. Scopri di più su Lakeflow qui e visita la documentazione ufficiale per iniziare con Lakeflow per il tuo prossimo progetto di data engineering.

(Questo post sul blog è stato tradotto utilizzando strumenti basati sull'intelligenza artificiale) Post originale

Non perdere mai un post di Databricks

Iscriviti al nostro blog e ricevi gli ultimi post direttamente nella tua casella di posta elettronica.