Al Data + AI Summit di quest'anno, abbiamo presentato l'IDE per l'Ingegneria dei Dati: una nuova esperienza per sviluppatori creata appositamente per la scrittura di pipeline di dati direttamente all'interno di Databricks Workspace. Come nuova esperienza di sviluppo predefinita, l'IDE riflette il nostro approccio deciso all'ingegneria dei dati: dichiarativo per impostazione predefinita, modulare nella struttura, integrato con Git e assistito dall'IA.
In breve, l'IDE per l'Ingegneria dei Dati è tutto ciò di cui hai bisogno per scrivere e testare pipeline di dati, tutto in un unico posto.
Con questa nuova esperienza di sviluppo disponibile in Anteprima Pubblica, vorremmo utilizzare questo blog per spiegare perché le pipeline dichiarative beneficiano di un'esperienza IDE dedicata ed evidenziare le funzionalità chiave che rendono lo sviluppo delle pipeline più veloce, organizzato e facile da debuggare.
Le pipeline dichiarative semplificano l'ingegneria dei dati permettendoti di dichiarare cosa vuoi ottenere invece di scrivere istruzioni dettagliate passo dopo passo su come costruirla. Sebbene la programmazione dichiarativa sia un approccio estremamente potente per la creazione di pipeline di dati, lavorare con dataset multipli e gestire l'intero ciclo di vita dello sviluppo può diventare difficile da gestire senza strumenti dedicati.
Ecco perché abbiamo creato un'esperienza IDE completa per le pipeline dichiarative direttamente in Databricks Workspace. Disponibile come nuovo editor per Lakeflow Spark Declarative Pipelines, ti consente di dichiarare dataset e vincoli di qualità nei file, organizzarli in cartelle e visualizzare le connessioni tramite un grafo di dipendenze generato automaticamente visualizzato accanto al tuo codice. L'editor valuta i tuoi file per determinare il piano di esecuzione più efficiente e ti consente di iterare rapidamente rieseguendo singoli file, un set di dataset modificati o l'intera pipeline.
L'editor fornisce anche insight sull'esecuzione, anteprime dei dati integrate e include strumenti di debug per aiutarti a ottimizzare il tuo codice. Si integra inoltre con il controllo di versione e l'esecuzione pianificata con Lakeflow Jobs. Pertanto, puoi eseguire tutte le attività relative alla tua pipeline da un'unica interfaccia.
Consolidando tutte queste funzionalità in un'unica interfaccia simile a un IDE, l'editor abilita le pratiche e la produttività che gli ingegneri dei dati si aspettano da un IDE moderno, pur rimanendo fedele al paradigma dichiarativo.
Il video incorporato di seguito mostra queste funzionalità in azione, con ulteriori dettagli trattati nelle sezioni seguenti.
"Il nuovo editor riunisce tutto in un unico posto: codice, grafo della pipeline, risultati, configurazione e troubleshooting. Niente più salti tra schede del browser o perdita di contesto. Lo sviluppo risulta più focalizzato ed efficiente. Posso vedere direttamente l'impatto di ogni modifica al codice. Un clic mi porta alla riga di errore esatta, il che rende il debug più veloce. Tutto è collegato: codice ai dati; codice alle tabelle; tabelle al codice. Passare da una pipeline all'altra è facile e funzionalità come le cartelle di utilità auto-configurate rimuovono la complessità. Questo è il modo in cui dovrebbe funzionare lo sviluppo delle pipeline."— Chris Sharratt, Data Engineer, Rolls-Royce
"Secondo me, il nuovo Editor Pipeline è un enorme miglioramento. Trovo molto più facile gestire strutture di cartelle complesse e passare da un file all'altro grazie all'esperienza multi-scheda. La vista DAG integrata mi aiuta davvero a tenere sotto controllo pipeline intricate e la gestione avanzata degli errori è rivoluzionaria: mi aiuta a individuare rapidamente i problemi e semplifica il mio flusso di lavoro di sviluppo."— Matt Adams, Senior Data Platforms Developer, PacificSource Health Plans
Abbiamo progettato l'editor in modo che anche gli utenti nuovi al paradigma dichiarativo possano creare rapidamente la loro prima pipeline.
Queste funzionalità aiutano gli utenti a diventare rapidamente produttivi e a trasformare il loro lavoro in pipeline pronte per la produzione.
La creazione di pipeline è un processo iterativo. L'editor semplifica questo processo con funzionalità che facilitano la scrittura e rendono più veloce il test e l'affinamento della logica:
Queste funzionalità riducono il cambio di contesto e mantengono gli sviluppatori concentrati sulla creazione della logica della pipeline.
Lo sviluppo di pipeline comporta più della semplice scrittura di codice. La nuova esperienza per sviluppatori porta tutte le attività correlate su un'unica interfaccia, dalla modularizzazione del codice per la manutenibilità all'impostazione dell'automazione e dell'osservabilità:
Unificando queste funzionalità, l'editor semplifica sia lo sviluppo quotidiano che le operazioni a lungo termine delle pipeline.
Dai un'occhiata al video qui sotto per maggiori dettagli su tutte queste funzionalità in azione.
Non ci fermiamo qui. Ecco un'anteprima di ciò che stiamo esplorando attualmente:
Facci sapere cos'altro vorresti vedere: il tuo feedback guida ciò che costruiamo.
L'IDE per l'ingegneria dei dati è disponibile in tutti i cloud. Per abilitarlo, apri un file associato a una pipeline esistente, fai clic sul banner ‘Lakeflow Pipelines Editor: OFF’ e attivalo. Puoi anche abilitarlo durante la creazione della pipeline con un interruttore simile, o dalla pagina Impostazioni utente.
Scopri di più utilizzando queste risorse:
(Questo post sul blog è stato tradotto utilizzando strumenti basati sull'intelligenza artificiale) Post originale
