La maggior parte delle soluzioni di data science costringe i team di dati a scegliere tra la flessibilità per l'esplorazione e la rigidità per la produzione. Di conseguenza, i data scientist devono spesso passare il loro lavoro a team di ingegneria che utilizzano uno stack di tecnologia diverso e che essenzialmente riscrivono il loro lavoro in un nuovo ambiente. Questo non solo è costoso, ma ritarda anche il tempo necessario perché il lavoro di un data scientist apporti valore all'azienda.
Il Data Science Workspace di nuova generazione su Databricks gestisce questi compromessi per fornire un'esperienza aperta e unificata ai moderni team di dati. Come parte di questo Databricks Workspace, siamo lieti di annunciare la disponibilità pubblica della nuova funzionalità Repos, che offre un'integrazione a livello di repository con i provider Git, consentendo a qualsiasi membro del team di dati di seguire le best practice. I Repos di Databricks si integrano con il tuo toolkit per sviluppatori con il supporto per un'ampia gamma di provider Git, tra cui Github, Bitbucket, Gitlab e Microsoft Azure DevOps.
Integrandosi con Git, i Repos di Databricks forniscono un ambiente di sviluppo di prima categoria per la data science e l'ingegneria dei dati. È possibile applicare standard per il codice sviluppato in Databricks, come revisioni del codice, test, ecc., prima di distribuire il codice in produzione. Nei Repos, gli sviluppatori troveranno funzionalità Git familiari, inclusa la possibilità di clonare repository Git remoti (Figura 1), gestire i branch, eseguire il pull delle modifiche remote e ispezionare visivamente le modifiche in sospeso prima di eseguirne il commit (Figura 2).


Con il lancio pubblico di Repos, aggiungiamo funzionalità per soddisfare i casi d'uso aziendali più esigenti:
I repo possono anche essere integrati con le tue pipeline CI/CD e consentono ai team di dati di trasferire il codice di data science e machine learning (ML) dalla sperimentazione alla produzione senza interruzioni. Con l'API Repos (attualmente in anteprima privata, contatta il tuo rappresentante Databricks per l'accesso), puoi aggiornare programmaticamente i tuoi Databricks Repos alla versione più recente di un branch remoto. Ciò ti consente di implementare facilmente pipeline CI/CD, ad es. il seguente flusso di lavoro di best practice:
La funzionalità Repos fa parte del Workspace di nuova generazione e, con questa release pubblica, consente ai team di dati di seguire facilmente le best practice e di accelerare il percorso dall'esplorazione alla produzione.

I Repos sono in anteprima pubblica e possono essere abilitati per gli spazi di lavoro di Databricks! Per abilitare i Repos, vai su Pannello di amministrazione -> Avanzate e fai clic sul pulsante "Abilita" accanto a "Repos". Per ulteriori informazioni, consulta la nostra documentazione per gli sviluppatori.
Produto
June 12, 2024/11 min de leitura

