Passa al contenuto principale

Porta in produzione la data science con Repos su Databricks

prod-ds-repos-og2

Pubblicato: March 16, 2021

Prodotto3 min di lettura

La maggior parte delle soluzioni di data science costringe i team di dati a scegliere tra la flessibilità per l'esplorazione e la rigidità per la produzione. Di conseguenza, i data scientist devono spesso passare il loro lavoro a team di ingegneria che utilizzano uno stack di tecnologia diverso e che essenzialmente riscrivono il loro lavoro in un nuovo ambiente. Questo non solo è costoso, ma ritarda anche il tempo necessario perché il lavoro di un data scientist apporti valore all'azienda.

Grazie all'integrazione con Git, i Databricks Repos forniscono un ambiente di sviluppo d'eccellenza per la Data Science e il data ingegneria.

Il Data Science Workspace di nuova generazione su Databricks gestisce questi compromessi per fornire un'esperienza aperta e unificata ai moderni team di dati. Come parte di questo Databricks Workspace, siamo lieti di annunciare la disponibilità pubblica della nuova funzionalità Repos, che offre un'integrazione a livello di repository con i provider Git, consentendo a qualsiasi membro del team di dati di seguire le best practice. I Repos di Databricks si integrano con il tuo toolkit per sviluppatori con il supporto per un'ampia gamma di provider Git, tra cui Github, Bitbucket, Gitlab e Microsoft Azure DevOps.

Integrandosi con Git, i Repos di Databricks forniscono un ambiente di sviluppo di prima categoria per la data science e l'ingegneria dei dati. È possibile applicare standard per il codice sviluppato in Databricks, come revisioni del codice, test, ecc., prima di distribuire il codice in produzione. Nei Repos, gli sviluppatori troveranno funzionalità Git familiari, inclusa la possibilità di clonare repository Git remoti (Figura 1), gestire i branch, eseguire il pull delle modifiche remote e ispezionare visivamente le modifiche in sospeso prima di eseguirne il commit (Figura 2).

Come iniziare a usare i Git Repos nei Workspace di Databricks aggiungendo un Git Repos remoto
Figura 1: Per iniziare, fornisci l'URL del repository Git che vuoi clonare.
Gli sviluppatori possono lavorare sul proprio branch di sviluppo, eseguire il commit del codice e il pull delle modifiche. Le modifiche in sospeso possono essere ispezionate nella UI prima di eseguire il commit.
Figura 2: Gli sviluppatori possono lavorare sul proprio development branch, eseguire il commit del codice e fare il pull delle modifiche. Le modifiche in sospeso possono essere ispezionate nella UI prima di eseguire il commit.

Con il lancio pubblico di Repos, aggiungiamo funzionalità per soddisfare i casi d'uso aziendali più esigenti:

  • Le liste di elementi consentiti consentono agli amministratori di configurare i prefissi URL dei repository Git ai quali gli utenti possono eseguire il commit del codice. In questo modo si garantisce che il codice non possa essere inviato per errore a repository non consentiti.
  • Il rilevamento dei segreti identifica i segreti in chiaro nel codice sorgente prima che ne venga eseguito il commit, aiutando i team di dati a seguire le best practice per l'uso dei gestori di segreti.

I repo possono anche essere integrati con le tue pipeline CI/CD e consentono ai team di dati di trasferire il codice di data science e machine learning (ML) dalla sperimentazione alla produzione senza interruzioni. Con l'API Repos (attualmente in anteprima privata, contatta il tuo rappresentante Databricks per l'accesso), puoi aggiornare programmaticamente i tuoi Databricks Repos alla versione più recente di un branch remoto. Ciò ti consente di implementare facilmente pipeline CI/CD, ad es. il seguente flusso di lavoro di best practice:

  1. Sviluppo: gli sviluppatori lavorano sui feature branch nei checkout personali di un repository remoto nelle loro cartelle utente.
  2. Revisione e test: quando una funzionalità è pronta per la revisione e viene creata una PR, il sistema CI/CD può usare l'API Repos per aggiornare automaticamente un ambiente di test in Databricks con le modifiche apportate al ramo della funzionalità, quindi eseguire una serie di test per convalidare le modifiche.
  3. Produzione: Infine, una volta superati tutti i test e approvata e integrata la PR, il sistema CI/CD può utilizzare l'API Repos per aggiornare l'ambiente di produzione in Databricks con le modifiche. I tuoi Job di produzione verranno ora eseguiti con il codice più recente.

La funzionalità Repos fa parte del Workspace di nuova generazione e, con questa release pubblica, consente ai team di dati di seguire facilmente le best practice e di accelerare il percorso dall'esplorazione alla produzione.

Comincia

L'icona Repos viene visualizzata per i Workspace di Databricks abilitati con la funzionalità.

I Repos sono in anteprima pubblica e possono essere abilitati per gli spazi di lavoro di Databricks! Per abilitare i Repos, vai su Pannello di amministrazione -> Avanzate e fai clic sul pulsante "Abilita" accanto a "Repos". Per ulteriori informazioni, consulta la nostra documentazione per gli sviluppatori.

Non perdere mai un post di Databricks

Iscriviti al nostro blog e ricevi gli ultimi post direttamente nella tua casella di posta elettronica.

Cosa succederà adesso?

Introducing AI/BI: Intelligent Analytics for Real-World Data

Produto

June 12, 2024/11 min de leitura

Apresentando o AI/BI: analítica inteligente para dados do mundo real

DeepSeek R1 on Databricks

Anúncios

January 31, 2025/3 min de leitura

DeepSeek R1 no Databricks