Un approfondimento su AI e Machine Learning in Databricks

Basata su un'architettura lakehouse aperta, la soluzione AI and Machine Learning on Databricks consente ai team di ML di preparare ed elaborare dati, snellisce la collaborazione fra i team e standardizza tutto il ciclo di vita del ML, dalla sperimentazione alla produzione, inclusi AI generativa e modelli linguistici di grandi dimensioni (LLM).
.png)
Semplificare tutti gli aspetti dei dati per AI e ML
Poiché Databricks ML è basato su una piattaforma lakehouse aperta con Delta Lake, il team di machine learning potrà accedere, esplorare e preparare qualsiasi tipo di dati in qualsiasi quantità. Le feature possono essere trasformate in pipeline di produzione con una modalità self-service senza dipendere dagli ingegneri dei dati.

Automatizzare il tracciamento e la governance degli esperimenti
Managed MLflow traccia automaticamente gli esperimenti e registra parametri, metriche, versioni di dati e codice, oltre agli artefatti dei modelli a ogni ciclo di addestramento. Si possono visualizzare velocemente cicli precedenti, confrontare i risultati e riprodurre un risultato passato, secondo necessità. Una volta individuata la versione migliore di un modello per la produzione, il modello può essere registrato nel Model Registry per semplificare i passaggi di consegne lungo tutto il ciclo di vita dello sviluppo.

Gestisci l'intero ciclo di vita del modello, dai dati alla produzione... e ritorno
Una volta registrati, i modelli addestrati possono essere gestiti in maniera collaborativa lungo tutto il ciclo di vita con Model Registry. Si possono gestire diverse versioni e i modelli possono passare attraverso diversi stadi, ad esempio sperimentazione, staging, produzione e archiviazione. La gestione del ciclo di vita si integra con i flussi di lavoro di approvazione e governance, con controlli di accesso basati sui ruoli. Commenti e notifiche via mail offrono un ambiente di collaborazione ricco per i team di gestione dei dati.

Implementare modelli ML su larga scala con bassa latenza
Implementa modelli con un solo clic senza preoccuparti di gestione del server o vincoli dimensionali. Databricks consente di implementare i modelli come endpoint di API REST ovunque, con disponibilità in tutta l'impresa.

Utilizzo di AI generativa e modelli linguistici di grandi dimensioni
Nel flusso di lavoro si possono integrare modelli pre-addestrati, come quelli provenienti dalla libreria di trasformatori di Hugging Face o da altre librerie open-source. Le pipeline dei trasformatori facilitano l'uso di GPU e consentono di elaborare in batch gli elementi inviati alla GPU per aumentare la produttività.
Un modello può essere personalizzato sui dati aziendali per compiti specifici. Grazie a strumenti open-source come Hugging Face e DeepSpeed, si può prendere un LLM di base in modo rapido ed efficiente e cominciare ad addestrarlo con i propri dati, per avere una maggiore precisione nell'ambito e nel carico di lavoro specifici. Questo approccio consente inoltre di controllare i dati utilizzati per l'addestramento, assicurandosi di utilizzare l'AI in modo responsabile.
Componenti del prodotto

Notebook collaborativi
I notebook di Databricks supportano in modo nativo Python, R, SQL e Scala, consentendo ai professionisti di lavorare insieme con i linguaggi e le librerie preferiti, per scoprire, visualizzare e condividere informazioni approfondite e dettagliate.

Runtime Machine Learning
Accesso con un solo clic a cluster preconfigurati ottimizzati per ML, sostenuti da una distribuzione scalabile e affidabile dei framework ML più popolari (come PyTorch, TensorFlow e scikit-learn), con ottimizzazioni integrate per prestazioni impareggiabili su larga scala.

Feature Store
Facilita il riutilizzo di feature con una ricerca basata sulla loro provenienza, che sfrutta automaticamente le sorgenti di dati registrati. Le feature possono essere messe a disposizione per addestramento e serving con un'implementazione semplificata del modello che non richiede modifiche all'applicazione client.

AutoML
Tutti gli utenti, dagli esperti di ML ai "citizen data scientist", possono contare su un approccio trasparente ad AutoML, che non solo offre il modello con le migliori prestazioni, ma genera anche codice per ulteriori perfezionamenti da parte degli esperti.

Managed MLFlow
Basato su MLflow (la principale piattaforma open-source al mondo per il ciclo di vita ML), Managed MLflow accompagna velocemente i modelli ML dalla sperimentazione alla produzione, con volumi e livelli di sicurezza e affidabilità elevati.

Servizio di modelli in produzione
Si possono servire modelli su qualsiasi scala con la semplicità di un clic, con l'opzione di sfruttare il calcolo serverless.

Monitoraggio di modelli
Le prestazioni dei modelli possono essere monitorate, verificando come incidono sulle metriche di business in tempo reale. Databricks offre visibilità a 360 gradi e ricostruisce la provenienza dei modelli in produzione risalendo ai sistemi di dati sorgente, aiutando ad analizzare la qualità dei modelli e dei dati lungo tutto il ciclo di vita ML ed evidenziando eventuali problemi prima che producano danni rilevanti.

Repository
Con Repos, gli ingegneri possono seguire i flussi di lavoro Git in Databricks, consentendo ai team di gestione dei dati di sfruttare flussi di lavoro CI/CD automatizzati e portabilità del codice.
Modelli linguistici di grandi dimensioni
Databricks semplifica l'accesso ai modelli LLM e la loro integrazione nei flussi di lavoro e offre una piattaforma con funzionalità per ottimizzare i modelli LLM sui dati di ciascuna azienda, per migliorare le prestazioni in ambiti specifici.