Machine Learning
Accelera i progetti AI con un approccio al Machine Learning incentrato sui dati
Un approfondimento sul Machine Learning in Databricks

Basato su un'architettura lakehouse aperta, Databricks Machine Learning consente ai team ML di preparare ed elaborare dati, snellisce la collaborazione fra i team e standardizza tutto il ciclo di vita ML, dalla sperimentazione alla produzione.

Oltre 6 milioni di dollari risparmiati
CONA Services usa Databricks per l'intero ciclo di vita del ML per ottimizzare la supply chain per centinaia di migliaia di negozi.

3,9 milioni di real risparmiati
Via sfrutta il machine learning per fare previsioni accurate della domanda, riducendo i costi di elaborazione del 25%.

Oltre 50 milioni di dollari risparmiati
Amgen migliora la collaborazione nella data science per accelerare la scoperta di farmaci e ridurre i costi operativi.
.png)
Semplificare tutti gli aspetti dei dati per il ML
Poiché Databricks ML è basato su una piattaforma lakehouse aperta con Delta Lake, il team di machine learning potrà accedere, esplorare e preparare qualsiasi tipo di dati in qualsiasi quantità. Le feature possono essere trasformate in pipeline di produzione con una modalità self-service senza dipendere dagli ingegneri dei dati.

Automatizzare il tracciamento e la governance degli esperimenti
Managed MLflow traccia automaticamente gli esperimenti e registra parametri, metriche, versioni di dati e codice, oltre agli artefatti dei modelli a ogni ciclo di addestramento. Si possono visualizzare velocemente cicli precedenti, confrontare i risultati e riprodurre un risultato passato, secondo necessità. Una volta individuata la versione migliore di un modello per la produzione, il modello può essere registrato nel Model Registry per semplificare i passaggi di consegne lungo tutto il ciclo di vita dello sviluppo.

Gestisci l'intero ciclo di vita del modello, dai dati alla produzione... e ritorno
Una volta registrati, i modelli addestrati possono essere gestiti in maniera collaborativa lungo tutto il ciclo di vita con Model Registry. Si possono gestire diverse versioni e i modelli possono passare attraverso diversi stadi, ad esempio sperimentazione, staging, produzione e archiviazione. La gestione del ciclo di vita si integra con i flussi di lavoro di approvazione e governance, con controlli di accesso basati sui ruoli. Commenti e notifiche via mail offrono un ambiente di collaborazione ricco per i team di gestione dei dati.

Implementare modelli ML su larga scala con bassa latenza
Implementa modelli con un solo clic senza preoccuparti di gestione del server o vincoli dimensionali. Databricks consente di implementare i modelli come endpoint di API REST ovunque, con disponibilità in tutta l'impresa.
Componenti del prodotto

Notebook collaborativi
I notebook di Databricks supportano in modo nativo Python, R, SQL e Scala, consentendo ai professionisti di lavorare insieme con i linguaggi e le librerie preferiti, per scoprire, visualizzare e condividere informazioni approfondite e dettagliate.

Runtime Machine Learning
Accesso con un solo clic a cluster preconfigurati ottimizzati per ML, sostenuti da una distribuzione scalabile e affidabile dei framework ML più popolari (come PyTorch, TensorFlow e scikit-learn), con ottimizzazioni integrate per prestazioni impareggiabili su larga scala.

Feature Store
Facilita il riutilizzo di feature con una ricerca basata sulla loro provenienza, che sfrutta automaticamente le sorgenti di dati registrati. Le feature possono essere messe a disposizione per addestramento e serving con un'implementazione semplificata del modello che non richiede modifiche all'applicazione client.

AutoML
Tutti gli utenti, dagli esperti di ML ai "citizen data scientist", possono contare su un approccio trasparente ad AutoML, che non solo offre il modello con le migliori prestazioni, ma genera anche codice per ulteriori perfezionamenti da parte degli esperti.

Managed MLFlow
Basato su MLflow (la principale piattaforma open-source al mondo per il ciclo di vita ML), Managed MLflow accompagna velocemente i modelli ML dalla sperimentazione alla produzione, con volumi e livelli di sicurezza e affidabilità elevati.

Servizio di modelli in produzione
Si possono servire modelli su qualsiasi scala con la semplicità di un clic, con l'opzione di sfruttare il calcolo serverless.

Monitoraggio di modelli
Le prestazioni dei modelli possono essere monitorate, verificando come incidono sulle metriche di business in tempo reale. Databricks offre visibilità a 360 gradi e ricostruisce la provenienza dei modelli in produzione risalendo ai sistemi di dati sorgente, aiutando ad analizzare la qualità dei modelli e dei dati lungo tutto il ciclo di vita ML ed evidenziando eventuali problemi prima che producano danni rilevanti.

Repository
Con Repos, gli ingegneri possono seguire i flussi di lavoro Git in Databricks, consentendo ai team di gestione dei dati di sfruttare flussi di lavoro CI/CD automatizzati e portabilità del codice.