Semplifica il ciclo di vita del machine learning
Passa da un'organizzazione e un'infrastruttura tecnologica a compartimenti stagni a una piattaforma aperta e unificata per l'intero ciclo di vita dei dati e del ML
![heroimage](/en-website-assets/static/8db630f1d1b4f2eb23393c0c3376e9b4/ml-header-graphic1678359339.png)
Costruire modelli ML è difficile. Portarli in produzione è ancora più difficile. Mantenere la qualità dei dati e la precisione dei modelli nel tempo è solo una delle tante sfide. Databricks snellisce lo sviluppo del ML con modalità uniche, dalla preparazione dei dati all'addestramento e all'implementazione dei modelli, su larga scala.
![ml-use-case](/en-website-assets/static/5f3dfcad1b0b0e7fbf78f8ba13479ad5/ml-use-case-1678359641.jpg)
La sfida
Le enormi differenze fra le infrastrutture di ML rendono la gestione degli ambienti ML molto complicata.
Passaggi di consegne difficili fra i team a causa di strumenti e processi differenti per la preparazione dei dati la sperimentazione e la produzione.
Difficile tracciabilità di esperimenti, modelli, dipendenze e artefatti, con conseguenti difficoltà nell'ottenere risultati riproducibili.
Rischi di sicurezza e conformità.
![solution](/en-website-assets/static/7b1a11f3dca21a36fab7fa7c328559c6/solution-pic1678359751.png)
La soluzione
Accesso con un clic ad ambienti ML pronti all'uso, ottimizzati e scalabili lungo tutto il ciclo di vita.
Un'unica piattaforma per acquisizione di dati, creazione di funzionalità, costruzione, perfezionamento e produzionalizzazione dei modelli per semplificare i passaggi di consegne.
Tracciamento automatico di esperimenti, codice, risultati e artefatti e gestione dei modelli in un hub centralizzato.
Rispetto delle esigenze di conformità con funzionalità granulari per controllo degli accessi, provenienza dei dati e gestione delle versioni.
Databricks per Machine Learning
Scopri come Databricks aiuta a preparare i dati e a costruire, implementare e gestire modelli ML in modo collaborativo e di ottimo livello, dalla sperimentazione alla produzione, su una scala senza precedenti.
ML dalla sperimentazione alla produzione su una scala senza confronti
![ml-use-case-03](/en-website-assets/static/ab7abd9fe22e6077077bdb4757fbc42e/ml-use-case-031678361026.jpg)
Il migliore ambiente per gli sviluppatori
Tutto quello che ti serve è a portata di mouse nel Workspace: set di dati, ambienti ML, notebook, file, esperimenti e modelli sono tutti disponibili in modo sicuro in un unico luogo.
I notebook collaborativi con supporto per più linguaggi (Python, R, Scala, SQL) semplificano il lavoro in team mentre co-authoring, integrazione Git, gestione delle versioni, controllo degli accessi per ruoli e altre funzioni ti aiutano a tenere tutto sotto controllo. Altrimenti puoi usare strumenti familiari come Jupyter Lab, PyCharm, IntelliJ, RStudio con Databricks per beneficiare di storage ed elaborazione di dati illimitati.
![delta-lake-use-case](/en-website-assets/static/17951fce78c3c36020850f43281dcb1a/delta-lake-use-case-min1678361075.jpg)
Dai dati grezzi al negozio di funzionalità di alta qualità
I professionisti del machine learning addestrano i modelli tramite un'ampia gamma di forme e formati di dati: set piccoli e grandi, DataFrame, testi, immagini, batch o streaming. Tutti richiedono pipeline e trasformazioni specifiche.
Databricks consente di acquisire dati grezzi praticamente da qualunque sorgente, unire i dati in batch e in streaming, programmare trasformazioni, gestire diverse versioni delle tabelle ed eseguire controlli di qualità per assicurare che i dati siano impeccabili e pronti per essere analizzati da ogni reparto dell'organizzazione. In questo modo puoi lavorare in modo trasparente e affidabile su qualsiasi dato, file CSV o acquisizione massiccia da data lake, secondo le tue esigenze.
![packages-pic](/en-website-assets/static/c137d978cc7752d091ca43914c46cc9e/packages-pic1678361218.png)
Il posto migliore per eseguire Scikit-Learn, TensorFlow, PyTorch e altro…
I framework di ML si evolvono molto rapidamente, rendendo difficile la manutenzione degli ambienti ML. Databricks ML Runtime fornisce ambienti ML pronti all'uso e ottimizzati, inclusi i framework ML più diffusi (Scikit-Learn, TensorFlow ecc.), oltre al supporto di Conda.
AutoML integrato e regolazione degli iperparametri aiutano a ottenere risultati più velocemente, mentre il dimensionamento semplificato consente di aumentare senza difficoltà il volume di dati (da "small" a "big" data) senza più essere limitati dalla capacità di calcolo disponibile. Ad esempio, si possono addestrare modelli di deep learning più velocemente distribuendo il calcolo su tutti i cluster con HorovodRunner e ottenere massime prestazioni da ogni GPU del cluster eseguendo la versione di TensorFlow ottimizzata per CUDA.
![track-updates](/en-website-assets/static/db585b51814c098ba54e4ef8d449a13b/ml-use-case-track-updates-min1678361264.jpg)
Traccia esperimenti e artefatti per riprodurre le esecuzioni in un secondo momento
Gli algoritmi di ML hanno decine di parametri configurabili e, che si lavori da soli o in team, è difficile tenere traccia di quali parametri, quale codice e quali dati sono stati utilizzati in ciascun esperimento per produrre un modello.
MLflow traccia automaticamente gli esperimenti insieme ad artefatti quali dati, codice, parametri e risultati per ogni ciclo di addestramento eseguito dai notebook. Così puoi visualizzare velocemente i cicli precedenti, confrontare i risultati e ripristinare una versione precedente del codice se necessario. Una volta individuata la versione migliore di un modello per la produzione, puoi registrarlo in un repository centrale e renderlo disponibile per l'implementazione e per semplificare i passaggi di consegne.
![ml-use-case-07](/en-website-assets/static/c187d643def6145fd4fa05c212f01e34/ml-use-case-07-min1678361343.jpg)
Passa dalla prototipazione alla produzione senza preoccupazioni
Una volta registrati, i modelli addestrati possono essere gestiti in maniera collaborativa lungo tutto il ciclo di vita con il registro dei modelli di MLflow.
Si possono gestire diverse versioni e i modelli possono passare attraverso diversi stadi, ad esempio sperimentazione, staging, produzione e archiviazione. Tutti i soggetti coinvolti possono commentare e inviare richieste di cambiamento di fase. Tutta la gestione del ciclo di vita si integra con i flussi di lavoro di approvazione e governance, con controlli di accesso basati sui ruoli.
![ml](/en-website-assets/static/7f0b86400df963abc67c3c05da2734c7/ml-use-case-min1678361354.jpg)
Implementa modelli ovunque
Implementa velocemente modelli in produzione per l'inferenza in batch su Apache Spark™ o come API REST utilizzando l'integrazione con contenitori Docker, Azure ML e Amazon SageMaker.
Operazionalizza i modelli in produzione utilizzando Jobs Scheduler e cluster autogestiti per scalare la soluzione in base alle esigenze dell'azienda.
Rendi velocemente operative le versioni più recenti dei modelli e monitora la deriva dei modelli con Delta Lake e MLflow.
Come funziona
Gestione dell'intero ciclo di vita del machine learning su Databricks
![Shell](https://www.databricks.com/sites/default/files/2019/02/quby_logo.png)
Risparmiare energia in casa con un approccio unificato a dati e AI
Grazie a Databricks, Quby ha realizzato il proprio obiettivo: sfruttare il machine learning per migliorare il comfort abitativo e la vita dei propri clienti, contribuendo al tempo stesso a ridurre i consumi energetici.
![quby-thumbnail](https://www.databricks.com/sites/default/files/2023-03/quby-thumbnail.jpg?v=1678362188)
Risorse
Report
![og](/en-website-assets/static/eabd47698526e1d1f446dd87234dc525/2021-02-Databricks-Gartner-OG1678362382.jpg)
eBook
![ty-tn](/en-website-assets/static/54d9bc135dea69b1e2aca3f5caf584ef/ml-lifecycle-ty-tn1678363576.png)
eBook
![TY TN](/en-website-assets/static/713247675f71cbf8b89f18c29bdf3cdf/2020-09-ebook-big-book-of-machine-learning-use-cases-lp-ty-tn1678363630.png)