Passa al contenuto principale

Model Serving

ML in produzione semplificato

illustration-nodes-1-gray
video thumb

Introduzione

Model Serving distribuisce qualsiasi modello (inclusi i modelli linguistici di grandi dimensioni) come API REST, consentendo di costruire applicazioni AI in tempo reale come raccomandazioni personalizzate, chatbot per servizio clienti e rilevamento di frodi. Model Serving mette la potenza dell'AI generativa al servizio delle tue app, senza il fastidio di dover gestire l'infrastruttura. Model Serving è integrato nella Databricks Lakehouse Platform, offrendo un'integrazione nativa con MLflow e data store online, scalabilità automatica e monitoraggio integrato dei modelli implementati.

Citazioni dei clienti

Simplified deployment

Implementazione semplificata per tutti i modelli AI

Implementa qualsiasi tipo di modello, dai modelli open-source preaddestrati ai modelli personalizzati costruiti con i tuoi dati, su CPU e GPU. La creazione di container e la gestione dell'infrastruttura automatizzate riducono i costi di manutenzione e velocizzazione la distribuzione, consentendo di concentrare l'attenzione sulla costruzione dei progetti di AI e sulla creazione di valore aggiunto per l'attività in tempi più rapidi.

Unified with Lakehouse data

Unificazione con i dati del lakehouse

Accelera le implementazioni e riduci gli errori grazie alla profonda integrazione con il lakehouse, che offre funzionalità automatizzate di ricerca, monitoraggio e governance lungo tutto il ciclo di vita dell'AI. L'integrazione con Unity Catalog offre governance e provenienza automatiche su tutti i dati, le funzionalità e i modelli.

real-time

Tempo reale

Il model serving può essere eseguito come API a bassa latenza su un servizio serverless ad alta disponibilità con supporto di CPU e GPU. La soluzione può essere espansa senza fatica partendo da zero per soddisfare le esigenze più critiche (ed eventualmente ridimensionata secondo necessità), pagando solo le risorse di calcolo effettivamente utilizzate.

Ottimizzato per i modelli LLM

Riduci costi e latenza grazie a un'ottimizzazione specifica per modelli linguistici di grandi dimensioni (LLM) mirata a determinate architetture di AI generativa. Beneficia di queste ottimizzazione su modelli open-source diffusi, come Llama 2 e MPT, oltre a quelli ottimizzati con i tuoi dati proprietari.

Test comparativi su un Llama-2-13b utilizzando un'istanza GPU A10 con un token ratio in entrata/uscita pari a 1024/128 e senza quantizzazione

Comincia a lavorare con queste risorse

eBook

mlops-virtual-event-thumb

Pronto per cominciare?