I modelli linguistici sono un tipo di AI generativa (GenAI) che utilizzano l'elaborazione del linguaggio naturale (NLP) per comprendere e generare il linguaggio umano. I modelli linguistici di grandi dimensioni (LLM) sono i più potenti tra questi. Gli LLM vengono addestrati a partire da enormi set di dati utilizzando algoritmi avanzati di machine learning (ML) per apprendere i pattern e le strutture del linguaggio umano e generare risposte testuali a prompt scritti. Esempi di LLM includono BERT, Claude, Gemini, Llama e la famiglia di LLM Generative Pretrained Transformer (GPT).
Gli LLM hanno superato notevolmente i loro predecessori in termini di prestazioni e capacità in un'ampia gamma di attività linguistiche. La loro capacità di generare contenuti complessi e sfumati e di automatizzare le attività per ottenere risultati simili a quelli umani sta promuovendo i progressi in vari campi. Gli LLM vengono ampiamente integrati nel mondo del business per avere un impatto in svariati ambienti e per diversi usi aziendali, tra cui l'automazione dell'assistenza, l'individuazione di approfondimenti e la generazione di contenuti personalizzati.
Le funzionalità principali di AI e linguistiche degli LLM includono:
La maggior parte degli LLM utilizza un'architettura transformer. Funzionano scomponendo il testo di input in token (unità sub-parola), eseguendo l'embedding di tali token in vettori numerici e utilizzando meccanismi di attenzione per comprendere le relazioni all'interno dell'input. Prevedono quindi il token successivo in una sequenza per generare output coerenti.
Il pre-addestramento di un modello LLM si riferisce al processo di addestramento su un vasto corpus di dati, come testo o codice, senza utilizzare conoscenze pregresse o pesi di un modello esistente. Il risultato del preaddestramento completo è un modello di base che può essere utilizzato direttamente o ulteriormente ottimizzato per le attività a valle.
Il pre-addestramento garantisce che le conoscenze di base del modello siano su misura per il tuo dominio specifico. Il risultato è un modello personalizzato che si distingue per i dati esclusivi della tua organizzazione. Tuttavia, il pre-addestramento è in genere il tipo di addestramento più esteso e costoso e non è una pratica comune per la maggior parte delle organizzazioni.
L'ottimizzazione è il processo che consiste nell'adattare un LLM preaddestrato a un insieme di dati relativamente più piccolo, specifico di un settore o di un'attività. Durante il processo di ottimizzazione, l'addestramento continua per un breve periodo di tempo, eventualmente tramite la regolazione di un numero relativamente inferiore di pesi rispetto all'intero modello.
Le due forme più comuni di fine-tuning sono:
Ottimizzazione supervisionata delle istruzioni: questo approccio prevede la prosecuzione dell'addestramento di un LLM con un data set di esempi input e output, solitamente si usano migliaia di esempi.
Pre-addestramento continuo: questo metodo di fine-tuning non si basa su esempi di input e output, ma utilizza invece testo non strutturato specifico del dominio per continuare lo stesso processo di pre-addestramento (come la previsione del token successivo e il masked language modeling).
Il fine-tuning è importante perché consente a un'organizzazione di usare un LLM di base e addestrarlo con i propri dati per una maggiore accuratezza e personalizzazione per il dominio e i carichi di lavoro aziendali. Questo approccio consente inoltre di controllare i dati utilizzati per l'addestramento, assicurandosi di utilizzare l'AI in modo responsabile.
Gli LLM si basano sul deep learning, una forma di AI in cui grandi quantità di dati vengono fornite a un programma per addestrarlo, in base alla probabilità. Grazie all'esposizione a set di dati massicci, gli LLM possono addestrarsi a riconoscere pattern e relazioni linguistiche senza una programmazione esplicita, con meccanismi di autoapprendimento per migliorare continuamente la precisione.
La base degli LLM sono le reti neurali artificiali, ispirate alla struttura del cervello umano. Queste reti sono composte da nodi interconnessi disposti in strati, che includono uno strato di input, uno strato di output e uno o più strati intermedi. Ogni nodo elabora e trasmette le informazioni allo strato successivo in base a pattern appresi.
Gli LLM utilizzano un tipo di rete neurale chiamato modello transformer. Questi modelli rivoluzionari possono analizzare un'intera frase contemporaneamente, a differenza dei modelli precedenti che elaborano le parole in sequenza. Questo permette loro di comprendere il linguaggio in modo più rapido ed efficiente. I modelli Transformer utilizzano una tecnica matematica chiamata self-attention, che assegna un'importanza variabile alle diverse parole in una frase, consentendo al modello di cogliere le sfumature di significato e di comprendere il contesto. La codifica posizionale aiuta il modello a capire l'importanza dell'ordine delle parole all'interno di una frase, il che è essenziale per comprendere il linguaggio. Il modello Transformer consente agli LLM di elaborare enormi quantità di dati, apprendere informazioni contestualmente pertinenti e generare contenuti coerenti.
Ulteriori informazioni sui trasformatori, il fondamento di ogni LLM
I LLM possono generare un impatto sul business in numerosi casi d'uso e in diversi settori. I casi d'uso esemplificativi includono:
JetBlue si è affidato alla tecnologia Databricks per implementare "BlueBot", un chatbot che utilizza modelli di AI generativa open source integrati da dati aziendali. Il chatbot può essere utilizzato da tutti i team di JetBlue per ottenere accesso ai dati in base al ruolo. Ad esempio, il team finanziario può vedere i dati del sistema SAP e i documenti normativi, mentre il team operativo vede solo le informazioni sulla manutenzione.
Chevron Phillips sfrutta le soluzioni di AI generativa basate su modelli open-source come Dolly di Databricks per ottimizzare l'automazione dei processi documentali. Questi strumenti trasformano i dati non strutturati di PDF e manuali in informazioni dettagliate strutturate, consentendo un'estrazione dei dati più rapida e accurata per le attività operative e la market intelligence. Le policy di governance garantiscono la produttività e la gestione del rischio, mantenendo al contempo la tracciabilità.
Thrivent Financial sta sfruttando l'AI generativa e Databricks per accelerare le ricerche, fornire approfondimenti più chiari e accessibili e aumentare la produttività dell'ingegneria. Riunendo i dati in un'unica piattaforma con una governance basata sui ruoli, l'azienda sta creando uno spazio sicuro in cui i team possono innovare, esplorare e lavorare in modo più efficiente.
Numerosi recenti progressi tecnologici hanno portato i LLM sotto i riflettori:
Ci sono quattro pattern architettonici da considerare quando si personalizza un'applicazione LLM con i dati della propria organizzazione. Le tecniche descritte di seguito non si escludono a vicenda. Al contrario, possono (e devono) essere combinate per sfruttare i punti di forza di ciascuna.
Indipendentemente dalla tecnica scelta, costruire una soluzione in modo ben strutturato e modulare garantisce alle organizzazioni di essere pronte a iterare e adattarsi. Scopri di più su questo approccio e altro ancora in The Big Book of Generative AI.
| Metodo | Definizione | Caso d'uso primario | Requisiti dei dati | Vantaggi | Considerazioni |
|---|---|---|---|---|---|
| Creazione di prompt specializzati per guidare il comportamento dei LLM | Guida rapida, in tempo reale del modello | Nessuno | Veloce, economico, non richiede addestramento | Meno controllo rispetto all'ottimizzazione | |
| Combinazione tra un LLM e il recupero di conoscenze esterne | Set di dati dinamici e conoscenze esterne | Base di conoscenza o database esterno (ad esempio, database vettoriale) | Contesto aggiornato dinamicamente, maggiore precisione | Aumenta la lunghezza dei prompt e la computazione inferenziale | |
| Adattamento di un LLM preaddestrato a set di dati o settori specifici | Specializzazione del settore o del compito | Migliaia di esempi specifici del settore o di esempi di istruzioni | Controllo granulare, alta specializzazione | Richiede dati etichettati, costo computazionale | |
| Addestramento di un LLM da zero | Compiti unici o corpora specifici del settore | Grandi set di dati (da miliardi a migliaia di miliardi di token) | Massimo controllo, adatto a esigenze specifiche | Estremamente oneroso dal punto di vista delle risorse |
L'ingegneria dei prompt è la pratica di adattare i prompt di testo forniti a un LLM per ottenere risposte più accurate o pertinenti. Non tutti i LLM produrranno la stessa qualità, dal momento che l'ingegneria dei prompt è specifica del modello. Di seguito sono riportati alcuni consigli di carattere generale validi per una varietà di modelli:
Generazione aumentata dal recupero, o RAG, è un approccio architetturale che può migliorare l'efficacia delle applicazioni LLM sfruttando dati personalizzati. Ciò avviene recuperando dati/documenti pertinenti a una domanda o a un compito e fornendoli come contesto per il LLM. La RAG ha dimostrato di avere successo nel supportare i chatbot e i sistemi Q&A che devono mantenere informazioni aggiornate o accedere a conoscenze specifiche del settore.
Per saperne di più sulla RAG, fai clic qui.
Il campo degli LLM è ricco di opzioni tra cui scegliere. In generale, è possibile raggruppare i LLM in due categorie: servizi proprietari e modelli open source.
I modelli LLM proprietari sono sviluppati e di proprietà di aziende private e in genere richiedono licenze per l'accesso. Forse l'LLM proprietario più noto è GPT-4o, che alimenta ChatGPT, rilasciato nel 2022 con grande clamore. ChatGPT offre un'interfaccia di ricerca intuitiva in cui gli utenti possono inserire prompt e ricevere una risposta rapida e pertinente. Gli sviluppatori possono accedere all'API ChatGPT per integrare questo LLM nelle proprie applicazioni, prodotti o servizi. Altri modelli proprietari includono Gemini di Google e Claude di Anthropic.
Un'altra opzione è quella di implementare un LLM autonomo, in genere utilizzando un modello open source disponibile per uso commerciale. La community open source ha recuperato rapidamente terreno, raggiungendo le prestazioni dei modelli proprietari. I modelli LLM open source più diffusi includono Llama 4 di Meta e Mixtral 8x22B.
Le considerazioni più importanti e le differenze di approccio tra l'utilizzo di un'API chiusa di un fornitore terzo e l'hosting interno del proprio LLM open source (o ottimizzato) sono la predisposizione per il futuro, la gestione dei costi e lo sfruttamento dei dati come vantaggio competitivo. I modelli proprietari possono diventare obsoleti e venire rimossi, interrompendo le pipeline e gli indici vettoriali esistenti; i modelli open source, al contrario, saranno accessibili per sempre. I modelli open source ottimizzati offrono maggiori opzioni di personalizzazione, consentendo un migliore compromesso tra prestazioni e costi. Pianificare l'ottimizzazione futura dei propri modelli permette di sfruttare i dati dell'organizzazione come vantaggio competitivo per costruire modelli migliori di quelli disponibili pubblicamente. Infine, i modelli proprietari possono sollevare problemi di governance, in quanto questi LLM "black box" consentono una minore supervisione dei processi di addestramento e dei pesi.
L'hosting dei propri LLM open source richiede più lavoro rispetto all'utilizzo di LLM proprietari. MLflow di Databricks rende più semplice, per chi ha esperienza con Python, estrarre qualsiasi modello di trasformatore e usarlo come oggetto Python.
La valutazione dei LLM è una scelta impegnativa e in continua evoluzione, soprattutto perché i LLM spesso dimostrano capacità disomogenee che variano in base al task. Un LLM potrebbe eccellere in un benchmark, ma basteranno piccole variazioni nel prompt o nel problema per influenzare drasticamente le sue prestazioni.
Tra i principali strumenti e benchmark utilizzati per valutare le prestazioni di un LLM si possono ricordare:
Leggi anche le Best practice per la valutazione tramite LLM di applicazioni RAG.
Large Language Model Ops (LLMOps) riguarda le pratiche, le tecniche e gli strumenti utilizzati per la gestione operativa di modelli linguistici di grandi dimensioni in ambienti di produzione.
LLMOps consente il deployment, il monitoraggio e la manutenzione efficienti degli LLM. LLMOps, come il tradizionale Machine Learning Ops (MLOps), richiede la collaborazione fra data scientist, ingegneri DevOps e informatici. Per maggiori dettagli su LLMOps, vedi qui.
Ci sono molte risorse disponibili in cui trovare maggiori informazioni sui LLM, tra cui:
