Negli ultimi mesi, l'interesse delle agenzie del settore pubblico per i Large Language Model (LLM) è salito alle stelle, poiché gli LLM stanno cambiando radicalmente le aspettative delle persone nelle loro interazioni con computer e dati. Dal punto di vista di Databricks, praticamente ogni cliente, effettivo e potenziale, del settore pubblico con cui interagiamo sente il dovere di integrare gli LLM nella propria missione. Ci chiedono spesso cosa siano gli LLM (come Dolly di Databricks), a cosa servano e in che modo Databricks Lakehouse supporterà le applicazioni basate su LLM. In questo post affronteremo queste domande nel contesto delle esigenze, delle opportunità e dei vincoli unici delle organizzazioni del settore pubblico. Ci concentreremo anche sui vantaggi di creare, possedere e curare il proprio LLM rispetto all'adozione di una tecnologia che richiede il Data Sharing con terze parti, come ChatGPT.
Gli odierni LLM rappresentano l'ultima versione di una serie di innovazioni nell'elaborazione del linguaggio naturale, iniziata all'incirca nel 2017 con l'ascesa dell'architettura del modello transformer. Questi modelli basati su transformer possiedono da tempo capacità sorprendenti di comprendere il linguaggio umano abbastanza bene da svolgere attività come l'identificazione del sentiment, l'estrazione di nomi di persone, luoghi e cose e la traduzione di documenti da una lingua all'altra. Sono anche in grado di generare testo interessante da un prompt, con vari gradi di qualità e precisione. Più di recente, ricercatori e sviluppatori hanno scoperto che modelli linguistici molto grandi, "pre-addestrati" su fonti di testo molto grandi e diversificate, possono essere sottoposti a "fine-tuning" per seguire varie istruzioni umane e generare informazioni utili.
In precedenza, la prassi migliore consisteva nell'addestrare modelli separati per ogni attività linguistica. Il processo di addestramento del modello richiedeva risorse: dati curati, compute (solitamente una o più GPU) e competenze avanzate di Data Science e sviluppo software. Sebbene tali modelli possano essere molto accurati, esistono chiaramente limiti di risorse, sia in termini di calcolo che di impegno umano, nell'ampliare il loro utilizzo. Con la rapida ascesa di ChatGPT, ora vediamo che un singolo LLM, con la giusta quantità di contesto e il prompt corretto, può essere utilizzato per eseguire molte attività diverse, a volte con una precisione migliore rispetto a un modello più specializzato. E la capacità degli LLM di generare nuovo testo, l'"IA generativa", è sia affascinante che estremamente utile.
Le organizzazioni del settore privato hanno segnalato incredibili vantaggi derivanti dagli LLM, come la generazione e la migrazione del codice, la categorizzazione e le risposte automatizzate al feedback dei clienti, i chatbot per i call center, la generazione di report e molto altro. Essendo un microcosmo di molti diversi settori industriali, le agenzie del Settore Pubblico hanno le stesse opportunità offerte dagli LLM, oltre ad altre esigenze specifiche. I casi d'uso comuni nel Settore Pubblico includono:
Sebbene siano certamente potenti, gli LLM introducono anche una nuova serie di sfide, amplificate da alcuni dei vincoli operativi tipici delle organizzazioni del settore pubblico. Analizziamone alcune e allineiamole con le funzionalità di Databricks Lakehouse:
La maggior parte delle organizzazioni del settore pubblico dispone di rigidi controlli normativi sui propri dati. Questi controlli esistono per motivi di privacy, sicurezza e, in alcuni casi, per la necessità di preservare la segretezza. Anche il semplice compito di porre a un LLM una domanda o una serie di domande potrebbe rivelare informazioni proprietarie. Inoltre, la maggior parte delle agenzie federali avrà la necessità di perfezionare gli LLM per soddisfare i loro requisiti specifici. Per questi motivi, è logico presumere che le agenzie del settore pubblico saranno limitate nell'uso di modelli pubblici. È probabile che richiedano che i modelli vengano perfezionati in un ambiente che ne garantisca la riservatezza e la sicurezza e che anche le interazioni con i modelli tramite vari metodi di prompting siano riservate.
Databricks Lakehouse Platform dispone degli strumenti necessari per sviluppare e distribuire applicazioni LLM end-to-end. (Maggiori dettagli in seguito.) Inoltre, Databricks possiede le certificazioni necessarie per elaborare i dati per la stragrande maggioranza delle organizzazioni del settore pubblico statunitense. Databricks è un partner affidabile e competente per le organizzazioni che desiderano sfruttare il pieno potenziale degli LLM senza i rischi derivanti dall'utilizzo di LLM proprietari as-a-service come ChatGPT o Bard.
Oltre a Databricks, nel settore si sta assistendo a un numero crescente di prove che gli LLM open-source, se utilizzati in modo appropriato, possono fornire risultati che si avvicinano alla parità con i principali LLM proprietari. L'evidenza è più forte nei casi d'uso in cui gli LLM proprietari devono comprendere contesti sfumati o istruzioni su cui non sono stati precedentemente addestrati. In questi casi, gli LLM open source possono ricevere prompt o essere sottoposti a fine-tuning su dati specifici dell'organizzazione per fornire risultati sorprendenti. Con questa architettura della soluzione, le organizzazioni possono ottenere risultati di livello mondiale con compute e sviluppo contenuti, senza che i dati varchino mai i confini autorizzati. Per le organizzazioni del settore pubblico, ciò rappresenta un vantaggio significativo che non può essere trascurato.

La fiducia di Databricks nella potenza degli LLM open source è rafforzata dal rilascio di Dolly 2.0, il primo LLM open source in grado di seguire le istruzioni, messo a punto su un set di dati di istruzioni generato dall'uomo e concesso in licenza per la ricerca e l'uso commerciale. Al rilascio di Dolly è seguita un'ondata di altri capaci LLM open source, alcuni dei quali hanno prestazioni davvero impressionanti. Databricks si impegna a fornire alle organizzazioni del settore pubblico una piattaforma per creare applicazioni con l'LLM di loro scelta, open source o commerciale, e siamo entusiasti di ciò che ci riserva il futuro.

La modernizzazione del patrimonio di dati continua a essere una priorità per la maggior parte dei leader tecnici nel settore pubblico. Sono ormai lontani i tempi dei data warehouse on-premise, solitamente sostituiti da data warehouse o lakehouse in cloud. Le organizzazioni che non sono ancora migrate al cloud, o che hanno optato per un data warehouse in cloud, ora si trovano di fronte a un altro punto di svolta: come adottare gli LLM in un'architettura che non è in grado di supportarli? Dato l'enorme potenziale degli LLM di avere un impatto sulle missioni delle agenzie e sui dipendenti pubblici che le realizzano, è fondamentale stabilire un'architettura a prova di futuro. Entra nel lakehouse.
Databricks è da tempo una piattaforma valida per i carichi di lavoro di machine learning (ML) e intelligenza artificiale (AI). I clienti utilizzano da anni LLM di livello produttivo e i loro predecessori su Databricks, sfruttando funzionalità quali:
Nessuna di queste funzionalità è offerta in un data warehouse, nemmeno in cloud. Per utilizzare gli LLM in combinazione con un data warehouse, un'organizzazione dovrebbe procurarsi altri servizi software per tutti gli aspetti dei processi di addestramento e deployment del modello e inviare dati avanti e indietro tra questi servizi. Solo l'architettura Databricks Lakehouse offre la semplicità, a livello di architettura, di eseguire tutte le attività operative LLM su un'unica piattaforma, sfruttando appieno i vantaggi illustrati nella nostra precedente discussione sulla sovranità dei dati.
Al Data and AI Summit 2023, Databricks ha presentato Lakehouse AI, che aggiunge diverse nuove importanti funzionalità relative agli LLM che semplificano notevolmente l'architettura per MLOps, tra cui:

Negli ultimi anni, le agenzie governative hanno dovuto far fronte a una persistente "fuga di cervelli", in particolare in ruoli che si sovrappongono a tendenze tecnologiche in voga come la sicurezza informatica, il cloud computing e l'ML/AI. L'attuale intensa attenzione sugli LLM sta guidando una domanda ancora maggiore di professionisti di talento nel campo dell'ML/AI. Inevitabilmente, il fascino e i vantaggi che derivano da un impiego nel settore big tech e delle startup aggraveranno la carenza di talenti nel settore pubblico. I leader di governo devono avere accesso a piattaforme e partnership che li aiutino ad adottare facilmente gli LLM e a rendere i propri dipendenti autonomi nell'utilizzarli.
Databricks è impegnata a rilasciare funzionalità che semplificano ed espandono le capacità esistenti per lavorare con gli LLM nella piattaforma lakehouse. Tra questi:

Oltre a rendere gli LLM facili da usare in Databricks, stiamo anche introducendo programmi di addestramento e abilitazione per gli LLM per aiutare le organizzazioni a migliorare la loro competenza sugli LLM. Questi vengono forniti a un livello accessibile per gli utenti del settore pubblico di Databricks.
Abbondano le opportunità di sfruttare gli LLM per accelerare i casi d'uso del settore pubblico. Un valore immenso rimane sepolto nei dati legacy, in attesa di essere scoperto e applicato ai problemi attuali. Scopri di più su come Databricks può aiutarti ad adottare gli LLM per la tua missione partecipando al nostro webinar Large Language Models in the Public Sector il 2 agosto a mezzogiorno (EDT). Inoltre, consulta le iscrizioni all'anteprima delle funzionalità elencate nell'annuncio Lakehouse AI e scopri per quali la tua organizzazione è idonea.
Setor público
June 4, 2025/3 min de leitura

