
I modelli linguistici di grandi dimensioni (LLM) sono diventati strumenti fondamentali per una vasta gamma di applicazioni, dalla traduzione automatica alla rilevazione delle frodi. Tuttavia, nonostante le loro capacità avanzate, questi modelli possono generare risposte imprecise e, peggio, possono essere troppo sicuri di previsioni errate o troppo insicuri riguardo a quelle corrette. Questo rende difficile per gli utenti valutare quando possono fidarsi effettivamente dei risultati prodotti.
Per affrontare questo problema, i ricercatori del MIT e del MIT-IBM Watson AI Lab hanno sviluppato una nuova tecnica chiamata “Thermometer”. Questo metodo innovativo si propone di migliorare la calibrazione dei modelli linguistici, rendendo le loro previsioni più affidabili e meglio allineate alla loro accuratezza reale.
Tradizionalmente, i modelli di apprendimento automatico sono calibrati per garantire che la loro confidenza nelle previsioni sia proporzionata alla loro accuratezza. Tuttavia, poiché i grandi modelli linguistici possono essere applicati a un ampio spettro di attività diverse, i metodi di calibrazione tradizionali spesso non sono efficaci. I ricercatori hanno quindi ideato Thermometer, una tecnica che utilizza un modello ausiliario più piccolo per calibrare un LLM in modo efficiente.
Thermometer è progettato per superare le limitazioni dei metodi di calibrazione tradizionali, che richiedono ingenti risorse computazionali e dati etichettati specifici per ogni compito. Questo approccio innovativo riduce i calcoli necessari e mantiene alta l’accuratezza del modello. La tecnica sfrutta il concetto di “scaling della temperatura”, un parametro che regola la confidenza del modello rispetto alla sua accuratezza.
“Con Thermometer, il nostro obiettivo è fornire un segnale chiaro che indichi quanto una previsione del modello è affidabile, riflettendo l’incertezza del modello stesso”, spiega Maohao Shen, studente di ingegneria elettrica e informatica al MIT e autore principale dello studio.
Il metodo Thermometer si basa su un modello ausiliario addestrato su set di dati etichettati rappresentativi, che poi può essere applicato a nuove attività senza necessità di ulteriori dati etichettati. Questo modello ausiliario può essere adattato per calibrare LLM per compiti diversi, come rispondere a domande di geometria o biologia, utilizzando solo una piccola porzione del funzionamento interno dell’LLM.
I risultati finora mostrano che Thermometer produce misure di incertezza meglio calibrate rispetto ai metodi tradizionali, mantenendo l’accuratezza del modello e riducendo i costi computazionali. Inoltre, i ricercatori hanno trovato che un modello di termometro addestrato per un LLM più piccolo può essere applicato direttamente per calibrare un LLM più grande della stessa famiglia.
Il team di ricerca prevede di estendere Thermometer a compiti di generazione di testo più complessi e di applicare la tecnica a modelli linguistici ancora più grandi. Sperano anche di determinare la diversità e la quantità di dati etichettati necessari per addestrare un modello Thermometer, per garantire che possa generalizzare bene a nuovi compiti.
Questa ricerca, finanziata in parte dal MIT-IBM Watson AI Lab, rappresenta un passo importante verso una calibrazione più precisa dei modelli di intelligenza artificiale, contribuendo a migliorare l’affidabilità e l’efficacia di questi strumenti avanzati.
Per ulteriori dettagli, la ricerca è stata recentemente presentata all’International Conference on Machine Learning.

Il termometro, un metodo per calibrare un modello linguistico di grandi dimensioni, potrebbe aiutare gli utenti a individuare le situazioni in cui un modello è eccessivamente fiducioso riguardo a false previsioni.
Crediti:Immagine: MIT News; iStock