
Microsoft ha annunciato lo sviluppo di un nuovo modello di intelligenza artificiale chiamato Large Action Model (LAM) , progettato per eseguire programmi Windows e completare compiti in modo autonomo. Questo modello rappresenta un importante passo avanti, distinguendosi per la capacità di tradurre le richieste degli utenti in azioni reali, spingendosi oltre i confini dell’elaborazione testuale tradizionale.
A differenza dei modelli linguistici convenzionali, come GPT-4, che si concentrano sulla creazione e comprensione dei testi, il LAM è stato specificamente addestrato per operare con i prodotti Microsoft Office e altre applicazioni Windows. Questo consente al modello di non limitarsi all’interazione testuale, ma di:
- Eseguire programmi.
- Automatizzare le attività su piattaforme Microsoft.
- Controllare i dispositivi integrati.
LAM rappresenta il primo modello di IA sviluppato esplicitamente per queste funzioni, trasformando idee in azioni eseguibili.
Secondo Microsoft, lo sviluppo del LAM è articolato in quattro fasi chiave:
- Pianificazione dei compiti: Aggiungere il modello a suddividere i compiti in passaggi logici e sequenziali.
- Apprendimento da modelli avanzati: Utilizzare GPT-4 come base per convertire i piani in azioni.
- Auto-esplorazione: consentire al modello di cercare soluzioni innovative e superare ostacoli.
- Addestramento basato sulla ricompensa: Migliorare la precisione esecutiva attraverso un feedback positivo.
Prestazioni e Test
Il LAM è stato testato in ambiente di prova con Microsoft Word , dimostrando prestazioni superiori rispetto a GPT-4:
- Precisione: LAM ha completato i compiti con una percentuale di successo del 71%, rispetto al 63% di GPT-4 senza supporto visivo.
- Velocità: LAM ha eseguito l’attività in un solo secondo, rispetto agli 86 secondi di GPT-4.
- Confronto con GPT-4 visivo: Quando alimentato con informazioni visive, GPT-4 ha raggiunto una precisione del 75,5%, superando di poco LAM.
Per addestrare LAM, Microsoft ha utilizzato un ampio dataset composto da:
- Documenti Microsoft.
- Articoli wikiHow.
- Risultati della ricerca Bing.
Questi dati hanno permesso al modello di affrontare compiti complessi, elaborandoli in sotto-compiti gestibili.
I ricercatori di Microsoft sottolineano che il LAM rappresenta un progresso significativo verso lo sviluppo dell’Intelligenza Artificiale Generale (AGI) . Con questo nuovo modello, si apre la strada a sistemi in grado di andare oltre la comprensione testuale, offrendo assistenti digitali che possono concretamente supportare le attività quotidiane in modo efficiente e autonomo.
Il futuro dell’intelligenza artificiale, secondo Microsoft, non è più limitato all’elaborazione linguistica, ma si avvicina rapidamente a sistemi integrati capaci di operare nel mondo reale.
