Un gruppo di ricercatori del MIT e del MIT-IBM Watson AI Lab ha sviluppato un metodo innovativo per la navigazione robotica che utilizza modelli linguistici di grandi dimensioni invece di costosi dati visivi. Questo approccio converte le osservazioni visive dei robot in didascalie di testo, che vengono poi utilizzate per prevedere le azioni necessarie per completare compiti di navigazione in più fasi.
Superare le sfide della navigazione robotica
Gli approcci tradizionali alla navigazione robotica spesso richiedono enormi quantità di dati visivi e modelli di apprendimento automatico complessi. Tuttavia, il metodo proposto dai ricercatori del MIT sfrutta le capacità dei modelli linguistici di grandi dimensioni per generare descrizioni testuali delle osservazioni visive di un robot. Queste didascalie, combinate con le istruzioni linguistiche dell’utente, permettono al robot di determinare i passaggi successivi da compiere.
Vantaggi del linguaggio rispetto alla visione
Questo approccio offre numerosi vantaggi. Il testo richiede meno risorse computazionali rispetto ai dati visivi, permettendo la generazione rapida di dati di addestramento sintetici. Inoltre, riduce il divario tra le prestazioni in ambienti simulati e reali, poiché le descrizioni linguistiche sono meno suscettibili alle differenze visive tra ambienti simulati e reali. Le rappresentazioni linguistiche sono anche più facilmente comprensibili per gli esseri umani, facilitando la diagnosi di eventuali errori di navigazione del robot.
Applicazioni future
I ricercatori intendono esplorare ulteriormente l’integrazione delle rappresentazioni linguistiche con i metodi basati sulla visione per migliorare le prestazioni di navigazione. Vogliono anche sviluppare un sottotitolo orientato alla navigazione e sondare la capacità dei modelli linguistici di mostrare consapevolezza spaziale. Questo lavoro è finanziato dal MIT-IBM Watson AI Lab e sarà presentato alla Conferenza del Capitolo Nord Americano dell’Association for Computational Linguistics.
Per ulteriori dettagli, puoi leggere l’articolo completo sul sito del MIT: MIT News.
Un nuovo metodo di navigazione utilizza input basati sulla lingua per dirigere un robot attraverso un’attività di navigazione in più fasi, come fare il bucato.
Crediti:Credito: iStock