
[lid] – L’intelligenza artificiale aiuta i robot domestici a dimezzare i tempi di pianificazione
PIGINet sfrutta l’apprendimento automatico per semplificare e migliorare la pianificazione delle attività e del movimento dei robot domestici, valutando e filtrando soluzioni fattibili in ambienti complessi.
Il tuo nuovissimo robot domestico viene consegnato a casa tua e tu gli chiedi di prepararti una tazza di caffè. Sebbene conosca alcune abilità di base della pratica precedente nelle cucine simulate, ci sono troppe azioni che potrebbe intraprendere: aprire il rubinetto, tirare lo sciacquone, svuotare il contenitore della farina e così via. Ma c’è un piccolo numero di azioni che potrebbero essere utili. In che modo il robot può capire quali passaggi sono sensati in una nuova situazione?
Potrebbe utilizzare PIGINet, un nuovo sistema che mira a migliorare in modo efficiente le capacità di risoluzione dei problemi dei robot domestici. I ricercatori del Computer Science and Artificial Intelligence Laboratory (CSAIL) del MIT stanno utilizzando l’apprendimento automatico per ridurre il tipico processo iterativo di pianificazione delle attività che considera tutte le azioni possibili. PIGINet elimina i piani di attività che non sono in grado di soddisfare i requisiti senza collisioni e riduce i tempi di pianificazione del 50-80% se addestrato solo su 300-500 problemi.
In genere, i robot tentano vari piani di attività e perfezionano iterativamente le loro mosse fino a trovare una soluzione fattibile, che può essere inefficiente e dispendiosa in termini di tempo, soprattutto in presenza di ostacoli mobili e articolati. Magari dopo aver cucinato, ad esempio, vuoi mettere tutte le salse nella credenza. Questo problema potrebbe richiedere da due a otto passaggi a seconda di come appare il mondo in quel momento. Il robot deve aprire più ante dell’armadio o ci sono ostacoli all’interno dell’armadio che devono essere riposizionati per fare spazio? Non vuoi che il tuo robot sia fastidiosamente lento – e sarà peggio se brucia la cena mentre sta pensando.
Di solito si pensa che i robot domestici seguano ricette predefinite per l’esecuzione di compiti, che non sempre sono adatti ad ambienti diversi o mutevoli. Quindi, come fa PIGINet a evitare quelle regole predefinite? PIGINet è una rete neurale che raccoglie “piani, immagini, obiettivi e fatti iniziali”, quindi prevede la probabilità che un piano di attività possa essere perfezionato per trovare piani di movimento fattibili. In termini semplici, utilizza un codificatore a trasformatore, un modello versatile e all’avanguardia progettato per operare su sequenze di dati. La sequenza di input, in questo caso, è costituita da informazioni su quale piano di attività sta prendendo in considerazione, immagini dell’ambiente e codifiche simboliche dello stato iniziale e dell’obiettivo desiderato. Il codificatore combina i piani delle attività, l’immagine e il testo per generare una previsione relativa alla fattibilità del piano delle attività selezionato.
Mantenendo le cose in cucina, il team ha creato centinaia di ambienti simulati, ciascuno con layout diversi e compiti specifici che richiedono la riorganizzazione degli oggetti tra banconi, frigoriferi, armadietti, lavelli e pentole. Misurando il tempo impiegato per risolvere i problemi, hanno confrontato PIGINet con gli approcci precedenti. Un piano di attività corretto può includere l’apertura della porta sinistra del frigorifero, la rimozione del coperchio di una pentola, lo spostamento del cavolo dalla pentola al frigorifero, lo spostamento di una patata nel frigorifero, il prelievo della bottiglia dal lavandino, il posizionamento della bottiglia nel lavandino, la raccolta del pomodoro, o mettendo il pomodoro. PIGINet ha ridotto significativamente i tempi di pianificazione dell’80% in scenari più semplici e del 20-50% in scenari più complessi con sequenze di pianificazione più lunghe e meno dati di addestramento.
“Sistemi come PIGINet, che utilizzano la potenza dei metodi basati sui dati per gestire in modo efficiente casi familiari, ma possono ancora ricorrere a metodi di pianificazione basati sui principi primi per verificare i suggerimenti basati sull’apprendimento e risolvere nuovi problemi, offrono il meglio di entrambi mondi, fornendo soluzioni generiche affidabili ed efficienti a un’ampia varietà di problemi “, afferma Leslie Pack Kaelbling, Professore del MIT e Principal Investigator CSAIL.
L’uso di PIGINet di incorporamenti multimodali nella sequenza di input ha consentito una migliore rappresentazione e comprensione di complesse relazioni geometriche. L’utilizzo dei dati delle immagini ha aiutato il modello a cogliere le disposizioni spaziali e le configurazioni degli oggetti senza conoscere le mesh 3D degli oggetti per un controllo preciso delle collisioni, consentendo un rapido processo decisionale in ambienti diversi.
Una delle principali sfide affrontate durante lo sviluppo di PIGINet è stata la scarsità di buoni dati di formazione, poiché tutti i piani fattibili e non fattibili devono essere generati dai pianificatori tradizionali, che sono lenti in primo luogo. Tuttavia, utilizzando modelli di linguaggio visivo pre-addestrati e trucchi per l’aumento dei dati, il team è stato in grado di affrontare questa sfida, mostrando un’impressionante riduzione del tempo di pianificazione non solo sui problemi con oggetti visti, ma anche una generalizzazione zero shot a oggetti mai visti prima.
“Poiché la casa di ognuno è diversa, i robot dovrebbero essere adattabili risolutori di problemi invece che semplici seguaci di ricette. La nostra idea chiave è consentire a un pianificatore di attività generiche di generare piani di attività candidati e utilizzare un modello di deep learning per selezionare quelli promettenti. Il risultato è un robot domestico più efficiente, adattabile e pratico, in grado di navigare agilmente anche in ambienti complessi e dinamici. Inoltre, le applicazioni pratiche di PIGINet non sono limitate alle famiglie”, afferma Zhutian Yang, studente di dottorato del MIT CSAIL e autore principale del lavoro. “Il nostro obiettivo futuro è perfezionare ulteriormente PIGINet per suggerire piani di attività alternativi dopo aver identificato azioni non fattibili, che accelereranno ulteriormente la generazione di piani di attività fattibili senza la necessità di grandi set di dati per addestrare da zero un pianificatore generico.
“Questo documento affronta la sfida fondamentale nell’implementazione di un robot generico: come imparare dall’esperienza passata per accelerare il processo decisionale in ambienti non strutturati pieni di un gran numero di ostacoli articolati e mobili”, afferma Beomjoon Kim PhD ’20 , assistente professore presso la Graduate School of AI presso il Korea Advanced Institute of Science and Technology (KAIST). “Il collo di bottiglia principale in tali problemi è come determinare un piano di attività di alto livello in modo tale che esista un piano di movimento di basso livello che realizzi il piano di alto livello. In genere, devi oscillare tra il movimento e la pianificazione delle attività, il che causa una significativa inefficienza computazionale. Il lavoro di Zhutian affronta questo problema utilizzando l’apprendimento per eliminare piani di attività irrealizzabili ed è un passo in una direzione promettente.
Yang ha scritto il documento con il ricercatore NVIDIA Caelan Garrett SB ’15, MEng ’15, PhD ’21; Tomás Lozano-Pérez e Leslie Kaelbling, professori del Dipartimento di Ingegneria Elettrica e Informatica del MIT e membri del CSAIL; e Senior Director of Robotics Research presso NVIDIA e il professor Dieter Fox dell’Università di Washington. Il team è stato supportato da AI Singapore e sovvenzioni dalla National Science Foundation, dall’Air Force Office of Scientific Research e dall’Army Research Office. Questo progetto è stato parzialmente condotto mentre Yang era uno stagista presso NVIDIA Research. La loro ricerca sarà presentata a luglio alla conferenza Robotics: Science and Systems.