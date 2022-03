(AGENPARL) – gio 17 marzo 2022 SCHEDA TECNICA PROGETTO

GENESI E STATO DELL’ARTE

Dal punto di vista tecnologico, il progetto “Innovare, informare, partecipare – nuove metodologie per la comunicazione delle persone con ipoacusia” ha come obiettivo la realizzazione di una piattaforma software dedicata al riconoscimento della lingua dei segni italiana (LIS) accessibile alla comunità non udente. Lo scopo è quello di ridurre le barriere comunicative nell’interazione con la comunità udente, a partire da contesti frequenti quali, in particolare, l’interazione con la Pubblica Amministrazione.

L’approccio scelto dal CRS4 per affrontare questa sfida è basato sull’utilizzo di modelli di deep learning caratterizzate da architetture di reti neurali artificiali complesse. Questa attività di ricerca è allo stato dell’arte in un settore che sta sperimentando un interesse sempre più forte, come documentabile da una crescita esponenziale negli ultimi anni della produzione scientifica.

COME FUNZIONA

Il primo step, nell’attività di ricerca in corso di svolgimento presso il CRS4, è la costruzione di un dataset di video molto completo – elaborato con il supporto di esperti LIS e di un team rappresentativo della comunità di persone sorde – che include segni corrispondenti a circa 120 vocaboli della lingua italiana, scelti tra quelli più ricorrenti nelle interlocuzioni dei sordi con la pubblica amministrazione.

Questi dati, opportunamente elaborati, costituiranno l’input per l’addestramento di una adeguata rete neurale artificiale, in grado, successivamente, di riconoscere segni prodotti davanti ad una webcam, traducendoli in forma testuale o vocale, favorendo così l’interlocuzione tra udenti e non udenti.

La strategia scelta per l’elaborazione dei dati di input prevede “l’estrazione” della figura del solo segnante dal video in cui produce il segno, rendendo ininfluente il contesto in cui si trova (background). Questo approccio è definito skeleton based, dove i dati da dare “in pasto alla rete” non sono più i pixel, frame by frame, del video bensì le coordinate di un numero limitato di punti, individuati sul corpo del segnante (27 nel nostro caso), capace di rappresentare adeguatamente il segno prodotto.

Il vantaggio di questo metodo è la possibilità di utilizzo di dataset di dimensioni più ridotte (fattore di riduzione circa 100 rispetto ai video RGB) e notevole abbattimento dello sforzo computazionale.

GLI SVILUPPI

Il primo sviluppo del progetto di ricerca è la velocizzazione e snellimento del processo di conversione segno – testo, affinché lo scambio di informazioni tra persona sorda e udente sia davvero in tempo reale e quindi efficace, nella riduzione della barriera comunicativa.

In secondo luogo, il processo punta alla massima accuratezza del riconoscimento. In base ai test già compiuti, quest’ultimo è già in grado di raggiungere l’87%.