
Nell’era attuale dell’intelligenza artificiale, assistiamo a una rivoluzione nell’ambito della generazione delle immagini. Strumenti come Stable Diffusion e DALL-E-3 stanno guadagnando sempre più popolarità, consentendo ai computer di creare arte attraverso modelli di diffusione. Questi modelli aggiungono struttura a uno stato iniziale rumoroso fino a ottenere immagini o video chiari e definiti. Tuttavia, dietro questa apparente semplicità si cela un processo complesso e dispendioso in termini di tempo, che richiede numerose iterazioni per ottenere risultati soddisfacenti.
Recentemente, i ricercatori del MIT Computer Science and Artificial Intelligence Laboratory (CSAIL) hanno presentato un nuovo approccio che rivoluziona questo processo, rendendolo molto più efficiente e veloce. Questo nuovo quadro, chiamato distillazione con corrispondenza della distribuzione (DMD), semplifica il processo a più fasi dei modelli di diffusione tradizionali in un singolo passaggio, affrontando le limitazioni precedenti.
Il principio chiave di DMD è quello di adottare una sorta di modello insegnante-studente. In pratica, si insegna a un nuovo modello computerizzato a imitare il comportamento di modelli più complessi, consentendo una generazione molto più rapida delle immagini mantenendo o addirittura migliorando la qualità visiva. Questo nuovo metodo è stato sviluppato per accelerare di ben 30 volte i tempi di generazione rispetto agli attuali modelli di diffusione, come Diffusione Stabile e DALLE-3.
Il cuore di questo approccio risiede nell’uso combinato di due perdite: una di regressione e una di corrispondenza della distribuzione. La perdita di regressione mappa l’organizzazione grossolana dello spazio delle immagini, rendendo la formazione più stabile, mentre la perdita di corrispondenza della distribuzione garantisce che la probabilità di generare un’immagine corrisponda alla sua frequenza di occorrenza nel mondo reale. Questo viene ottenuto attraverso l’utilizzo di due modelli di diffusione che fungono da guide, aiutando il sistema a distinguere tra immagini reali e generate.
Il risultato di questo approccio è sorprendente. DMD è in grado di produrre immagini di alta qualità in un solo passaggio, riducendo drasticamente il tempo necessario per la generazione rispetto ai modelli tradizionali. È in grado di competere con i modelli più complessi sul fronte della qualità visiva, rendendolo un’opzione molto promettente per una vasta gamma di applicazioni, dall’editing visivo in tempo reale alla modellazione 3D e alla scoperta di farmaci.
Il lavoro dei ricercatori del MIT CSAIL non solo ha il potenziale per trasformare radicalmente la generazione delle immagini, ma apre anche la strada a ulteriori sviluppi in questo campo. Con il continuo miglioramento dei modelli insegnanti utilizzati nel processo di distillazione, ci si può aspettare un ulteriore aumento delle prestazioni e della versatilità di questo metodo, aprendo la strada a nuove e entusiasmanti possibilità nell’ambito dell’intelligenza artificiale e della grafica computerizzata.

Con il loro metodo DMD, i ricercatori del MIT hanno creato un generatore di immagini AI in un unico passaggio che raggiunge una qualità dell’immagine paragonabile a StableDiffusion v1.5 pur essendo 30 volte più veloce.
Crediti:Illustrazione di Alex Shipps/MIT CSAIL che utilizza sei immagini generate dall’intelligenza artificiale sviluppate dai ricercatori.