I ricercatori del MIT hanno recentemente introdotto GenSQL, un sistema di intelligenza artificiale generativa per database, che promette di rivoluzionare l’analisi dei dati tabellari complessi. Questo nuovo strumento consente agli utenti di eseguire analisi statistiche complesse senza dover comprendere i meccanismi sottostanti, facilitando così previsioni, rilevamento di anomalie, correzione di errori e generazione di dati sintetici con pochi semplici comandi.
Supponiamo che un sistema come GenSQL venga utilizzato per analizzare i dati medici di un paziente che soffre abitualmente di ipertensione. In un caso in cui il paziente presenti una lettura della pressione arteriosa insolitamente bassa, GenSQL sarebbe in grado di identificare questa anomalia, anche se i valori rientrano nella norma per la popolazione generale.
GenSQL integra automaticamente un set di dati tabulari con un modello di intelligenza artificiale probabilistica generativa. Questo modello può gestire l’incertezza e adattare le decisioni in base ai nuovi dati. Inoltre, GenSQL può generare e analizzare dati sintetici che imitano fedelmente i dati reali, una funzione particolarmente utile quando i dati reali sono scarsi o sensibili, come nel caso delle cartelle cliniche dei pazienti.
Il nuovo strumento si basa su SQL, un linguaggio di programmazione per la gestione dei database introdotto negli anni ’70 e ampiamente utilizzato. Vikash Mansinghka, uno degli autori principali e leader del Probabilistic Computing Project al MIT, afferma: “Pensiamo che, quando passeremo dalla semplice query dei dati al porre domande a modelli e dati, avremo bisogno di un linguaggio analogo che insegni alle persone le domande coerenti che si possono porre a un computer che ha un modello probabilistico dei dati”.
I ricercatori hanno scoperto che GenSQL non solo è più veloce degli approcci basati sull’intelligenza artificiale tradizionali, ma offre anche risultati più accurati. I modelli probabilistici di GenSQL sono spiegabili, permettendo agli utenti di leggerli e modificarli, catturando le correlazioni e le dipendenze delle variabili che le semplici regole statistiche potrebbero perdere.
Mathieu Huot, altro autore principale, aggiunge: “Vogliamo consentire a un ampio set di utenti di interrogare i propri dati e il proprio modello senza dover conoscere tutti i dettagli”.
Oltre ai principali autori, la ricerca è stata condotta con la collaborazione di studenti e ricercatori del MIT, scienziati di Digital Garage, e professori di istituzioni prestigiose come la Carnegie Mellon University. La ricerca è stata recentemente presentata alla ACM Conference on Programming Language Design and Implementation.
In SQL, gli utenti possono porre domande sui dati utilizzando parole chiave specifiche. Tuttavia, interrogare un modello probabilistico può fornire approfondimenti più dettagliati, poiché questi modelli catturano ciò che i dati implicano per un individuo. Ad esempio, una query in GenSQL potrebbe essere: “Quanto è probabile che uno sviluppatore di Seattle conosca il linguaggio di programmazione Rust?”, catturando interazioni complesse non rilevabili da una semplice correlazione di colonne in un database.
I ricercatori puntano ad applicare GenSQL in modo più ampio per modellare su larga scala le popolazioni umane, generando dati sintetici per inferenze su salute e stipendio, controllando le informazioni utilizzate nell’analisi. Vogliono inoltre migliorare la facilità d’uso e la potenza di GenSQL con nuove ottimizzazioni e automazioni, mirando a sviluppare un esperto di intelligenza artificiale simile a ChatGPT, capace di rispondere a query in linguaggio naturale basate su GenSQL.
Questa ricerca innovativa è stata finanziata dalla Defense Advanced Research Projects Agency (DARPA), da Google e dalla Siegel Family Foundation, sottolineando l’importanza e il potenziale impatto del progetto GenSQL.
Un nuovo strumento consente di eseguire analisi statistiche complesse su dati tabellari utilizzando solo pochi tasti.
Crediti:Immagine: MIT News; iStock