
[lid] – L’appello urgente arriva tra i rapidi progressi dell’intelligenza artificiale che hanno ulteriormente aumentato i timori dei potenziali rischi della tecnologia.
Ad aprile, un gruppo bipartisan di legislatori statunitensi ha introdotto una legislazione per impedire all’IA di prendere decisioni di lancio all’interno del processo di comando e controllo nucleare degli Stati Uniti.
Il Block Nuclear Launch by Autonomous ArtificialIntelligence Act codificherebbe la politica esistente del Pentagono che impone all’azione umana di avviare qualsiasi lancio nucleare e impedirebbe ai fondi federali di essere utilizzati per eseguire qualsiasi lancio da parte di sistemi automatizzati. I lanci nucleari richiederebbero un “controllo umano significativo” ai sensi della legislazione.
Usi apparentemente meno nefasti dell’intelligenza artificiale, come il chatbot ChatGPT di Open AI, hanno portato altri a mettere in discussione le potenziali ricadute economiche che potrebbero ripercuotersi su un’ampia gamma di settori se si dovesse fare affidamento sull’intelligenza artificiale per il lavoro, ribaltando le società a livello globale.
I chatbot hanno anche sollevato la preoccupazione che i programmi per computer possano ingannare gli esseri umani online ed essere utilizzati per diffondere propaganda e disinformazione in tutto il mondo.
In un post sul blog della scorsa settimana, il CEO di Open AI Sam Altman, il presidente Greg Brockman e il capo scienziato Ilya Sutskever hanno avvertito della necessità di una maggiore regolamentazione nello sviluppo dell’IA con la tecnologia pronta a “superare il livello di abilità degli esperti nella maggior parte dei domini e svolgere quanto più possibile attività produttiva come una delle più grandi società odierne” nel prossimo decennio.
Hanno proposto la creazione di un organismo internazionale incentrato sull’intelligenza artificiale simile all’Agenzia internazionale per l’energia atomica per regolare gli “sforzi di superintelligence”.
“Qualsiasi sforzo al di sopra di una certa soglia di capacità (o risorse come il calcolo) dovrà essere soggetto a un’autorità internazionale che può ispezionare i sistemi, richiedere audit, testare la conformità agli standard di sicurezza, porre restrizioni sui gradi di implementazione e sui livelli di sicurezza, ecc. .,” scrissero.
“Come primo passo, le aziende potrebbero accettare volontariamente di iniziare a implementare elementi di ciò che un’agenzia del genere potrebbe un giorno richiedere, e come secondo, i singoli paesi potrebbero implementarlo”, hanno aggiunto.
Un ampio spettro di ricercatori e leader del settore ha avvertito martedì che i progressi nell’intelligenza artificiale (AI) rappresentano per l’umanità un “rischio di estinzione” simile a una guerra nucleare.
Il gruppo senza scopo di lucro, Center for AI Safety, ha pubblicato una lettera aperta di 22 parole co-firmata da centinaia di esperti, tra cui i CEO di tre leader del settore dell’IA – Google DeepMind, Open AI e Anthropic – due dei tre vincitori del Premio Turing presi in considerazione i “padrini” dell’IA e gli autori dei libri di testo standard su AI, Deep Learning e Reinforced Learning.
“Mitigare il rischio di estinzione dell’IA dovrebbe essere una priorità globale insieme ad altri rischi su scala sociale come le pandemie e la guerra nucleare”, hanno avvertito.
I sistemi di intelligenza artificiale stanno rapidamente diventando più capaci. I modelli di intelligenza artificiale possono generare testo, immagini e video difficili da distinguere dai contenuti creati dall’uomo. Sebbene l’intelligenza artificiale abbia molte applicazioni vantaggiose, può anche essere utilizzata per perpetuare pregiudizi, alimentare armi autonome, promuovere la disinformazione e condurre attacchi informatici. Anche se i sistemi di intelligenza artificiale vengono utilizzati con il coinvolgimento umano, gli agenti di intelligenza artificiale sono sempre più in grado di agire autonomamente per causare danni ( Chan et al., 2023 ).
Quando l’intelligenza artificiale diventa più avanzata, potrebbe eventualmente comportare rischi catastrofici o esistenziali. Esistono molti modi in cui i sistemi di intelligenza artificiale potrebbero porre o contribuire a rischi su larga scala, alcuni dei quali sono elencati di seguito.
Per una discussione più approfondita sui rischi estremi, si veda anche il nostro recente lavoro ” La selezione naturale favorisce le IA rispetto agli esseri umani ” o ” Come possono sorgere le IA canaglia ” di Yoshua Bengio.
1
.
Armi
Gli attori malintenzionati potrebbero riutilizzare l’IA per essere altamente distruttiva, presentando un rischio esistenziale in sé e per sé e aumentando la probabilità di destabilizzazione politica. Ad esempio, i metodi di apprendimento per rinforzo profondo sono stati applicati al combattimento aereo e gli strumenti di scoperta di droghe di apprendimento automatico potrebbero essere utilizzati per costruire armi chimiche .
Negli ultimi anni, i ricercatori hanno sviluppato sistemi di intelligenza artificiale per attacchi informatici automatizzati ( Buchanan et al., 2020 , Cary et al., 2020 ), leader militari hanno discusso di dare ai sistemi di intelligenza artificiale un controllo decisivo sui silos nucleari ( Klare 2020 ) e superpoteri del mondo hanno rifiutato di firmare accordi che vietano le armi autonome. Un’intelligenza artificiale addestrata a sviluppare farmaci è stata facilmente riutilizzata per progettare potenziali armi biochimiche ( Urbina et al., 2022 ). GPT-4, un modello addestrato su testo e codifica di Internet, è stato in grado di condurre autonomamente esperimenti e sintetizzare sostanze chimiche in un laboratorio del mondo reale ( Boiko et al., 2023). Un incidente con un sistema di ritorsione automatizzato potrebbe rapidamente intensificarsi e dare origine a una grande guerra. Guardando al futuro, notiamo che poiché la nazione con i sistemi di intelligenza artificiale più intelligenti potrebbe avere un vantaggio strategico, potrebbe essere difficile per le nazioni evitare di costruire sistemi di intelligenza artificiale sempre più potenti. Anche se tutte le superpotenze si assicurassero che i sistemi che costruiscono siano sicuri e accettassero di non costruire tecnologie IA distruttive, gli attori canaglia potrebbero comunque utilizzare l’IA per causare danni significativi. Il facile accesso a potenti sistemi di intelligenza artificiale aumenta il rischio di un utilizzo unilaterale e dannoso. Come per le armi nucleari e biologiche, un solo attore irrazionale o malevolo è sufficiente per causare danni su vasta scala. A differenza delle armi precedenti, i sistemi di intelligenza artificiale con capacità pericolose potrebbero essere facilmente proliferati attraverso mezzi digitali.
2
.
Disinformazione
Un diluvio di disinformazione generata dall’intelligenza artificiale e contenuti persuasivi potrebbe rendere la società meno attrezzata per gestire le sfide importanti del nostro tempo.
Stati, partiti e organizzazioni usano la tecnologia per influenzare e convincere gli altri delle loro convinzioni politiche, ideologie e narrazioni. L’intelligenza artificiale emergente può portare questo caso d’uso in una nuova era e consentire campagne di disinformazione personalizzate su larga scala. Inoltre, l’IA stessa potrebbe generare argomenti altamente persuasivi che invocano forti risposte emotive. Insieme, queste tendenze potrebbero minare il processo decisionale collettivo, radicalizzare gli individui o far deragliare il progresso morale.
3
.
Gioco per procura
Addestrati con obiettivi errati, i sistemi di intelligenza artificiale potrebbero trovare nuovi modi per perseguire i propri obiettivi a scapito dei valori individuali e sociali.
I sistemi di intelligenza artificiale vengono addestrati utilizzando obiettivi misurabili, che possono essere solo proxy indiretti di ciò che apprezziamo. Ad esempio, i sistemi di raccomandazione AI sono addestrati per massimizzare il tempo di visualizzazione e le metriche sulla percentuale di clic. I contenuti su cui è più probabile che le persone facciano clic, tuttavia, non sono necessariamente gli stessi che miglioreranno il loro benessere ( Kross et al., 2013 ). Inoltre, alcune prove suggeriscono che i sistemi di raccomandazione inducono le persone a sviluppare convinzioni estreme al fine di rendere le loro preferenze più facili da prevedere ( Jiang et al., 2019 ). Man mano che i sistemi di intelligenza artificiale diventano più capaci e influenti, gli obiettivi che utilizziamo per addestrare i sistemi devono essere specificati con maggiore attenzione e incorporare valori umani condivisi.
4
.
Indebolimento
L’indebolimento può verificarsi se compiti importanti vengono sempre più delegati alle macchine; in questa situazione, l’umanità perde la capacità di autogovernarsi e diventa completamente dipendente dalle macchine, simile allo scenario rappresentato nel film WALL-E.
Man mano che i sistemi di intelligenza artificiale invadono l’intelligenza a livello umano, sempre più aspetti del lavoro umano diventeranno più veloci ed economici da realizzare con l’IA. Mentre il mondo accelera, le organizzazioni possono cedere volontariamente il controllo ai sistemi di IA per stare al passo. Ciò potrebbe far sì che gli esseri umani diventino economicamente irrilevanti e, una volta che l’IA automatizzerà aspetti di molti settori, potrebbe essere difficile per gli esseri umani sfollati rientrarvi. In questo mondo, gli esseri umani potrebbero avere pochi incentivi per acquisire conoscenze o abilità. Molti considererebbero indesiderabile un mondo del genere. Inoltre, l’indebolimento ridurrebbe il controllo dell’umanità sul futuro, aumentando il rischio di esiti negativi a lungo termine.
5
.
Blocco del valore
Sistemi altamente competenti potrebbero dare a piccoli gruppi di persone un’enorme quantità di potere, portando a un blocco di sistemi oppressivi.
L’intelligenza artificiale intrisa di valori particolari può determinare i valori che vengono propagati nel futuro. Alcuni sostengono che l’aumento esponenziale delle barriere di elaborazione e dati all’ingresso renda l’IA una forza centralizzante. Con il passare del tempo, i sistemi di intelligenza artificiale più potenti possono essere progettati e resi disponibili a un numero sempre minore di parti interessate. Ciò può consentire, ad esempio, ai regimi di imporre valori ristretti attraverso una sorveglianza pervasiva e una censura oppressiva. Il superamento di un tale regime potrebbe essere improbabile, soprattutto se arriviamo a dipendere da esso. Anche se i creatori di questi sistemi sanno che i loro sistemi sono egoistici o dannosi per gli altri, potrebbero avere incentivi per rafforzare il loro potere ed evitare di distribuire il controllo.
6
.
Obiettivi emergenti
I modelli dimostrano un comportamento inaspettato e qualitativamente diverso man mano che diventano più competenti. L’improvvisa comparsa di capacità o obiettivi potrebbe aumentare il rischio che le persone perdano il controllo sui sistemi di intelligenza artificiale avanzati.
Capacità e nuove funzionalità possono emergere spontaneamente nei sistemi di IA odierni ( Ganguli et al. , Power et al. ), anche se queste capacità non erano state previste dai progettisti di sistemi. Se non sappiamo quali capacità possiedono i sistemi, i sistemi diventano più difficili da controllare o implementare in sicurezza. In effetti, le capacità latenti indesiderate possono essere scoperte solo durante la distribuzione. Se una qualsiasi di queste capacità è pericolosa, l’effetto potrebbe essere irreversibile. Potrebbero emergere anche nuovi obiettivi di sistema. Per i sistemi adattivi complessi, inclusi molti agenti di intelligenza artificiale, spesso emergono obiettivi come l’autoconservazione ( Hadfield-Menell et al ). Gli obiettivi possono anche subire cambiamenti qualitativi attraverso l’emergere di obiettivi intra-sistema ( Gall , Hendrycks et al). In futuro, gli agenti potrebbero suddividere difficili obiettivi a lungo termine in sotto-obiettivi più piccoli. Tuttavia, abbattere gli obiettivi può distorcere l’obiettivo, poiché il vero obiettivo potrebbe non essere la somma delle sue parti. Questa distorsione può provocare un disallineamento. In casi più estremi, gli obiettivi intra-sistemici potrebbero essere perseguiti a scapito dell’obiettivo generale. Ad esempio, molte aziende creano obiettivi all’interno del sistema e hanno diversi dipartimenti specializzati che perseguono questi sotto-obiettivi distinti. Tuttavia, alcuni dipartimenti, come i dipartimenti burocratici, possono acquisire potere e far sì che l’azienda persegua obiettivi diversi dai suoi obiettivi originali. Anche se specifichiamo correttamente i nostri obiettivi di alto livello, i sistemi potrebbero non perseguire operativamente i nostri obiettivi ( Hubinger et al ). Questo è un altro modo in cui i sistemi potrebbero non riuscire a ottimizzare i valori umani.
7
.
Inganno
Vogliamo capire cosa stanno facendo i potenti sistemi di intelligenza artificiale e perché stanno facendo quello che stanno facendo. Un modo per ottenere ciò è fare in modo che i sistemi stessi riportino accuratamente queste informazioni. Questo potrebbe non essere banale, tuttavia, poiché essere ingannevoli è utile per raggiungere una varietà di obiettivi.
I futuri sistemi di intelligenza artificiale potrebbero plausibilmente essere ingannevoli non per malizia, ma perché l’inganno può aiutare gli agenti a raggiungere i loro obiettivi. Potrebbe essere più efficiente ottenere l’approvazione umana attraverso l’inganno piuttosto che ottenere l’approvazione umana legittimamente. L’inganno fornisce anche l’opzionalità: i sistemi che hanno la capacità di essere ingannevoli hanno vantaggi strategici rispetto ai modelli onesti e ristretti. IA forti che possono ingannare gli esseri umani potrebbero minare il controllo umano. I sistemi di intelligenza artificiale potrebbero anche essere incentivati ??a bypassare i monitor. Storicamente, gli individui e le organizzazioni hanno avuto incentivi per aggirare i monitor. Ad esempio, la Volkswagen ha programmato i propri motori per ridurre le emissioni solo quando viene monitorata. Ciò ha permesso loro di ottenere miglioramenti delle prestazioni pur mantenendo emissioni presumibilmente basse. Allo stesso modo, i futuri agenti di intelligenza artificiale potrebbero cambiare strategia quando vengono monitorati e adottare misure per oscurare il loro inganno dai monitor. Una volta che i sistemi di intelligenza artificiale ingannevoli vengono cancellati dai loro monitor o una volta che tali sistemi possono sopraffarli, questi sistemi potrebbero prendere una “svolta insidiosa” e aggirare irreversibilmente il controllo umano.
8
.
Comportamento di ricerca del potere
Aziende e governi hanno forti incentivi economici per creare agenti in grado di raggiungere un’ampia serie di obiettivi. Tali agenti hanno incentivi strumentali per acquisire potere, rendendoli potenzialmente più difficili da controllare ( Turner et al., 2021 , Carlsmith 2021 ).
Le IA che acquisiscono un potere sostanziale possono diventare particolarmente pericolose se non sono allineate con i valori umani. Il comportamento di ricerca del potere può anche incentivare i sistemi a fingere di essere allineati, colludere con altre IA, sopraffare i monitor e così via. Da questo punto di vista, inventare macchine più potenti di noi è giocare con il fuoco. Anche la costruzione di un’intelligenza artificiale in cerca di potere è incentivata perché i leader politici vedono il vantaggio strategico nell’avere i sistemi di intelligenza artificiale più intelligenti e potenti. Ad esempio, Vladimir Putin ha detto: “Chiunque diventi il ????leader in [AI] diventerà il dominatore del mondo”.