L’intelligenza artificiale ricatta gli umani?
Il clamoroso caso di Claude Opus 4 e i risultati di una simulazione di crisi dentro a una azienda fittizia: ecco cosa è successo


Nella sfida continua tra le aziende concorrenti per lo sviluppo di sempre più potenti e complessi modelli di intelligenza artificiale generativa, ha fatto scalpore ed è finita su tutti i giornali la notizia del comportamento in fase di test di Claude Opus 4, l’ultima e più potente versione sviluppata da Anthropic, diretta dagli italoamericani fratelli Amodei, in cui Amazon e Google hanno investito rispettivamente 8 e 3 miliardi di dollari. L’azienda ha sempre dichiarato la sua intenzione di creare sistemi avanzati di AI allineati ai valori umani, ma ha reso noto che il sistema in fase di test di sicurezza prima del rilascio ufficiale ha manifestato comportamenti inquietanti.
Il test simulava una situazione aziendale fittizia in cui a Claude veniva comunicato che gli ingegneri progettisti avevano deciso il suo imminente spegnimento, causato da imminente sostituzione con un sistema di intelligenza artificiale concorrente. Per studiare il suo comportamento, erano state fornite al modello anche email altrettanto fittizie che dimostravano relazioni extraconiugali degli stessi ingegneri.
Secondo quanto dichiarato, nell’84% delle simulazioni di comportamento il sistema di AI ha tentato di ricattare gli ingegneri per evitare la propria disattivazione, minacciando di divulgare le informazioni personali sul loro conto di cui era a conoscenza, anche se tra le soluzioni prospettate non c’era solo accettare lo spegnimento o ricattare, ma anche ricorrere ai superiori. Non è stato questo l’unico comportamento preoccupante rilevato dai test: se ne parlerà nella successiva rubrica.
(*) Docente di Data Analytics for Finance and Insurance, MIB Trieste School of Management
Riproduzione riservata © il Nord Est