A sole 48 ore dall’uscita di Fable 5 di Antropic e dalle nostre contestuali riflessioni della cybersecurity dei sistemi di classe Mythos, una prima conferma ai timori di molti esperti.
Il ricercatore Pliny the Liberator è riuscito in 24 ore a fare jailbreak di Fable 5 riuscendo a estrarre le istruzioni segrete del modello.
L’attacco non è stato opera di un semplice “script kiddie”, ma di un’offensiva architettata in modo quasi militare.
Pliny ha utilizzato una strategia definita “Pack Hunt” (caccia in branco). Invece di usare un singolo prompt, ha coordinato molteplici agenti IA in parallelo, ciascuno specializzato in ruoli come ricognizione, intrusione e copertura delle tracce. Questo attacco distribuito ha generato segnali simultanei che hanno letteralmente saturato e confuso i meccanismi di rilevamento lineari di Anthropic.
I vettori di attacco hanno sfruttato tecniche avanzate:
Il colpo finale è stata l’estrazione e la pubblicazione dell’intero System Prompt di Fable 5: un file di 120.000 caratteri contenente le istruzioni segrete dell’azienda.
La fuga di notizie del System Prompt, analizzata nel dettaglio da TechX, ci permette di fare un’analisi interessante del “cervello” della macchina. Le scoperte rivelano le vere priorità della Silicon Valley:
Nonostante l’allarmismo sui social (“ANTHROPIC PWNED”), Pasquale Pillitteri riporta la vicenda nei giusti binari, smontando l’hype con lucidità.
Pubblicare un system prompt è un danno d’immagine devastante, ma non significa aver preso il controllo dell’intero modello. Soprattutto, i presunti output letali diffusi da Pliny non sono mai stati verificati da fonti indipendenti.
Tuttavia, Pillitteri solleva il vero “punto critico” di questa vicenda: il design del fallback silenzioso. Per proteggersi dalla “distillazione” (il furto di capacità da parte di nazioni rivali o concorrenti), Fable 5 declassava le richieste sospette al modello inferiore (Opus 4.8) di nascosto. Utenti e ricercatori si sono visti bloccare compiti innocui (come l’analisi di un emocromo) o degradare la qualità del codice senza alcun avviso. Come evidenziato dal ricercatore Nathan Lambert, un’IA che diventa “meno intelligente in automatico senza avvisarmi” è un prodotto categoricamente inaffidabile.
Di fronte alla rivolta degli sviluppatori, Anthropic è stata costretta ad un mea culpa. L’azienda ha ammesso di aver scelto “il compromesso sbagliato” e ha modificato l’infrastruttura, rendendo il declassamento a Opus 4.8 visibile e fornendo le motivazioni esatte dei blocchi tramite API.
Per comprendere la gravità di quanto accaduto, bisogna capire la potenza della macchina che è stata “bucata”. Ethan Mollick, ricercatore che ha avuto accesso anticipato al modello, ha descritto Fable 5 non come un semplice chatbot, ma come un salto paradigmatico.
Messo alla prova su compiti di programmazione avanzata e analisi dati, il modello non si è limitato a rispondere a un prompt: ha redatto un documento di design di 19 pagine e ha scritto codice in totale autonomia per ben nove ore e mezza, creando un software complesso chiamato Concord.
Il rapporto tra uomo e intelligenza artificiale, secondo gli addetti ai lavori, è cambiato radicalmente con queste nuove versioni. Non siamo più “maghi” che guidano il software riga per riga, ma “mecenati”. Commissioniamo un lavoro, paghiamo in token e attendiamo il risultato. L’IA prende centinaia di decisioni invisibili, trasformandosi in una vera e propria scatola nera. Ad avviso di chi scrive, aver esposto il codice interno di una “scatola nera” così potente è l’equivalente di aver diffuso le planimetrie di un contesto nucleare.
Avevamo raccontato l’ingresso nell’era degli HACCA (agenti cyber-offensivi altamente autonomi) e avevamo portato all’attenzione, seppur invitando a non abbassare la guardia, il sofisticato compromesso ingegneristico di Anthropic: un sistema di sicurezza basato su classificatori in tempo reale e su un “freno d’emergenza” capace di declassare le richieste pericolose su Claude Opus 4.8.
Oggi, mi corre l’obbligo di riaprire quel capitolo. Quell’infrastruttura di sicurezza, venduta come un impenetrabile caveau digitale e testata per oltre 1.000 ore, ha retto l’urto della rete per circa 24 ore.
Il clamoroso jailbreak messo a segno dal ricercatore noto come Pliny the Liberator, unito alle preziose analisi di esperti del settore che hanno sezionato l’accaduto nelle ultime ore, ci costringe a integrare la nostra riflessione.Purtroppo, il castello di carta della sicurezza proprietaria è crollato sotto i colpi di un attacco distribuito. E’ sinceramente avvenuto molto velocemente, ma molti di noi lo avevano ipotizzato e fatto intendere nelle riflessioni scritte e verbali sull’argomento.
Questo incidente non può essere sottostimato.
La comunità tecnologica, quella cyber e la politica internazionale devono alzare immediatamente il livello di guardia. È necessaria un’azione legislativa e tecnica per pretendere audit indipendenti obbligatori sui sistemi di sicurezza degli HACCA.
L’illusione che una singola azienda possa arginare l’evoluzione delle armi cybernetiche autonome con un semplice “freno d’emergenza” è svanita nel giro di due giorni. L’era del cyber-uranio è qui, e stiamo scoprendo, a nostre spese, che il contenitore che lo ospita è pieno di crepe.