Anthropic ha rimesso online Fable 5 il primo luglio, dopo avere rassicurato il Governo Trump sulla sicurezza del modello. Ma non può essere finita qui: la sfida per conciliare innovazione e sicurezza dei modelli AI più avanzati è solo cominciata.
Ricordiamo che il blocco Fable 5 (classe Mythos) era nato da timori di sicurezza nazionale legati alla possibilità che il modello aiutasse (con jailbreak) a individuare vulnerabilità software e, in alcuni casi, a mostrare come sfruttarle, in particolare ad attori stranieri.
Anthropic aveva minimizzato il rischio jailbreak all’epoca, ma in ogni caso la riattivazione non segna però un ritorno allo status quo: Fable 5 rientra sul mercato con filtri più aggressivi, un rapporto più stretto con il governo Usa e un precedente politico che pesa già sui prossimi rilasci dei modelli di frontiera.
Il punto chiave è che Anthropic non ha risposto al caso Fable 5 con un semplice blocco di contenuti, ma con un sistema di instradamento delle richieste.
Già al lancio del 9 giugno l’azienda aveva previsto che le query considerate sensibili, soprattutto in ambito cyber, non venissero servite da Fable 5 ma da Opus 4.8, un modello meno potente. Anthropic scrive che questa protezione scatta in media in meno del 5% delle sessioni, ma ammette che il settaggio è deliberatamente conservativo e produce falsi positivi, cioè blocchi anche su richieste legittime.
Dopo il braccio di ferro con Washington, Anthropic ha aggiunto un nuovo classificatore di sicurezza addestrato in modo specifico sulla tecnica di bypass finita sotto esame. Secondo l’azienda, il nuovo classificatore blocca quella tecnica in oltre il 99% dei casi. Quando una richiesta viene fermata, l’utente riceve una notifica e la query viene inoltrata a Opus 4.8.
Anthropic sostiene inoltre che i ricercatori del Center for AI Standards and Innovation del Dipartimento del Commercio hanno testato sia le vecchie sia le nuove difese, giudicandole “straordinariamente forti”. Il rovescio della medaglia, riconosciuto dalla stessa società, è un aumento dei falsi positivi nelle attività ordinarie di coding e debugging.
La logica tecnica è quella della “defense in depth”. Anthropic combina addestramento del modello a rifiutare richieste pericolose, analisi retrospettiva dei pattern d’uso e classificatori in tempo reale che provano a distinguere fra richieste benigne, richieste ambigue e richieste chiaramente dannose.
La novità di Fable 5, rispetto ai lanci precedenti, è l’allargamento del cosiddetto safety margin: vengono bloccate anche richieste probabilmente innocue ma abbastanza vicine a usi offensivi da meritare cautela. È una scelta che ha un costo commerciale e d’usabilità, ma che riflette un passaggio preciso: quando la capacità del modello cresce, cresce anche la porzione di lavoro “difensivo” che somiglia, dal punto di vista tecnico, a un abuso offensivo.
Il caso Fable 5 mostra un problema ormai strutturale per la sicurezza dei frontier model. Trovare una vulnerabilità, valutarne l’impatto, proporre una patch o mostrare una proof of concept sono attività essenziali per chi fa difesa. Ma gli stessi passaggi possono ridurre il tempo e il costo necessari a un attaccante. Anthropic insiste su un punto: nella vicenda che ha portato al blocco, il comportamento osservato non avrebbe esposto capacità “Mythos-level” uniche, e in vari test interni gli stessi difetti risultavano individuabili anche da modelli meno potenti, inclusi Opus 4.8, GPT-5.5 e Kimi K2.7. Questo argomento prova a spostare il dibattito dalla singola falla al criterio politico con cui si decide quando un modello supera la soglia di rischio.
Qui si apre una faglia destinata a restare. Per una parte del settore, il blocco di Fable 5 ha introdotto un precedente pericoloso: un modello di frontiera sarebbe “sicuro” solo quando il governo lo ritiene tale.
Per un’altra parte, il problema è opposto: senza test esterni e senza una procedura chiara prima del rilascio, i modelli più avanzati rischiano di arrivare sul mercato prima che le istituzioni capiscano davvero che cosa sanno fare. Il punto non è più se servano controlli, ma chi li definisce, con quali metriche e con quale trasparenza.
Anthropic ha colto il caso Fable 5 per proporre un framework comune di settore sulla gravità dei jailbreak, sviluppato con Amazon, Microsoft, Google e altri partner del programma Glasswing. La proposta valuta quattro elementi: il guadagno di capacità ottenuto dal bypass rispetto agli strumenti già disponibili, l’ampiezza delle capacità offensive sbloccate, la facilità con cui il bypass può essere trasformato in un attacco reale e la sua reperibilità. È un tentativo di trasformare un tema oggi trattato in modo spesso ad hoc in un linguaggio condiviso fra vendor, ricercatori e governo.
Anthropic ha annunciato anche impegni più ampi con il governo statunitense: accesso anticipato per valutazioni pre-release sui modelli che fanno avanzare in modo materiale la frontiera, condivisione rapida di informazioni su jailbreak e pattern di abuso, partecipazione al clearinghouse interagenzia sulle vulnerabilità cyber previsto dall’ordine esecutivo del 2 giugno, e contributo a uno standard volontario comune per tutto il settore. In altri termini, il ritorno online di Fable 5 è stato pagato con più collaborazione istituzionale e con una maggiore disponibilità a sottoporre i modelli a scrutiny pubblico prima del rilascio esteso.
L’ordine esecutivo firmato dalla Casa Bianca il 2 giugno chiede entro 60 giorni un processo classificato di benchmark per valutare le capacità cyber avanzate dei modelli e stabilire quando un sistema debba essere considerato “covered frontier model”. Lo stesso provvedimento prevede un framework volontario attraverso cui gli sviluppatori possano interagire con il governo per capire se i modelli in sviluppo rientrino in quella categoria. Sul piano formale non è un’autorizzazione preventiva obbligatoria; sul piano sostanziale, però, il caso Anthropic mostra che l’intervento governativo può già sospendere o ritardare la distribuzione.
Il segnale è arrivato subito anche agli altri laboratori. OpenAI, nel system card di GPT-5.6 pubblicato il 26 giugno, ha scritto di aver mostrato in anticipo al governo statunitense i piani di rilascio e le capacità del modello e di aver avviato una preview limitata a un piccolo gruppo di partner fidati “su richiesta” del governo, con disponibilità generale rinviata alle settimane successive. È la conferma che il caso Fable 5 non è un incidente isolato: sta prendendo forma un meccanismo di consultazione pre-release che, pur senza una legge organica, produce già effetti operativi sui tempi e sulle modalità di accesso ai modelli più avanzati.
Per chi lavora in sicurezza informatica, il ritorno di Fable 5 conta per due ragioni. La prima è immediata: il modello torna disponibile, ma con un perimetro d’uso più stretto e con un rischio maggiore di blocchi su attività legittime, soprattutto nelle richieste che assomigliano a vulnerability research, exploit analysis e secure coding avanzato. La seconda è più profonda: l’accesso alle capacità più forti non dipenderà solo dal piano tariffario o dalla strategia commerciale del provider, ma sempre più dal tipo di valutazione che laboratori e governi faranno insieme su rischi, guardrail e scenari d’abuso.
Sul piano industriale, questo spinge verso un mercato a più corsie. Da una parte modelli generalisti pubblici, con filtri più severi e routing verso versioni meno potenti. Dall’altra programmi trusted access per soggetti selezionati, come partner governativi, operatori di infrastrutture critiche e difensori cyber qualificati, che possono usare versioni meno limitate degli stessi sistemi. Anthropic lo ha già formalizzato con Mythos 5 e con l’espansione promessa del programma Glasswing.
Nel breve periodo ci sono tre snodi da seguire. Il primo riguarda la qualità delle nuove difese: Anthropic dovrà dimostrare che il classificatore aggiunto contro il bypass contestato riduce davvero il rischio senza trasformare Fable 5 in uno strumento troppo rumoroso per gli sviluppatori e i team security.
Il secondo riguarda il framework sui jailbreak: se diventerà uno standard credibile e condiviso, il settore avrà finalmente una metrica comune per distinguere un bypass marginale da un problema che giustifica interventi immediati.
Il terzo riguarda Washington: entro l’estate dovrebbero prendere forma i benchmark governativi e il processo di confronto sui “covered frontier model”, cioè il punto in cui la supervisione federale smette di essere episodica e diventa infrastruttura stabile del mercato.
Il ritorno di Fable 5 chiude uno scontro tattico ma apre una fase nuova. La questione non è più soltanto quanto un modello sia potente, ma chi decide quando quella potenza può essere distribuita, in quali condizioni e a quali utenti. Per la cybersecurity, che da anni chiede strumenti migliori per trovare e correggere vulnerabilità, è un passaggio delicato: la stessa capacità che aiuta i difensori sta diventando il criterio con cui il governo ridisegna l’accesso ai modelli di frontiera.