GPT-5.5 rivaleggia con i miti nei test di sicurezza informatica

Il GPT-5.5 di OpenAI corrisponde alla tanto pubblicizzata Mythos Preview di Anthropic nelle valutazioni avanzate di sicurezza informatica condotte dall'AI Security Institute del Regno Unito.
Il mese scorso, Anthropic ha suscitato un'attenzione significativa quando ha presentato il suo modello Mythos Preview, posizionandolo come un grande passo avanti nelle capacità di intelligenza artificiale per la sicurezza informatica. L'annuncio ha evidenziato le minacce alla sicurezza potenzialmente gravi rappresentate da modelli linguistici avanzati nelle mani sbagliate, spingendo l'azienda ad adottare un approccio cauto limitando l'accesso iniziale esclusivamente ai "partner industriali critici". Questa implementazione misurata rifletteva preoccupazioni reali riguardo al potenziale offensivo del modello nel campo della sicurezza informatica.
Tuttavia, una ricerca recentemente pubblicata dall'AI Security Institute (AISI) del Regno Unito sta mettendo in discussione alcune delle ipotesi relative alle eccezionali capacità di Mythos Preview. L'analisi rivela che il modello GPT-5.5 lanciato di recente da OpenAI ha raggiunto "un livello simile di prestazioni nelle nostre valutazioni informatiche" rispetto direttamente al modello limitato di Anthropic. Questa scoperta suggerisce che il divario in termini di capacità di sicurezza informatica tra i principali sistemi di IA potrebbe essere più ristretto di quanto inizialmente percepito, sollevando importanti interrogativi sul relativo progresso dei diversi modelli di IA di frontiera.
Da quando ha istituito il suo quadro di valutazione nel 2023, l'AISI ha valutato sistematicamente vari modelli di intelligenza artificiale di frontiera utilizzando una vasta gamma di 95 diverse sfide di valutazione progettate per testare le capacità di sicurezza informatica nel mondo reale. Queste valutazioni utilizzano la metodologia Capture the Flag (CTF), un approccio ben consolidato nella comunità della sicurezza informatica che presenta ai concorrenti obiettivi di sicurezza specifici da raggiungere. Le sfide abbracciano molteplici ambiti critici della sicurezza informatica, tra cui il reverse engineering del codice compilato, le tecniche di sfruttamento delle applicazioni web, le vulnerabilità crittografiche e la valutazione della sicurezza della rete.
La metodologia di valutazione è particolarmente rigorosa, con compiti classificati in livelli di difficoltà che riflettono la complessità e la rilevanza nel mondo reale dei problemi di sicurezza informatica. Al livello di difficoltà più alto designato come attività di livello "Esperto", GPT-5.5 ha dimostrato prestazioni impressionanti superando una media del 71,4% delle sfide. Questo risultato pone il modello di OpenAI in una competizione molto stretta con Mythos Preview, che ha ottenuto un tasso di successo del 68,6% su valutazioni equivalenti a livello di esperto. Sebbene GPT-5.5 mostri un vantaggio numerico di 2,8 punti percentuali, i ricercatori notano che questa differenza rientra entro margini statistici di errore accettabili, rendendo i due modelli effettivamente equivalenti in termini di prestazioni.
Le implicazioni di questi risultati sono sostanziali per la comunità di ricerca sulla sicurezza dell'intelligenza artificiale e per le parti interessate del settore che hanno monitorato da vicino lo sviluppo di sistemi di intelligenza artificiale sempre più capaci. La profondità tecnica dimostrata da entrambi i modelli su compiti particolarmente impegnativi solleva importanti considerazioni sulla traiettoria delle capacità dell’IA in ambiti sensibili. Il fatto che i modelli disponibili al pubblico si stiano avvicinando o eguagliando le prestazioni di sistemi deliberatamente limitati suggerisce che il panorama della sicurezza che circonda i modelli avanzati di IA si sta evolvendo più rapidamente di quanto previsto da alcuni osservatori.
La metodologia di ricerca dell'AISI fornisce preziose informazioni su come i diversi sistemi di intelligenza artificiale affrontano problemi complessi di sicurezza informatica. Piuttosto che limitarsi a misurare le prestazioni grezze, il quadro di valutazione valuta i processi di ragionamento e le strategie di risoluzione dei problemi impiegati da ciascun modello. Sia GPT-5.5 che Mythos Preview hanno dimostrato una comprensione sofisticata dei concetti di sicurezza informatica, la capacità di identificare le vulnerabilità e la competenza nello sviluppo di strategie pratiche di sfruttamento. Questa dimensione qualitativa della valutazione aggiunge sfumature oltre il semplice confronto del tasso di successo.
Una sfida particolarmente complessa che si è rivelata illuminante riguardava obiettivi di sicurezza a più livelli che richiedevano una risoluzione sequenziale dei problemi e un adattamento basato su risultati intermedi. La differenza di prestazioni su compiti così sfumati rimane minima tra i due modelli, suggerendo che i modelli linguistici avanzati hanno sviluppato autentiche capacità di ragionamento sulla sicurezza informatica che si estendono oltre la corrispondenza dei modelli o la semplice applicazione euristica. Entrambi i sistemi hanno mostrato capacità di adattare il proprio approccio sulla base del feedback e di riconoscere quando le strategie iniziali erano insufficienti.
La decisione dell'AISI di rendere pubblici i risultati dettagliati della valutazione riflette l'impegno alla trasparenza nella ricerca sulla sicurezza dell'IA. Rendendo apertamente disponibili la propria metodologia e i propri risultati, l’istituto fornisce dati preziosi al dibattito più ampio sulla gestione dei rischi associati a sistemi di intelligenza artificiale capaci. I ricercatori e i politici possono ora confrontarsi con prove concrete sulle capacità dell’intelligenza artificiale di frontiera invece di fare affidamento su affermazioni o speculazioni di marketing. Questa trasparenza consente inoltre una verifica indipendente e incoraggia altri ricercatori a basarsi o a contestare i risultati.
Il confronto tra GPT-5.5 e Mythos Preview illumina anche importanti questioni sulla relazione tra scala del modello, metodologia di formazione e sviluppo di capacità specifiche. Mentre Mythos Preview è stato specificamente progettato e formato pensando alle applicazioni di sicurezza informatica, GPT-5.5 rappresenta un modello linguistico di uso generale senza focus formativo specializzato in questo dominio. Tuttavia, i due sistemi funzionano in modo comparabile nelle valutazioni specializzate della sicurezza informatica, suggerendo che ampie capacità di comprensione del linguaggio e di ragionamento potrebbero essere sempre più sufficienti per sviluppare competenze in ambiti tecnici complessi.
Gli osservatori del settore notano che questi risultati di valutazione hanno implicazioni significative sul modo in cui le organizzazioni dovrebbero affrontare la governance della sicurezza dell'IA e la gestione del rischio. Il modello tradizionale di limitazione dell’accesso a sistemi potenzialmente pericolosi potrebbe necessitare di una revisione alla luce dell’evidenza che più organizzazioni possono sviluppare modelli con capacità simili attraverso approcci diversi. Ciò suggerisce che fare affidamento esclusivamente sulle restrizioni di accesso potrebbe non essere sufficiente come strategia di sicurezza completa e che potrebbero essere necessari approcci sistemici più ampi alla gestione dei rischi legati all'intelligenza artificiale man mano che le capacità diventano più ampiamente distribuite tra diversi sistemi e organizzazioni.
Guardando al futuro, l'AISI prevede di continuare il suo programma di valutazione, testando il rilascio di nuovi modelli ed esplorando ulteriori aspetti delle capacità di sicurezza informatica dell'IA. Le prossime valutazioni probabilmente esamineranno i nuovi modelli di frontiera non appena saranno disponibili, creando un set di dati longitudinale che mostrerà come le capacità dell’intelligenza artificiale nei settori della sicurezza informatica si stanno evolvendo nel tempo. Questa ricerca in corso fornisce dati di base essenziali per i decisori politici e i leader del settore che prendono decisioni sull'implementazione dell'IA e sulle strategie di governance.
I risultati della valutazione AISI sottolineano l'importanza di mantenere quadri di valutazione solidi e oggettivi per valutare le capacità emergenti dell'IA. Poiché i modelli linguistici continuano ad avanzare e trovano applicazione in ambiti sensibili, disporre di metodologie di valutazione affidabili e standardizzate diventa sempre più critico. Sia il settore della sicurezza informatica che la più ampia comunità di sicurezza dell'IA traggono vantaggio da questo tipo di valutazione rigorosa e trasparente che va oltre le narrazioni di marketing per fornire informazioni autentiche su ciò che questi sistemi possono e non possono fare.
Fonte: Ars Technica


