GPT-5.5 противостоит мифам в тестах кибербезопасности

OpenAI GPT-5.5 соответствует широко разрекламированному Mythos Preview от Anthropic в расширенных оценках кибербезопасности, проведенных Британским институтом безопасности искусственного интеллекта.
В прошлом месяце компания Anthropic привлекла значительное внимание, представив свою модель Mythos Preview, позиционируя ее как большой шаг вперед в возможностях ИИ в области кибербезопасности. В объявлении подчеркивается потенциально серьезная угроза безопасности, которую представляют собой продвинутые языковые модели, попавшие в чужие руки, что побудило компанию принять осторожный подход, ограничив первоначальный доступ исключительно «критическими отраслевыми партнерами». Такое размеренное внедрение отражает искреннюю обеспокоенность по поводу наступательного потенциала модели в сфере кибербезопасности.
Однако недавнее исследование Великобританского института безопасности ИИ (AISI) бросает вызов некоторым предположениям, касающимся исключительных возможностей Mythos Preview. Анализ показывает, что недавно выпущенная OpenAI модель GPT-5.5 достигла «аналогичного уровня производительности в наших кибероценках» по сравнению непосредственно с ограниченной моделью Anthropic. Этот вывод предполагает, что разрыв в возможностях кибербезопасности между ведущими системами ИИ может быть меньше, чем первоначально предполагалось, что поднимает важные вопросы об относительном развитии различных передовых моделей ИИ.
С момента создания своей системы оценки в 2023 году AISI систематически оценивает различные передовые модели ИИ, используя обширный набор из 95 различных оценочных задач, предназначенных для проверки реальных возможностей кибербезопасности. В этих оценках используется методология Capture the Flag (CTF), хорошо зарекомендовавший себя подход в сообществе кибербезопасности, который ставит перед участниками конкретные цели в области безопасности, которые необходимо достичь. Проблемы охватывают несколько критически важных областей кибербезопасности, включая обратное проектирование скомпилированного кода, методы эксплуатации веб-приложений, криптографические уязвимости и оценку сетевой безопасности.
Методология оценки отличается особой строгостью: задачи распределяются по уровням сложности, которые отражают сложность и реальную актуальность проблем кибербезопасности. На самом высоком уровне сложности, обозначенном как задачи уровня «Эксперт», GPT-5.5 продемонстрировал впечатляющую производительность, пройдя в среднем 71,4 процента задач. Этот результат ставит модель OpenAI в очень близкую конкуренцию модели Mythos Preview, которая достигла успеха в 68,6 процента при эквивалентных оценках экспертного уровня. Хотя GPT-5.5 демонстрирует численное преимущество в 2,8 процентных пункта, исследователи отмечают, что эта разница находится в пределах допустимой статистической погрешности, что делает две модели фактически эквивалентными по производительности.
Эти выводы имеют важное значение для сообщества исследователей в области безопасности ИИ и заинтересованных сторон отрасли, которые внимательно следят за развитием все более эффективных систем ИИ. Техническая глубина, продемонстрированная обеими моделями при решении особо сложных задач, заставляет задуматься о траектории развития возможностей ИИ в чувствительных областях. Тот факт, что общедоступные модели приближаются по производительности к сознательно ограниченным системам или соответствуют им, говорит о том, что среда безопасности, окружающая передовые модели ИИ, развивается быстрее, чем ожидали некоторые наблюдатели.
Методология исследования AISI дает ценную информацию о том, как различные системы ИИ решают сложные проблемы кибербезопасности. Вместо простого измерения исходных результатов система оценки оценивает процессы рассуждений и стратегии решения проблем, используемые каждой моделью. И GPT-5.5, и Mythos Preview продемонстрировали глубокое понимание концепций кибербезопасности, способность выявлять уязвимости и компетентность в разработке практических стратегий эксплуатации. Качественный аспект оценки добавляет нюансов помимо простого сравнения показателей успеха.
Одна из особенно сложных проблем, которая оказалась весьма показательной, включала в себя многоуровневые задачи безопасности, требующие последовательного решения проблем и адаптации на основе промежуточных результатов. Разница в производительности при выполнении таких тонких задач между двумя моделями остается минимальной, что позволяет предположить, что расширенные языковые модели обладают подлинными возможностями рассуждения о кибербезопасности, которые выходят за рамки сопоставления с образцом или простого эвристического применения. Обе системы продемонстрировали способность адаптировать свой подход на основе обратной связи и распознавать, когда первоначальные стратегии оказались недостаточными.
Решение AISI обнародовать подробные результаты оценки отражает приверженность прозрачности исследований безопасности ИИ. Публикуя свою методологию и результаты, институт вносит ценные данные в более широкий диалог об управлении рисками, связанными с эффективными системами искусственного интеллекта. Исследователи и политики теперь могут использовать конкретные данные о передовых возможностях ИИ, а не полагаться на маркетинговые заявления или предположения. Такая прозрачность также обеспечивает возможность независимой проверки и побуждает других исследователей опираться на полученные результаты или оспаривать их.
Сравнение GPT-5.5 и Mythos Preview также проливает свет на важные вопросы о взаимосвязи между масштабом модели, методологией обучения и развитием конкретных возможностей. Хотя Mythos Preview был специально разработан и обучен с учетом приложений кибербезопасности, GPT-5.5 представляет собой языковую модель общего назначения без специального обучения в этой области. Тем не менее, обе системы одинаково хорошо справляются со специализированными оценками кибербезопасности, что позволяет предположить, что широкого понимания языка и способностей к рассуждению может быть все больше достаточно для развития опыта в сложных технических областях.
Отраслевые обозреватели отмечают, что результаты оценки имеют существенное значение для того, как организациям следует подходить к управлению безопасностью ИИ и управлению рисками. Традиционная модель ограничения доступа к потенциально опасным системам, возможно, потребует пересмотра в свете свидетельств того, что несколько организаций могут разрабатывать одинаково эффективные модели, используя разные подходы. Это говорит о том, что полагаться только на ограничения доступа может быть недостаточно в качестве комплексной стратегии безопасности и что могут потребоваться более широкие системные подходы к управлению рисками ИИ, поскольку возможности становятся более широко распределенными между различными системами и организациями.
В будущем AISI планирует продолжить свою программу оценки, тестируя новые версии моделей и изучая дополнительные аспекты возможностей кибербезопасности ИИ. В предстоящих оценках, вероятно, будут изучены новые передовые модели по мере их появления, что позволит создать набор продольных данных, показывающий, как возможности ИИ в областях кибербезопасности развиваются с течением времени. Это продолжающееся исследование предоставляет важные исходные данные для политиков и лидеров отрасли, принимающих решения о стратегиях внедрения и управления ИИ.
Результаты оценки AISI подчеркивают важность поддержания надежных и объективных систем оценки для оценки новых возможностей ИИ. Поскольку языковые модели продолжают развиваться и находят применение в чувствительных областях, наличие надежных стандартизированных методологий оценки становится все более важным. И индустрия кибербезопасности, и более широкое сообщество, занимающееся безопасностью искусственного интеллекта, получают выгоду от такой строгой и прозрачной оценки, которая выходит за рамки маркетинговых повествований и дает подлинное представление о том, что эти системы могут и чего не могут делать.
Источник: Ars Technica


