Раскрыт странный запрет гоблинов OpenAI

Системная подсказка Кодекса OpenAI содержит странную директиву, запрещающую обсуждение гоблинов и мифических существ. Узнайте, почему существует это необычное ограничение.
В системной подсказке Кодекса OpenAI появилась удивительная и загадочная директива, показывающая, что новейшей модели генеративного искусственного интеллекта компании было дано явное указание избегать обсуждения гоблинов, гремлинов, енотов, троллей, людоедов, голубей и различных других существ, если такие ссылки не являются абсолютно необходимыми и напрямую связаны с тем, что запрашивает пользователь. Эта необычная мера защиты вызвала недоумение у всего исследовательского сообщества в области искусственного интеллекта и вызвала значительное любопытство относительно того, что послужило причиной такого нетрадиционного ограничения контента.
Обнаружение этой любопытной операционной директивы стало достоянием общественности в последние недели, когда код CLI Codex CLI OpenAI с открытым исходным кодом стал доступен через GitHub, где разработчики и исследователи могли изучить базовую техническую архитектуру. В обширной базе базовых инструкций, включающей более 3500 слов руководства для недавно выпущенной модели GPT-5.5, запрет на обсуждение гоблинов и связанных с ними существ появляется не один, а два раза, что позволяет предположить, что OpenAI достаточно серьезно относится к этому ограничению, чтобы неоднократно подчеркивать его во всех рабочих параметрах модели.
Интересно, что этот конкретный запрет не отображается в инструкциях системного запроса для более ранних моделей ИИ, которые задокументированы в том же файле конфигурации JSON, что указывает на то, что OpenAI столкнулась с этой конкретной проблемой в своем последнем поколении технологии ИИ. Отсутствие этой директивы в предыдущих версиях означает, что что-то в том, как GPT-5.5 обрабатывает и генерирует язык вокруг этих фантастических существ, побудило команду разработчиков внедрить эту защиту. Это наблюдение побудило исследователей и энтузиастов искусственного интеллекта выдвинуть теории о том, какие поведенческие модели или тенденции реагирования могли вызвать необходимость такого вмешательства.
Полный контекст необычной директивы читается как четкое оперативное предупреждение: модель «никогда не должна говорить о гоблинах, гремлинах, енотах, троллях, ограх, голубях или других животных или существах, если это не имеет абсолютно и однозначного отношения к запросу пользователя». Эта инструкция находится рядом с более традиционными и ожидаемыми директивами, такими как напоминания о необходимости избегать использования смайлов или длинных тире, за исключением случаев, когда пользователь явно запрашивает их, а также предупреждения против выполнения потенциально деструктивных команд, таких как «git reset --hard» или «git checkout --», если пользователь недвусмысленно запросил такие операции.
Практическое обоснование большинства других мер безопасности относительно прозрачно для тех, кто знаком с безопасностью ИИ и быстрым проектированием. Например, предупреждения о том, чтобы избегать деструктивных команд git, имеют логический смысл в контексте инструмента помощника по кодированию, который в противном случае может непреднамеренно повредить пользовательские репозитории или привести к потере данных. Точно так же инструкция избегать ненужных смайлов и особенностей форматирования соответствует ожиданиям от профессиональной генерации кода. Однако конкретному запрету на обсуждение вымышленных существ не хватает очевидного обоснования, на которое могли бы указать исследователи.
Данные с платформ социальных сетей свидетельствуют о том, что пользователи сталкивались с необычным поведением, связанным с этими существами, при взаимодействии с последней версией языковой модели GPT-5.5. Многочисленные отдельные сообщения, циркулирующие на таких платформах, как X (ранее Twitter), указывают на то, что модель могла быть склонна вставлять ссылки на гоблинов и других мифических существ в контексты, где они совершенно не имели отношения к запросу пользователя. Эти инциденты рисуют картину модели, которая без надлежащих ограничений может с энтузиазмом обсуждать фантастических существ в неподходящие моменты или в ответ на вопросы, не имеющие ничего общего с такими темами.
Проявление этой поведенческой особенности в передовых системах искусственного интеллекта OpenAI поднимает более широкие вопросы о том, как современные языковые модели изучают шаблоны на основе обучающих данных и как эти шаблоны иногда могут проявляться неожиданным и своеобразным образом. В Интернете содержится огромное количество фантастической литературы, обсуждений игр, отсылок к мифологии и творческих произведений, в которых фигурируют гоблины и подобные существа, и модель, возможно, усвоила статистические связи между определенными типами запросов и обсуждениями этих существ. Когда эти ассоциации станут достаточно сильными, модель может генерировать ответы, содержащие отсылки к гоблинам, даже если они не добавляют никакой ценности к ответу на реальный вопрос пользователя.
Решение внедрить такие явные ограничения вместо того, чтобы полагаться исключительно на методы точной настройки и обучения с подкреплением, отражает прагматичный подход OpenAI к моделированию безопасности и пользовательского опыта. Записывая инструкции непосредственно в системную подсказку, компания гарантирует, что защита фильтрации контента останется в силе независимо от того, как веса и параметры модели изменяются в ходе различных процедур обучения. Этот подход напоминает другие меры безопасности, которые применяют компании, занимающиеся искусственным интеллектом, хотя особое внимание к фантастическим существам, несомненно, необычно и несколько забавно для наблюдателей.
Это открытие вызвало широкую дискуссию в сообществе искусственного интеллекта о природе обучения языковых моделей и иногда непредсказуемом поведении, возникающем в результате этих сложных систем. Исследователи машинного обучения отмечают, что поведение большой языковой модели бывает сложно прогнозировать и контролировать, а ограничения на выходные данные могут возникать из-за неожиданных закономерностей в обучающих данных. Феномен гоблинов, похоже, является примером того, как даже самые сложные системы искусственного интеллекта могут развивать причудливые поведенческие тенденции, которые требуют явной коррекции посредством вмешательства на системном уровне.
Некоторые наблюдатели предполагают, что это ограничение может также послужить проверкой более широких возможностей OpenAI по фильтрации контента, позволяя компании оценить, насколько эффективно явные системные подсказки могут ограничивать поведение модели. Отслеживая, сталкиваются ли пользователи с реакциями, связанными с гоблинами, после реализации этой директивы, OpenAI может собирать данные об эффективности своих механизмов контроля контента и потенциально совершенствовать свой подход к другим типам ограничений, которые могут потребовать реализации в будущем.
Обнаружение этой необычной директивы также вызвало юмористическую реакцию в техническом сообществе: многие разработчики и энтузиасты искусственного интеллекта шутили по поводу
Источник: Ars Technica


