Розкрито заборону дивних гоблінів від OpenAI

Системний запит OpenAI Codex містить дивну директиву, яка забороняє обговорення гоблінів і міфічних істот. Дізнайтеся, чому існує це незвичайне обмеження.
У системному запиті OpenAI Codex з’явилася дивовижна та загадкова директива, яка показує, що остання генеративна модель штучного інтелекту компанії має чіткі вказівки уникати обговорення гоблінів, гремлінів, єнотів, тролів, огрів, голубів та інших істот, якщо такі посилання не є абсолютно необхідними та мають пряме відношення до того, що запитує користувач. Цей особливий запобіжний захід викликав здивування дослідників ШІ та викликав значну цікавість щодо того, що спонукало таке нетрадиційне обмеження вмісту.
Про виявлення цієї цікавої операційної директиви стало відомо останніми тижнями, коли код OpenAI з відкритим вихідним кодом Codex CLI став доступним через GitHub, де розробники та дослідники могли перевірити базову технічну архітектуру. У обширній структурі базових інструкцій, яка містить понад 3500 слів інструкцій для нещодавно випущеної моделі GPT-5.5, заборона на обговорення гоблінів і споріднених істот з’являється не один, а двічі, що свідчить про те, що OpenAI сприймає це обмеження досить серйозно, щоб неодноразово наголошувати на ньому в робочих параметрах моделі.
Як не дивно, ця конкретна заборона не відображається в інструкціях системної підказки для попередніх моделей штучного інтелекту, які задокументовані в тому самому конфігураційному файлі JSON, що вказує на те, що OpenAI зіткнувся з цією конкретною проблемою в останньому поколінні технології штучного інтелекту. Відсутність цієї директиви в попередніх версіях означає, що щось у тому, як GPT-5.5 обробляє та генерує мову навколо цих фантастичних істот, спонукало команду розробників застосувати цей захист. Це спостереження спонукало дослідників і ентузіастів штучного інтелекту до теоретизації про те, які моделі поведінки чи тенденції реагування могли викликати необхідність такого втручання.
Повний контекст незвичайної директиви читається як чітке робоче попередження: модель «ніколи не повинна говорити про гоблінів, гремлінів, єнотів, тролів, огрів, голубів або інших тварин чи істот, якщо це абсолютно й однозначно не стосується запиту користувача». Ця інструкція розміщується поруч із більш звичайними та очікуваними директивами, як-от нагадування про те, щоб уникати використання емодзі чи дефісів em, за винятком випадків, коли користувач явно їх вимагає, і застереження щодо виконання потенційно деструктивних команд, таких як «git reset --hard» або «git checkout --», якщо користувач однозначно не зажадав таких операцій.
Практична аргументація більшості інших заходів відносно прозора для тих, хто знайомий із безпекою штучного інтелекту та швидкою розробкою. Застереження щодо уникнення деструктивних команд git, наприклад, мають логічний сенс у контексті інструменту помічника кодування, який інакше міг би ненавмисно пошкодити репозиторії користувачів або спричинити втрату даних. Подібним чином інструкція щодо уникнення непотрібних емодзі та примх форматування узгоджується з очікуваннями щодо професійної генерації коду. Однак конкретній забороні обговорення вигаданих істот бракує відразу очевидного обґрунтування, на яке могли б вказати дослідники.
Докази з платформ соціальних мереж свідчать про те, що користувачі стикалися з незвичайною поведінкою, пов’язаною з цими істотами, під час взаємодії з останньою версією мовної моделі GPT-5.5. Кілька анекдотичних повідомлень, які поширюються на таких платформах, як X (раніше Twitter), вказують на те, що модель, можливо, була схильна вставляти посилання на гоблінів та інших міфічних істот у контекстах, де вони абсолютно не стосувалися запиту користувача. Ці випадки малюють картину моделі, яка без належних обмежень може захоплено обговорювати фантастичних істот у невідповідний момент або у відповідь на запитання, які не мають нічого спільного з такими темами.
Прояв цієї поведінкової особливості в розширених системах штучного інтелекту OpenAI викликає ширші питання про те, як сучасні мовні моделі вивчають шаблони зі своїх навчальних даних і як ці шаблони іноді можуть проявлятися несподіваним і дивним чином. Інтернет містить величезну кількість фентезійної літератури, дискусій про ігри, згадок про міфологію та творчих творів, у яких зображені гобліни та подібні істоти, і модель, можливо, навчилася статистичним зв’язкам між певними типами запитів і обговореннями цих істот. Коли ці асоціації стають достатньо міцними, модель може генерувати відповіді, які містять посилання на гоблінів, навіть якщо вони не додають жодної цінності для відповіді на справжнє запитання користувача.
Рішення запровадити такі чіткі обмеження, а не покладатися виключно на методи точного налаштування та посилення навчання, відображає прагматичний підхід OpenAI до безпеки моделі та взаємодії з користувачем. Жорстко закодувавши інструкції безпосередньо в системну підказку, компанія гарантує, що запобіжні заходи фільтрації вмісту залишаються на місці незалежно від того, як змінюються ваги та параметри моделі через різні процедури навчання. Цей підхід нагадує інші заходи безпеки, які впроваджують компанії штучного інтелекту, хоча особлива увага до фантастичних істот, безсумнівно, є незвичною та дещо смішною для спостерігачів.
Це відкриття викликало значну дискусію в спільноті штучного інтелекту про природу навчання мовної моделі та інколи непередбачувану поведінку, яка виникає з цих складних систем. Дослідники машинного навчання відзначили, що поведінку великої мовної моделі може бути важко передбачити та контролювати, і що обмеження на вихідні теми можуть виникати через несподівані шаблони в навчальних даних. Феномен гобліна є прикладом того, як навіть найскладніші системи штучного інтелекту можуть розвивати химерні поведінкові тенденції, які потребують явної корекції за допомогою втручань на системному рівні.
Деякі спостерігачі припустили, що це обмеження також може служити тестом для ширших можливостей фільтрації вмісту OpenAI, дозволяючи компанії оцінити, наскільки ефективно явні підказки системи можуть обмежувати поведінку моделі. Відстежуючи, чи стикаються користувачі з відповідями, пов’язаними з гоблінами, після впровадження цієї директиви, OpenAI може збирати дані про ефективність їхніх механізмів контролю вмісту та потенційно вдосконалювати свій підхід до інших типів обмежень, які можуть знадобитися впровадження в майбутньому.
Відкриття цієї незвичайної директиви також викликало жартівливу реакцію в технічній спільноті: багато розробників і ентузіастів ШІ жартували про
Джерело: Ars Technica


