OpenAI вирішує таємничу проблему гоблінів у моделях ШІ

OpenAI розкриває, чому його моделі штучного інтелекту постійно посилаються на гоблінів і істот. Дізнайтеся про дивну примху навчання, виявлену в системах Codex і GPT.
OpenAI публічно визнав і пояснив особливу проблему, яка виникла в його моделях штучного інтелекту – несподівану тенденцію посилатися на гоблінів, гремлінів та різноманітні інші істоти у своїх результатах. Після детального звіту від Wired, який виявив внутрішні інструкції, які забороняють моделі кодування OpenAI обговорювати гоблінів, гремлінів, єнотів, тролів, огрів, голубів та інших тварин або істот, стартап OpenAI вирішив забезпечити прозорість, опублікувавши вичерпне пояснення на своєму офіційному веб-сайті. Компанія охарактеризувала ці посилання як «дивну звичку», яку її моделі машинного навчання розвинули як прямий наслідок їхніх методологій навчання та підходів до обробки даних.
Пояснення, надане OpenAI, розкриває походження цього дивного явища, простежуючи його до певних версій їхньої мови та моделей кодування. Згідно з дописом у блозі стартапу, проблема вперше стала очевидною, коли розробники почали помічати несподівані метафори та прямі посилання на гоблінів та інших міфічних істот, які з’являються в моделях. Що зробило це особливо примітним, так це те, що ці посилання, здавалося, виникли нізвідки в навчальних даних, припускаючи більш глибоку закономірність у тому, як моделі обробляли та генерували мову. Здавалося, що проблема ставала дедалі помітнішою, оскільки OpenAI розробляв нові версії своїх систем.
OpenAI виявив, що посилання на гоблінів почали з’являтися помітно з його моделлю GPT-5.1, особливо коли користувачі використовували в системі опцію «Ботана». Це налаштування особистості, створене для того, щоб зробити реакції штучного інтелекту більш химерними та орієнтованими на персонажів, здавалося, запускає незвичайну схему, коли гобліни та подібні істоти викликатимуться у відповідях, які не мають логічного зв’язку з такими посиланнями. Відкриття підняло важливі питання про те, як тренувальні дані, параметри особистості та алгоритми генерації мови взаємодіють один з одним у складних системах ШІ.
<зображення src="https://platform.theverge.com/wp-content/uploads/sites/2/chorus/uploads/chorus_asset/file/25461999/STK155_OPEN_AI_CVirginia_A.jpg?quality=90&strip=all&crop=0%2C0%2C100%2C100&w=2400" alt="Інтерфейс моделі OpenAI GPT і візуалізація нейронної мережі" />Згідно з детальним аналізом OpenAI, проблема не була ізольованою від однієї версії моделі. Натомість проблема продемонструвала тривожну тенденцію ескалації з кожною наступною ітерацією вдосконалення моделі та перенавчання. У міру того як компанія продовжувала розвивати та вдосконалювати свої системи, частота та популярність цих посилань на істоти, здавалося, посилювалася, а не зменшувалася. Цей шаблон змусив дослідницьку та інженерну групи OpenAI глибше досліджувати причини, що лежать в основі, що зрештою призвело до впровадження спеціальних механізмів фільтрації та вказівок щодо вмісту для безпосереднього вирішення проблеми.
Включення явних інструкцій у системні підказки «ніколи не говорити про гоблінів, гремлінів, єнотів, тролів, огрів, голубів або інших тварин чи істот» є прагматичною відповіддю OpenAI на керування цією несподіваною поведінкою. Ці інструкції, які були виявлені під час розслідування Wired, фактично функціонували як огорожі, щоб запобігти створенню моделями недоречних або безглуздих посилань на цих істот під час взаємодії з користувачем. Однак існування таких конкретних інструкцій саме по собі викликало питання про механізми, що лежать в основі, які зробили б такі чіткі заборони необхідними в першу чергу.
Технічні наслідки цього явища виходять за рамки простої новизни чи розважальної цінності. Проблема гобліна висвітлює важливі міркування щодо того, як системи машинного навчання вивчають шаблони з навчальних даних, як вони узагальнюють приклади та як, здавалося б, непов’язана інформація може бути вбудована в поведінку моделі. Це демонструє, що навіть складні мовні моделі можуть розвивати неочікувану поведінку, яка не узгоджується з намірам дизайнера, і що ця поведінка може вимагати явного втручання для керування та контролю.
Рішення OpenAI публічно пояснити цю проблему, а не ігнорувати її, свідчить про важливий зсув у бік прозорості в тому, як компанії штучного інтелекту обробляють неочікувану поведінку моделей. Опублікувавши детальний звіт про те, що сталося, чому це сталося та як компанія вирішила це, OpenAI надала цінну інформацію про реальні проблеми створення та розгортання великомасштабних мовних моделей. Ця прозорість особливо важлива з огляду на зростаючий суспільний інтерес до розуміння того, як працюють системи штучного інтелекту та які особливості та обмеження вони мають.
Ширший контекст цього відкриття також торкається важливих тем у дослідженнях і розробці штучного інтелекту. Навчальні набори даних, які часто містять великі фрагменти інтернет-тексту, можуть містити шаблони, асоціації та посилання, які здаються випадковими або безглуздими, але які моделі все одно вчаться відтворювати. Коли ці шаблони включають конкретні посилання або концепції, вони можуть несподівано з’явитися в результатах моделі таким чином, що здивує навіть досвідчених дослідників та інженерів ШІ. Розуміння та прогнозування цих нових форм поведінки залишається активною сферою вивчення спільноти машинного навчання.
Крім того, цей інцидент ілюструє складність реалізації ефективної фільтрації вмісту в системах ШІ. Замість того, щоб просто видаляти шкідливий або невідповідний вміст із навчальних даних, що було б непрактично з огляду на масштаб сучасних наборів даних, такі компанії, як OpenAI, повинні замість цього впроваджувати пост-спеціальні заходи, щоб керувати поведінкою моделі. Такий підхід потребує постійної пильності та оновлень, оскільки під час тестування та взаємодії з користувачем з’являються нові несподівані моделі поведінки.
Оскільки OpenAI та інші компанії зі штучним інтелектом продовжують розробляти дедалі ефективніші моделі мови та кодування, такі примхи та несподівана поведінка, ймовірно, є лише верхівкою айсберга. Проблема гобліна служить корисним нагадуванням про те, що системи машинного навчання, незважаючи на їхні вражаючі можливості, залишаються дещо непрозорими навіть для їхніх творців. Вони можуть розвивати дивовижну поведінку, яка потребує дослідження, пояснення та пом’якшення. Це підкреслює постійну важливість відповідальних практик розробки штучного інтелекту, які надають пріоритет прозорості, тестуванню та ретельному моніторингу результатів системи.
Заглядаючи вперед, досвід OpenAI з гоблінами може дати інформацію про те, як компанія та її колеги підходять до навчання, тестування та розгортання майбутніх моделей. Уроки, отримані під час відстеження джерел неочікуваних посилань і впровадження ефективних засобів контролю, можуть виявитися цінними, оскільки системи штучного інтелекту стають все складнішими та розгортаються у все більш критичних програмах. Зрештою, інциденти, подібні до цього, сприяють зростанню колективного розуміння того, як поводяться ці потужні технології та які кроки необхідно зробити, щоб переконатися, що вони функціонують належним чином.
Джерело: The Verge


