OpenAI 奇怪的妖精禁令揭晓

OpenAI 的 Codex 系统提示包含一个奇怪的指令,禁止讨论妖精和神话生物。了解为什么存在这种不寻常的限制。
OpenAI 的 Codex 系统提示中出现了一个令人惊讶且神秘的指令,表明该公司最新的生成式 AI 模型已被明确指示避免讨论妖精、小魔怪、浣熊、巨魔、食人魔、鸽子和各种其他生物,除非此类引用绝对必要且与用户的请求直接相关。这种特殊的保护措施引起了整个人工智能研究界的关注,并引发了人们对是什么导致了这种非常规内容限制的极大好奇。
最近几周,随着 OpenAI 的开源 Codex CLI 代码可通过 GitHub 访问,这一奇怪的操作指令的发现已成为公众所知,开发人员和研究人员可以在 GitHub 上检查底层技术架构。在包含新发布的 GPT-5.5 模型的 3,500 多个指导字的基本指令的广泛框架内,禁止讨论妖精和相关生物的禁令出现了不止一次,而是两次,这表明 OpenAI 非常重视这一限制,并在整个模型的操作参数中反复强调这一点。
有趣的是,这一特定禁令并未出现在同一个 JSON 配置文件中记录的早期 AI 模型的系统提示说明中,这表明 OpenAI 在其最新一代的 AI 技术中遇到了这一特定问题。先前版本中缺少此指令意味着 GPT-5.5 如何处理和生成围绕这些奇幻生物的语言促使开发团队实施了此保护措施。这一观察结果促使研究人员和人工智能爱好者对哪些行为模式或反应倾向可能需要这种干预进行理论分析。
这个不寻常指令的完整上下文读起来是一个明确的操作警告:模型应该“永远不要谈论妖精、小魔怪、浣熊、巨魔、食人魔、鸽子或其他动物或生物,除非它与用户的查询绝对且明确相关。”该指令与更传统和预期的指令并存,例如提醒避免使用表情符号或破折号,除非用户明确请求它们,并警告不要执行“git reset --hard”或“git checkout --”等潜在破坏性命令,除非用户明确请求此类操作。
对于那些熟悉人工智能安全和即时工程的人来说,大多数其他保护措施背后的实际推理相对透明。例如,关于避免破坏性 git 命令的警告在编码辅助工具的上下文中具有逻辑意义,否则可能会无意中损坏用户存储库或导致数据丢失。同样,避免不必要的表情符号和格式怪异的指令符合专业代码生成的期望。然而,具体禁止讨论虚构生物缺乏研究人员可以指出的立即明显的理由。来自社交媒体平台的证据表明,用户在与最新版本的 GPT-5.5 语言模型互动时,经历了与这些生物相关的异常行为。在 X(以前称为 Twitter)等平台上流传的多个轶事报告表明,该模型可能倾向于在与用户查询完全无关的上下文中插入对妖精和其他神话生物的引用。这些事件描绘了一个模型的画面,如果没有适当的约束,可能会在不适当的时刻热情地讨论幻想生物,或者回答与此类主题无关的问题。
这种行为怪癖在 OpenAI 的高级人工智能系统中的表现引发了更广泛的问题,即现代语言模型如何从训练数据中学习模式,以及这些模式有时如何以意想不到的特殊方式表现出来。互联网包含大量以妖精和类似生物为特征的奇幻文学、游戏讨论、神话参考和创意写作,并且该模型可能已经学习了这些生物的某些类型的查询和讨论之间的统计关联。当这些关联变得足够强时,模型可能会生成包含妖精参考的响应,即使它们对于回答用户的实际问题没有任何价值。
实施此类明确限制而不是仅仅依赖微调和强化学习技术的决定反映了 OpenAI 在模型安全和用户体验方面的务实方法。通过将指令直接硬编码到系统提示符中,该公司确保无论模型的权重和参数如何通过各种训练程序演变,内容过滤保护措施都保持不变。这种方法让人想起人工智能公司实施的其他安全措施,尽管对幻想生物的具体关注无疑是不寻常的,并且对观察者来说有些有趣。
这一发现引发了人工智能界对语言模型训练的本质以及这些复杂系统有时出现的不可预测行为的大量讨论。机器学习研究人员指出,大型语言模型行为可能难以预测和控制,并且训练数据中的意外模式可能会出现对输出主题的限制。妖精现象似乎是一个案例研究,说明即使是最复杂的人工智能系统也可能会产生古怪的行为倾向,需要通过系统级干预进行明确的纠正。
一些观察家推测,该限制也可能作为 OpenAI 更广泛的内容过滤功能的测试用例,使该公司能够评估显式系统提示如何有效地限制模型行为。通过监控用户在实施该指令后是否遇到与 goblin 相关的响应,OpenAI 可以收集有关其内容控制机制有效性的数据,并可能针对未来可能需要实施的其他类型的约束改进其方法。
这一不寻常指令的发现也引发了整个科技界的幽默反应,许多开发者和人工智能爱好者开玩笑说
来源: Ars Technica


