ChatGPT 用户暴力消息提前几个月发出警报

在悲剧事件发生的几个月前,OpenAI 员工就曾举报 Tumbler Ridge 枪击者与 ChatGPT 的暴力对话。
在不列颠哥伦比亚省 Tumbler Ridge 中学发生毁灭性大规模枪击事件的几个月前,OpenAI 的数字走廊中已经出现了警告信号。悲剧事件的负责人 Jesse Van Rootselaar 一直在与 ChatGPT 进行令人深感不安的对话,其中包括对枪支暴力和攻击场景的明确描述。这些交互的重要性足以触发人工智能系统的自动安全协议,从而在整个组织中引发危险信号。
相关的交流发生在 6 月,即实际枪击事件发生前几个月。 Van Rootselaar 对暴力场景的详细描述非常令人震惊,以至于他们激活了 ChatGPT 的内置内容审核系统,该系统旨在识别潜在危险的通信。这些自动化防护措施代表了 AI 安全的重要防线,旨在检测可能表明现实世界威胁或有害意图的语言模式。
多名查看了标记内容的 OpenAI 员工越来越担心 Van Rootselaar 询问的性质和特殊性。这些对话超越了对暴力的随意好奇,而是深入研究了员工将其视为潜在准备行为的详细计划和场景构建。遇到这些通讯的员工认识到内容的严重性,并了解对公共安全的潜在影响。
几名相关员工主动将他们的担忧向上级公司汇报,积极主张立即干预。他们建议 OpenAI 领导层应联系执法机构报告可疑活动,并可能避免悲剧性的结果。当收到可能表明公共安全面临迫在眉睫的威胁的信息时,这些员工表现出强烈的行动意识。

然而,尽管在多名员工的努力下,OpenAI 的执行领导层最终决定不联系当局。根据《华尔街日报》的详细报道,公司领导得出的结论是,Van Rootselaar 的通讯没有达到构成“对他人造成严重人身伤害的可信且迫在眉睫的风险”的门槛。这一决定后来被证明对 Tumbler Ridge 社区产生了毁灭性的后果。
OpenAI 的内部辩论凸显了人工智能公司在平衡用户隐私、言论自由考虑和公共安全问题时面临的复杂挑战。运营大规模人工智能系统的科技公司经常遇到引发道德和安全问题的内容,要求他们对数字行为何时可能转化为现实世界的伤害做出艰难的判断。这些决策通常需要权衡不完整的信息与行动和不行动的潜在后果。
Tumbler Ridge 枪击事件引发了关于人工智能公司有责任对其系统检测到的用户行为采取行动的重大问题。虽然像 OpenAI 这样的公司已经实施了复杂的内容审核系统,旨在识别潜在有害的通信,但这些保护措施的有效性最终取决于人类的判断和机构在警告出现时采取果断行动的意愿。
行业专家长期以来一直在争论处理通过人工智能交互发现的威胁内容的适当协议。一些人认为,公司有道德和潜在的法律义务向当局报告可信的威胁,而另一些人则认为,过于广泛的报告要求可能会损害用户的信任,并对合法研究和创意表达产生寒蝉效应。在快速发展的人工智能安全领域,这些竞争利益之间的平衡仍然是一个有争议的问题。

Tumbler Ridge 中学的悲剧结果加强了对 OpenAI 决策过程的审查,并对威胁评估的行业标准提出了更广泛的问题。批评者认为,该公司的领导层没有履行保护公共安全的职责,没有根据自己的员工和系统识别出的明确警告信号采取行动。此案已成为人工智能时代企业责任讨论的焦点。
枪击事件发生后,人工智能安全倡导者呼吁制定更稳健的协议和更清晰的指南来处理通过人工智能交互发现的潜在威胁内容。他们认为,开发强大人工智能系统的公司对社会负有特殊责任,因为它们通过其平台获得了对用户行为和意图的独特见解。这些倡导者强调,技术力量越大,为公共利益行事的责任也越大。
该事件还促使人们重新审视现有的法律框架,这些框架规定了科技公司在遇到潜在犯罪活动证据时的责任。现行法律对人工智能公司报告可疑行为的义务提供了有限的指导,形成了一个监管灰色地带,可能需要立法澄清,以防止未来发生类似悲剧。
OpenAI 对 Van Rootselaar 案件的处理可能会成为其他人工智能公司未来如何处理类似情况的先例。科技行业正在密切关注此案的进展,因为它可能会影响威胁评估和报告协议的行业标准和最佳实践的制定。这一结果还可能影响有关人工智能公司强制报告要求的监管讨论。
此案的更广泛影响超出了 OpenAI,涵盖了整个人工智能行业。随着人工智能系统变得更加复杂和广泛,它们不可避免地会遇到更多可能怀有危险意图的用户。公司面临的挑战是开发有效的系统来识别真正的威胁,同时避免误报,否则可能导致不必要的执法干预或侵犯用户隐私权。
展望未来,Tumbler Ridge 悲剧清楚地提醒人们,公司董事会就数字内容做出的决策可能会导致现实世界的后果。该案例强调了制定清晰、明确的协议来升级有关用户行为的至关重要性,以及人工智能公司在其平台出现真正威胁时将公共安全置于其他业务考虑之上的必要性。
来源: The Verge


