Anthropic 的危险人工智能模型被未经授权的用户破坏

Anthropic 强大的 Mythos AI 模型专为网络安全而设计,未经授权的用户已通过承包商泄露的凭证和互联网侦察技术进行访问。
在一次给整个人工智能行业敲响警钟的重大安全事件中,Anthropic 的 Mythos AI 模型遭到一小群未经授权的个人的破坏和访问。据彭博社报道,此次泄露是在一个私人在线论坛的成员利用漏洞访问复杂的网络安全工具时发生的,Anthropic 此前曾警告称,如果滥用该工具,可能会带来严重风险。未经授权的访问是通过综合利用与 Anthropic 合作的第三方承包商的凭据以及消息人士所描述的“常用互联网侦查工具”和侦察技术的策略来实现的。
对于业内领先的人工智能安全组织之一来说,此次泄露代表了一次显着的安全失败。由于 Mythos 模型的先进功能和预期目的,Anthropic 已明确将其标记为潜在危险。据一位接受彭博社采访的不愿透露姓名的承包商称,私人在线论坛的成员能够通过将承包商的提升特权与标准数字调查技术相结合来拼凑出访问方法。事实证明,这种组合足以规避 Anthropic 可能为保护对这一敏感人工智能系统的访问而实施的安全措施。
克劳德神话预览版代表了人工智能辅助网络安全能力的重大飞跃。该模型的设计能够识别和利用各种计算环境中的漏洞,包括当前使用的每个主要操作系统和每个主要网络浏览器。这种广泛的功能虽然对于防御安全目的很有价值,但如果恶意行为者或个人在没有适当的道德护栏和负责任的人工智能培训的情况下部署该工具,也会变得异常危险。
Anthropic 的通用 AI 模型与 Mythos 变体之间的区别在于其专门关注漏洞识别和利用。像 Claude 这样的标准语言模型是为广泛的对话和分析任务而设计的,而 Mythos 则经过专门训练和优化,可以在粒度级别上了解安全弱点。这种专业化使其对于合法的网络安全研究和防御应用程序异常强大,但同样令人担忧的是,不良行为者在没有适当监督或问责机制的情况下获得了其功能。
漏洞本身的性质引发了有关人工智能公司内承包商凭证管理和访问控制协议的重要问题。第三方承包商的访问权限可能会被利用来破坏敏感模型,这一事实表明 Anthropic 在管理其供应链安全和承包商入职流程方面存在潜在差距。第三方承包商通常在企业安全框架中占据着复杂的地位 - 他们需要足够的访问权限来履行其职责,但如果他们的帐户遭到泄露或者他们本身成为未经授权的访问的载体,那么同样的访问权限也可能成为攻击载体。
行业专家长期以来一直强调先进人工智能系统的双重用途性质是人工智能治理的一个关键问题。使 Mythos 等工具在识别和修复安全漏洞方面具有价值的相同功能,如果被滥用,也会带来固有的风险。有益的应用程序和潜在的滥用之间的紧张关系已成为有关人工智能治理和负责任的模型部署讨论的中心焦点。像 Anthropic 这样的公司在人工智能安全研究上投入了大量资金,专门解决这些问题,这使得这次违规行为作为这些安全框架在实践中实际运作情况的测试案例显得尤为重要。
未经授权的访问组织使用“常用的互联网侦查工具”表明,该漏洞不需要复杂的零日漏洞或高级黑客技术。相反,它似乎依赖于更直接的侦察和社会工程方法以及受损的承包商凭证。这一发现尤其令人担忧,因为它表明,具有基本技术知识和使用标准工具的坚定个人可能会破坏类似的受保护系统。该事件凸显了人工智能公司实施不依赖于任何单点故障的纵深防御策略的重要性。
Anthropic 对这一安全事件的反应可能会为更广泛的人工智能行业如何处理敏感模型泄露事件树立先例。该公司面临着调查全面未经授权的访问并实施更强有力的保护措施的压力。关键问题包括准确确定哪些个人或组织获得了访问权限、他们可能利用该访问权限采取了哪些行动,以及是否有任何专有信息或研究在模型访问权限本身之外受到损害。
该事件还凸显了对先进人工智能系统的监管和治理的更广泛影响。随着模型变得越来越强大,并且对于潜在有害的应用程序更加专业,如何平衡开放研究和开发与适当的安全措施的问题变得越来越紧迫。政策制定者和行业领导者可能会指出此类事件作为支持人工智能开发者需要更强有力的监管框架和强制性安全标准的证据。
展望未来,这一违规行为可能会加速 Anthropic 内部和整个行业的讨论,讨论如何更好地保护敏感的人工智能模型,同时仍能实现合法的研究和开发。该公司可能会实施更严格的承包商审查流程、更复杂的访问监控系统以及额外的身份验证和验证层。在整个行业范围内,这一事件可能会影响公司如何评估与授予第三方访问敏感系统相关的风险。
Mythos 模型泄露事件清楚地提醒我们,即使是拥有强大安全资质并明确致力于负责任的 AI 开发的公司也面临着重大的安全挑战。随着人工智能能力的不断进步,确保强大的工具掌握在适当的人手中变得越来越重要。此事件强调需要制定全面的安全策略,不仅要解决外部威胁,还要解决内部漏洞和承包商访问管理协议。
来源: The Verge


