克劳德神话AI模型：控制互联网安全力量

Anthropic 强大的新人工智能模型发现了零日漏洞，但不会公开发布。专家们争论谁应该控制如此强大的网络安全技术。

Anthropic 的 Claude Mythos 的发布标志着人工智能在网络安全和数字治理中的作用的持续争论的分水岭。本月，这家硅谷公司推出了其最新的突破性模型，但附带了一个令人震惊的警告：该模型将继续受到严格控制，并且永远不会向公众发布。这一决定背后的原因切中了现代技术焦虑的核心——该模型非常有能力识别和利用计算机漏洞，以至于 Anthropic 高管认为广泛使用该模型将从根本上损害全球互联网安全。

Claude Mythos 代表了人工智能网络安全能力的巨大飞跃，展示了安全研究人员长期以来所担心的自主功能。该系统可以识别以前未知的“零日”缺陷（软件供应商和公众未知的漏洞），并自主编写代码来利用这些弱点。更令人担忧的是，它可以将多个漏洞链接在一起以实现全面的系统妥协，从而可能控制主要操作系统和网络浏览器。此功能本质上将模型转变为可用于几乎任何数字锁的主开锁器，了解如何不仅突破个人防御，而且将漏洞利用链接在一起形成毁灭性的攻击序列。

要了解 Mythos 的重要性，请考虑安全专家提供的一个恰当的类比：该系统的功能就像一个高度智能的窃贼，可以瞄准任何建筑物，识别入口点，解锁每扇门，并系统地清空每个保险箱，而不会触发警报。这不仅仅是一个以负责任的方式识别安全缺陷的工具，它是一种全面的攻击能力，如果落入错误之手或被恶意部署，可能从根本上破坏关键数字基础设施的稳定。这些漏洞利用的自主性质使威胁变得更加严重，因为 Mythos 一旦指向目标系统就不需要人工指导。

认识到此类技术的潜在好处和灾难性风险，Anthropic 开始实施一项雄心勃勃的防御计划，称为Project Glasswing。在此框架下，该公司已与大约 40 个组织合作，在恶意行为者发现和利用漏洞之前帮助识别和修复漏洞。合作伙伴组织代表了数字生态系统中一些最关键的基础设施提供商，但值得注意的是，所有参与者都是美国公司，处于美国主导的数字架构的核心。这种地理集中度既反映了美国公司主导关键互联网基础设施的技术现实，也反映了人工智能安全部署的地缘政治维度。

Project Glasswing 下的漏洞修补过程遵循先发制人的防御原则 - Anthropic 使用 Claude Mythos 发现安全漏洞，然后将此信息提供给合作伙伴组织，为他们提供关键的时间来开发和部署补丁，然后犯罪分子或敌对行为者可以开发自己的漏洞。这对 Anthropic 来说是一项重大责任，因为该公司必须围绕 Mythos 维护完美的运营安全，以确保漏洞信息不会泄露给潜在的攻击者。 Anthropic 系统中的一个漏洞可能会将这一防御举措转变为世界上最具破坏性的情报泄露事件。

英国对神话开发的参与虽然有限，但标志着人工智能安全治理方面的重要国际合作。 Anthropic 与英国人工智能安全研究所共享该模型的访问权限，允许英国研究人员对该技术的功能和风险进行独立测试和评估。这一安排为英国政府提供了对人工智能网络安全威胁和防御能力前沿的重要见解。在直接研究神话之后，英国部长们向商界领袖发出警告，警告人工智能系统的能力日益增强，威胁范围不断扩大。

将 Mythos 限制在一组精心控制的安全合作伙伴范围内而不是公开发布的决定反映了当代技术治理中的根本紧张局势。在传统的开源软件运动中，安全研究人员认为，透明度可以加速漏洞发现和修补，因为更多的眼睛检查代码可以更快地识别缺陷。然而，对于像 Claude Mythos 这样强大的工具，这种逻辑会发生灾难性的逆转——漏洞发现能力越广泛，恶意行为者就能越快地将其武器化。 Anthropic 的领导层基本上得出的结论是，传统的开源安全模型在能力极度集中的条件下会失败。

这种困境引发了关于私人权力和公共风险的深刻问题，这些问题远远超出了 Anthropic 的当前处境。该公司现在拥有接近数字基础设施万能钥匙的东西，这种能力以前只存在于安全专家的理论讨论中。这种权力集中在私人手中不可避免地引发了治理问题：公共机构如何验证 Anthropic 是否负责任地使用 Mythos？存在哪些机制可以确保公司不会使用此工具开发自己的进攻能力？国际社会应如何应对一家公司控制此类战略技术所带来的地缘政治影响？

这些问题的答案仍然令人沮丧地不清楚。现有的监管框架和国际协议都没有提供足够的机制来管理此能力级别的高级人工智能安全工具。大多数网络安全监管的重点是预防伤害，而不是管理造成伤害的工具的分发。国际网络安全条约通常针对的是民族国家的行为，而不是私营公司的行为。这种治理差距意味着 Anthropic 的运作很大程度上取决于自己对这种非凡能力的负责任管理的评估。

展望未来，随着人工智能安全能力的进步，克劳德神话的情况可能会变得越来越普遍。其他人工智能开发人员也在追求类似的进攻能力，并且似乎不可避免的是多个组织最终将拥有与 Mythos 能力相当或超过的工具。这种技术轨迹引发了一些基本问题：任何公司是否应该对可能损害全球数字基础设施的工具拥有单方面控制权。当前的方法（依赖于各个公司有关负责任使用的决策）对于这种重要级别的技术来说似乎不够。

克劳德神话的更广泛含义延伸到了有关互联网本身未来特征的问题。如果进攻性人工智能能力的发展速度继续快于防御性人工智能能力，我们可能会面临这样一种情况：没有任何系统可以被认为是真正安全的。这可能从根本上重塑关键基础设施的运行方式，可能需要气隙系统、显着降低的功能或以便利性换取安全性的组织策略。目前设计的共享互联网可能会与人工智能能够以机器速度和规模利用漏洞的世界变得不兼容。

Anthropic 因以明显的严肃态度履行这一责任而值得赞扬——不公开发布 Claude Mythos 的决定反映了对该技术影响的成熟判断。然而，该公司的做法也代表了一种技术封建主义，其中具有重大公共意义的决策完全取决于私营企业的领导层。未来的挑战包括建立治理结构，确保如此强大的能力服务于公共利益，同时保持足够有效的能力来应对真正的安全威胁。现有机构能否应对这一挑战仍存在很大不确定性。

克劳德神话：谁控制着互联网安全？

评论 (0)

相关文章

AI Nobel Prize Discovery Within Year, Says Anthropic

Imperagen Secures £5M Funding for Quantum AI Enzyme

Nvidia CEO Projects $200B Market for AI Agent CPUs