OpenAI 的 ChatGPT 变得更聪明:新模型将幻觉减少一半

OpenAI 推出 GPT-5.5 Instant,精度有了重大改进。新的默认 ChatGPT 模型在医学和法律等关键领域将幻觉减少了 52.5%。
OpenAI 宣布在解决人工智能最持久的挑战之一方面取得重大突破:人工智能模型生成虚假或误导性信息的倾向。该公司最新的默认 ChatGPT 模型(指定为 GPT-5.5 Instant)代表了事实准确性和可靠性方面的重大飞跃。根据 OpenAI 的内部评估,这一高级迭代在减少各种应用程序和用例中不准确或捏造的声明的生成方面取得了巨大的进步。
人工智能系统中的幻觉长期以来一直困扰着整个行业,语言模型经常产生听起来合理但完全捏造的信息。这个问题引起了依赖这些工具来完成关键任务的研究人员、政策制定者和最终用户的严重关注。从医疗诊断到法律解释和财务建议,人工智能生成的错误信息的后果可能是严重的,并且可能有害。这一问题的持续存在促使 OpenAI 和竞争对手大力投资研究,旨在从根本上提高其模型的事实准确性和可靠性。
GPT-5.5 Instant 所展示的改进在高风险领域尤其令人印象深刻。 OpenAI 报告称,根据严格的内部评估,与前身 GPT-5.3 Instant 模型相比,新模型产生的幻觉声明减少了约 52.5%。这种大幅减少是专门根据 OpenAI 所描述的“高风险提示”来衡量的,涵盖医学、法律和金融等关键领域。这三个领域代表了一些最敏感的应用,其中准确性不仅是首选,而且对于用户安全和信任来说绝对至关重要。
除了高风险提示的改进指标之外,OpenAI 还强调了在解决有问题的对话模式方面的额外收益。该公司的分析表明,对于用户之前标记为包含事实错误的特别具有挑战性的对话,GPT-5.5 Instant 将不准确的声明减少了 37.3%。该指标特别有意义,因为它反映了现实世界的使用模式,其中人类用户已经识别并报告了不准确的情况。事实上,新模型对这些以前有问题的查询显示出显着的改进,这表明 OpenAI 在理解和纠正生成虚假信息的底层机制方面取得了真正的进展。
GPT-5.5 Instant 的开发正值AI 幻觉已成为学术界和商业 AI 社区日益认识到的问题之际。多个研究机构和人工智能公司已经记录了这个问题的普遍性,研究表明,即使是功能强大的语言模型也可以自信地用听起来令人印象深刻但完全捏造的细节来断言虚假信息。这一挑战源于大型语言模型运行方式的基本性质,因为它们根据训练数据预测统计上可能的下一个标记,而不是咨询实际知识库或实时验证事实。
<图片src =“https://platform.theverge.com/wp-content/uploads/sites/2/2026/02/STK155_OPEN_AI_4_CVir ginia_A.png?quality=90&strip=all&crop=0%2C0.011761938367442%2C100%2C99.976476123265&w=2400" alt="AI模型改进前后幻觉减少率对比图" />OpenAI 对抗幻觉的方法涉及整个模型架构和训练过程中分层的多种技术策略。该公司实施了增强的机制来提高人工智能输出的真实性,这些机制似乎借鉴了先进的培训技术、完善的评估方法以及可能改进的数据管理。医学、法律和金融领域的具体改进表明 OpenAI 对这些关键领域给予了特别关注,这些领域的准确性会对现实世界产生重大影响。这种有针对性的方法承认,在事实准确性和可信度方面,不同的领域面临着独特的挑战。
GPT-5.5 Instant 作为新的默认 ChatGPT 模型的可用性代表了一个重要的可访问性里程碑。通过将这种改进的模型设为用户的默认模型,OpenAI 确保绝大多数 ChatGPT 用户将立即受益于这些准确性的增强,而无需他们采取任何操作。这一决定反映了 OpenAI 对模型改进的信心及其对优先考虑用户安全性和可靠性的承诺。这一转变还向更广泛的市场和研究界发出信号,表明在解决困扰人工智能系统的幻觉问题方面可能取得有意义的进展。
对医学、法律和金融等专业领域绩效的重视尤其值得注意,因为这些行业对准确性和可靠性有着最严格的要求。在医学上,人工智能幻觉可能会导致错误的诊断建议或危险的治疗建议。在法律上,捏造的案例引用或法律原则可能会损害法律研究和分析的质量。在金融领域,虚假信息可能会导致代价高昂的投资决策或违反监管规定。通过将评估工作重点放在这些高风险领域,OpenAI 展示了对人工智能错误后果最严重以及最迫切需要改进的认识。
展望未来,OpenAI 在 GPT-5.5 Instant 中减少幻觉的成功为整个人工智能行业树立了重要基准。该公司公布的改进指标提供了具体的证据,表明幻觉问题虽然仍然很严重,但并非不可克服。其他开发竞争模型的人工智能公司可能会感受到匹配或超过这些准确性改进的压力,这可能会加速全行业朝着更可靠的人工智能系统迈进。随着这些系统在专业和关键应用中发挥越来越重要的作用,不断完善技术以提高人工智能输出的真实性仍然至关重要。
来源: The Verge


