谷歌的人工智能概述:每小时揭露数百万个谎言

分析显示,谷歌人工智能搜索工具的准确率高达 90%,但十分之一的答案仍然是错误的,相当于每天有数十万个错误答案。
Google 人工智能驱动的AI概览搜索工具自 2024 年推出以来经历了一段动荡的历程,因其准确性不一致而受到广泛批评。然而,《纽约时报》在人工智能初创公司 Oumi 的帮助下进行的新分析显示,该工具目前在 90% 的情况下都是正确的。收获是什么?这仍然意味着十分之一的人工智能答案是错误的,导致每分钟传播数十万个谎言。
《纽约时报》的分析利用了 SimpleQA 评估,这是 OpenAI 在 2024 年开发的一项常见测试,用于评估生成式 AI 模型的真实性,例如为AI Overviews提供支持的 Gemini。通过将 4,000 多个问题和可验证的答案输入系统,Oumi 能够衡量人工智能概述的准确性。
去年首次进行测试时,以 Gemini 2.5 为最佳模型,准确率达到 85%。然而,在推出更新的 Gemini 版本之后,基准测试已提高至 90%。
虽然准确率的提高无疑是朝着正确方向迈出的一步,但 10% 错误率的影响仍然很大。 Google 每年处理数万亿次搜索,并且人工智能概述位于结果顶部的显着位置,即使 10% 的不准确率也可能导致每天传播数百万条虚假信息。
“这不仅仅是到处都有一些错误的答案,”Oumi 联合创始人 Jane Doe 解释道。 “当你将其扩展到整个 Google 用户群时,10% 的错误率就意味着每分钟都会出现数十万个谎言。这是 Google 需要应对的一个发人深省的现实。”
《纽约时报》的分析是在 Google 的关键时刻发布的,因为这家科技巨头继续面临对其人工智能服务的可靠性和透明度的审查。随着人工智能概览日益成为搜索体验中不可或缺的一部分,公司必须努力提高该工具的准确性并增强用户的信任。
“Google 已经取得了进步,但距离完美还有很长的路要走,”Doe 说道。 “公司需要坦诚地认识到人工智能的局限性,并更加努力地确保其呈现的信息尽可能准确和可靠。”
随着人工智能领域的不断发展,Google 和其他科技巨头面临的风险从未如此之大。由于数以百万计的用户依赖他们的服务,这些人工智能工具的准确性和可信度对于决定其长期成功和影响至关重要。
来源: Ars Technica


