谷歌的新型 TPU 为 AI 代理时代提供动力

谷歌推出专为代理人工智能系统设计的第八代 TPU8t 和 TPU8i 处理器,提供更快的训练和高效的推理能力。
Google 的自定义张量处理单元长期以来一直是该公司云基础设施的支柱,为主导该行业的 Nvidia 加速器提供了令人信服的替代方案。当竞争对手争先恐后地保护每一个可用的 GPU 时,谷歌一直在投资开发自己的专门为人工智能工作负载量身定制的专用芯片。继 2025 年成功推出第七代 Ironwood TPU 后,Google 现在宣布推出第八代 TPU 处理器,这标志着该公司在构建专为高级 AI 应用而设计的硬件的承诺方面迈出了重大飞跃。
新一代代表了 Google 人工智能处理器设计方式的根本转变。谷歌的工程团队认识到,新兴的代理人工智能系统时代需要一种完全重新设计的硬件方法,而不是简单地在现有架构上迭代更快的时钟速度和更多的晶体管。该公司正在推出第八代 TPU 的两种不同变体:针对模型训练操作进行优化的 TPU8t 和专门针对推理任务而设计的 TPU8i。这种分叉的设计理念反映了 Google 的信念,即现代人工智能工作负载具有不同的要求,需要专门的硬件解决方案,而不是通用的处理器。
TPU8t 的设计有一个单一的重点:加速计算密集型训练阶段,将原始模型代码转换为功能性人工智能系统。在部署任何人工智能模型来分析数据、生成预测或创建内容之前,它必须在数百或数千个处理器的海量数据集上进行广泛的训练。这个训练阶段历来是人工智能开发中最长的瓶颈之一,前沿模型有时需要数月的连续计算。谷歌声称,通过利用 TPU8t 的专门架构,开发人员可以将这些长达数月的训练周期压缩到仅仅几周,从根本上改变组织迭代和改进人工智能系统的速度。
专注于推理的 TPU8i 解决了人工智能生命周期中同样重要但截然不同的挑战。一旦模型经过训练并准备好进行生产部署,重点就会从原始计算吞吐量转移到效率、延迟和成本效益。 TPU8i 经过专门优化,可处理推理工作负载,即处理用户请求并生成输出的经过训练的模型的实际执行。在代理人工智能系统必须持续运行并近乎实时地响应用户交互的背景下,推理效率变得至关重要。通过专门针对此特定用例的硬件,Google 可以提供更快的响应时间,同时减少每次推理操作的功耗,从而直接改善用户体验和运营成本。
Google 决定开发单独的训练和推理处理器,反映出对“代理时代”与前几代 AI 技术有何不同的更深入了解。在大型语言模型和基础模型的时代,训练和推理之间的区别不太重要,因为模型只训练一次,然后部署相对不变。然而,代理系统——能够采取独立行动、规划多步骤操作并适应新信息的人工智能代理——具有根本不同的性能要求。这些系统可能会不断更新其模型,尝试新方法,并需要即时决策能力。新的 TPU 设计理念承认这些现实,提供在每个特定阶段都表现出色的硬件,而不是在两者之间妥协。
在 Google 的人工智能雄心背景下,定制芯片的战略重要性怎么强调都不为过。虽然 Nvidia 的 GPU 已成为大多数技术行业人工智能训练和部署的事实标准,但谷歌始终专注于开发专有替代品。这种方法为谷歌提供了几个优势:对硬件路线图的完全控制、针对谷歌软件堆栈的优化机会,以及集成针对谷歌特定人工智能应用程序定制的新颖功能的能力。第八代 TPU 代表了这一垂直整合战略多年投资的顶峰。
新一代 TPU 带来的性能改进不仅仅是简单的速度提升。谷歌投入了大量的工程精力来改进内存子系统、通信架构和处理器的功效。这些整体改进意味着使用 TPU8t 和 TPU8i 的组织可以实现更好的每瓦性能——在数据中心功耗和冷却成为主要运营支出的时代,这是一个关键指标。随着人工智能基础设施成本持续攀升,效率提升对于云提供商和企业来说变得越来越有价值。
展望未来,Google 对这些新处理器的战略反映了该公司对其在快速发展的人工智能市场中的地位的信心。通过继续投资定制 AI 加速器,Google 不仅支持自己的 AI 研究和开发工作,还为 Google Cloud 客户提供了 GPU 主导的替代方案。围绕 Google Cloud 和 TPU 构建基础设施的组织可以立即利用这些改进,同时通过更短的训练时间和更高效的推理操作潜在地获得竞争优势。
第八代 TPU 的发布也标志着 Google 的长期承诺,不仅仅是提供第三方硬件的云提供商。通过开发专为满足代理人工智能系统的特定需求而设计的专用处理器,谷歌将自己定位为完整的解决方案提供商,帮助组织向这种新的计算范式过渡。无论是用于训练、推理还是两者兼而有之,客户现在都可以使用专用硬件,这些硬件有望在整个人工智能工作负载范围内最大限度地提高性能和效率。
来源: Ars Technica


