提高 LLM 效率:Google 的 TurboQuant 将内存使用量减少了 6 倍

谷歌的新 TurboQuant 算法显着减少了大型语言模型的内存占用,在不牺牲准确性的情况下加速了 AI 性能。
Google 研究部门推出了一种名为 TurboQuant 的突破性压缩算法,该算法可将大型语言模型 (LLM) 的内存使用量大幅减少 6 倍,同时还能提高速度并保持准确性。
LLM 是为自然语言处理和生成等高级语言任务提供支持的 AI 模型,因其对内存需求的贪得无厌而臭名昭著。键值缓存存储重要信息以避免重复计算,是造成内存消耗的主要原因。 TurboQuant 旨在通过在不影响性能的情况下压缩这种备忘单式缓存来应对这一挑战。
LLM 依靠高维向量来映射标记化文本的语义。这些向量可以有数百或数千个嵌入,用于描述图像像素或大型数据集等复杂信息。然而,它们也会占用大量内存,增加键值缓存的大小并限制模型的效率。

为了使模型更小、更高效,开发人员经常使用量化技术降低这些向量的精度。 TurboQuant 将这一概念更进一步,引入了一种新颖的压缩算法,可以将键值缓存缩小多达 6 倍,而不会牺牲语言模型的准确性。
这一突破对人工智能的未来具有重大影响。随着 LLM 规模和复杂性不断增长,大幅减少内存占用的能力可以开启 AI 性能的新领域,使其在各种应用中更易于访问和扩展。

TurboQuant 算法的工作原理是智能压缩键值缓存,利用先进技术来维护基本信息,同时大幅降低总体内存需求。这项创新不仅提高了模型的效率,还为未来更强大、更易于使用的人工智能驱动解决方案铺平了道路。
随着对高性能、内存效率高的人工智能的需求不断增长,Google 的 TurboQuant 做出了突破性的贡献,可以重新定义生成式人工智能及其他领域的格局。
来源: Ars Technica


