Підвищення ефективності LLM: TurboQuant від Google скорочує використання пам’яті в 6 разів

Новий алгоритм TurboQuant від Google значно зменшує обсяг пам’яті великих мовних моделей, прискорюючи продуктивність ШІ без шкоди для точності.
Google Research оприлюднив революційний алгоритм стиснення під назвою TurboQuant, який може значно зменшити використання пам’яті великими мовними моделями (LLM) до 6 разів, а також підвищити швидкість і зберегти точність.
LLM, моделі AI, що забезпечують розширені мовні завдання, такі як обробка природної мови та покоління, відомі своїми ненаситними вимогами до пам’яті. Кеш ключ-значення, який зберігає важливу інформацію, щоб уникнути повторних обчислень, є основною причиною споживання пам’яті. TurboQuant має на меті вирішити цю проблему, стиснувши цей кеш, схожий на шпаргалку, без шкоди для продуктивності.
LLM покладаються на багатовимірні вектори для відображення семантичного значення токенізованого тексту. Ці вектори, які можуть мати сотні чи тисячі вбудовувань, використовуються для опису складної інформації, наприклад пікселів зображення або великих наборів даних. Однак вони також займають значний обсяг пам’яті, збільшуючи розмір кешу ключ-значення та обмежуючи ефективність моделей.

Щоб зробити моделі менші та ефективніші, розробники часто використовують методи квантування, щоб зменшити точність цих векторів. TurboQuant розвиває цю концепцію ще далі, представляючи новий алгоритм стиснення, який може зменшувати кеш-пам’ять «ключ-значення» до 6 разів без шкоди для точності мовної моделі.
Цей прорив має значні наслідки для майбутнього ШІ. Оскільки LLM продовжує зростати в розмірі та складності, здатність значно зменшити обсяг пам’яті може відкрити нові межі продуктивності штучного інтелекту, зробивши його більш доступним і масштабованим для широкого спектру програм.

Алгоритм TurboQuant працює шляхом інтелектуального стиснення кешу ключ-значення, використовуючи передові методи для збереження важливої інформації, одночасно різко зменшуючи загальні вимоги до пам’яті. Ця інновація не тільки підвищує ефективність моделей, але й прокладає шлях до більш потужних і доступних рішень на основі штучного інтелекту в майбутньому.
Оскільки попит на високопродуктивний штучний інтелект з ефективним використанням пам’яті продовжує зростати, TurboQuant від Google виділяється як новаторський внесок, який може змінити ландшафт генеративного штучного інтелекту та не тільки.
Джерело: Ars Technica


