Уменьшение объема памяти, используемой искусственным интеллектом, повышает точность

Исследователи разработали новый способ сжатия памяти, используемой моделями искусственного интеллекта, для повышения их точности в сложных задачах или для существенной экономии энергии.

Эксперты из Эдинбургского университета и NVIDIA обнаружили, что большие языковые модели (LLM), использующие в восемь раз меньший объем памяти, чем несжатые LLM, показали лучшие результаты в тестах по математике, естественным наукам и программированию, затрачивая при этом одинаковое количество времени на рассуждения.

Этот метод можно использовать в качестве альтернативного способа, чтобы помочь программистам обрабатывать больше запросов пользователей одновременно, снижая потребность в вычислительных ресурсах для каждой задачи.

Помимо экономии энергии, эксперты говорят, что эти улучшения могут принести пользу системам искусственного интеллекта, используемым для решения сложных задач, или устройствам с медленной или ограниченной памятью, таким как устройства для умного дома и носимые технологии.

Как сжатие памяти улучшает ИИ

«Размышляя» над более сложными гипотезами или исследуя одновременно больше гипотез, модели ИИ улучшают свои способности к решению проблем. На практике это достигается путем генерации большего количества логических рассуждений — пошагового логического процесса, используемого для решения проблем, — в текстовой форме.

Память модели — так называемый KV-кэш — в которой хранятся части сгенерированных потоков, может выступать в качестве узкого места, поскольку ее размер замедляет генерацию выходных данных потоков рассуждений во время вывода — процесса, в ходе которого модели ИИ реагируют на входной запрос, например, отвечают на запрос пользователя.

Чем больше потоков и чем длиннее они, тем больше памяти требуется. Чем больше объем используемой памяти, тем дольше LLM загружает данные из кэша ключ-значение (KV) из той части устройства ИИ, где они хранятся.

Представляем динамическое разреживание памяти

Для решения этой проблемы команда разработала метод сжатия памяти моделей, получивший название динамического разреживания памяти (DMS). Вместо того чтобы хранить каждый токен — единицу данных, обрабатываемую моделью ИИ, — DMS определяет, какие из них достаточно важны для сохранения, а какие можно удалить.

Между моментом принятия решения об удалении токенов с использованием разреженности и моментом их удаления существует небольшая задержка. Это дает модели возможность передать любую ценную информацию от удаленных токенов к сохраненным.

При управлении тем, какие токены следует сохранять, а какие отбрасывать, DMS позволяет модели ИИ «думать» глубже или исследовать больше возможных решений без необходимости дополнительных вычислительных мощностей.

Тестирование и результаты нового метода

Исследователи протестировали DMS на различных версиях моделей искусственного интеллекта Llama и Qwen и сравнили их производительность с моделями без сжатия.

Производительность моделей оценивалась с помощью стандартизированных тестов. Было обнаружено, что даже при сжатии памяти до одной восьмой от ее первоначального размера, модели LLM полностью сохраняют свою первоначальную точность в сложных задачах, ускоряя при этом процесс рассуждения по сравнению с несжатыми моделями.

В стандартизированном математическом тесте AIME 24, который служил отборочным этапом для математической олимпиады США, сжатые модели показали в среднем на двенадцать баллов лучшие результаты, используя то же количество обращений к кэшу ключ-значение для получения ответа.

В случае с GPQA Diamond — серией сложных вопросов по биологии, химии и физике, составленной экспертами с докторской степенью, — модели показали результаты более чем на восемь пунктов лучше.

Модели также были протестированы с помощью LiveCode Bench, который измеряет, насколько хорошо модели ИИ умеют писать код. Сжатые модели показали в среднем на десять баллов лучшие результаты, чем несжатые модели.

Перспективы на будущее

Результаты этой работы были представлены на конференции NeurIPS.

Доктор Эдоардо Понти, стипендиат GAIL и преподаватель обработки естественного языка в Школе информатики университета, сказал: «В двух словах, наши модели могут рассуждать быстрее, но с тем же качеством. Следовательно, при эквивалентном временном затрате на рассуждения они могут исследовать больше и более длинные цепочки рассуждений. Это улучшает их способность решать сложные задачи в математике, науке и программировании».

Доктор Понти и его команда продолжат исследовать способы представления и запоминания информации крупными системами искусственного интеллекта, что позволит сделать их гораздо более эффективными и устойчивыми.