Модели ИИ учатся разделять задачи, сокращая время ожидания сложных подсказок

По мере того как большие языковые модели (LLM), такие как ChatGPT, продолжают совершенствоваться, ожидания пользователей от них продолжают расти, в том числе в отношении того, насколько быстро они могут реагировать на наши все более сложные запросы, запрашивающие ответы на все более сложные проблемы и задачи.

Традиционные LLM основаны на концепции «авторегрессивного декодирования», где каждый элемент («токен») в последовательности предсказывается на основе ранее сгенерированных выходных данных. Такой подход неизбежно приводит к задержкам при обработке более сложных подсказок, хотя исследователи пытались смягчить это с помощью проектов, более эффективно использующих параллелизм многоядерных компьютерных чипов. Например, спекулятивное декодирование использует быструю черновую модель для предложения токенов, которые затем параллельно проверяются более медленной, высококачественной моделью.

Новый класс методов вместо этого использует «семантическую независимость», выявляя синтаксические шаблоны, такие как пункты списка, и параллельно раскрывая каждый из них. Однако они опираются на вручную созданные синтаксические эвристики, которые нестабильны и часто дают сбои, когда ответы отклоняются от ожидаемых форматов.

Эти недостатки вдохновили исследователей из Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института (CSAIL) и Google использовать подход, основанный на обучении, для параллельного декодирования. Вместо того, чтобы полагаться на фиксированные правила, их метод обучает LLM распознавать семантическую независимость, то есть параллельно идентифицировать и декодировать семантически независимые фрагменты текста.

В частности, метод параллельной структурной аннотации (PASTA), разработанный командой CSAIL, позволяет магистрам права генерировать текст параллельно, значительно ускоряя время ответа . В отличие от предыдущих попыток, которые опирались на жёсткие, вручную запрограммированные правила для определения независимых текстовых сегментов, PASTA позволяет магистрам права изначально понимать и выражать эти возможности параллелизации в своих ответах.

Этот подход, называемый «обученным асинхронным декодированием», знаменует собой переход к обучению моделей самостоятельной стратегии параллельного декодирования. Результаты исследования опубликованы на сервере препринтов arXiv .

«Традиционные программы магистратуры права (LLM) подобны повару, готовящему лазанью в одиночку, шаг за шагом», — пояснил Тянь Цзинь, ведущий автор новой статьи по проекту, представленной на Международной конференции по машинному обучению ( ICML 2025 ) в Ванкувере. «PASTA учит повара понимать, когда разные части лазаньи можно готовить одновременно, например, смешивая подмножество ингредиентов, пока разогревается духовка, что значительно ускоряет процесс в целом».

Это нововведение устраняет фундаментальное узкое место в выводе LLM, где последовательный характер декодирования часто приводит к недоиспользованию оборудования и длительному ожиданию для пользователей. Современные LLM могут обрабатывать запросы пользователей за секунды или даже минуты, и PASTA стремится решить эту проблему задержек.

В основе PASTA лежат два основных компонента: PASTA-LANG, язык аннотаций, позволяющий LLM помечать семантически независимые части своих ответов, и интерпретатор, который использует эти теги для организации параллельного декодирования в процессе вывода. Как объясняет Джин, PASTA-LANG можно представить как набор инструкций, которые LLM пишет для себя, отмечая разделы своего вывода, которые можно обрабатывать одновременно. Затем интерпретатор считывает эти инструкции и управляет параллельной генерацией этих разделов.

Команда обучила LLM генерировать эти аннотации PASTA-LANG с помощью двухэтапного процесса тонкой настройки. Это обучение не только оптимизирует скорость декодирования, но и приблизительно сохраняет или даже улучшает качество генерируемых ответов. Такая двойная оптимизация — значительный шаг вперёд, поскольку она позволяет постоянно улучшать как скорость, так и качество по мере появления новых вычислительных ресурсов для обучения.

В экспериментах, проведённых с PASTA на используемом бенчмарке AlpacaEval, самораспараллеливающаяся модель команды продемонстрировала среднее геометрическое ускорение, достигающее почти 2x, при этом наблюдалось лишь незначительное изменение качества ответа (с прироста на 2% до снижения на 7%). Это означает, что пользователи могут ожидать почти вдвое более быстрых ответов без заметного снижения точности или согласованности.

«Было удивительно наблюдать, как LLM самостоятельно организует своё поведение во время вывода», — говорит Джин. «Было познавательно — и в каком-то смысле волшебно — наблюдать, как увеличение вычислительной мощности этих алгоритмов приводит к всё более сложному самоорганизованному поведению».

Исследование выявляет критически важную проблему в этой области: баланс скорости и качества. Предыдущие методы, такие как Skeleton-of-Thought (SoT) и APAR, пытались реализовать параллельное декодирование, находя вручную заданные синтаксические структуры, такие как маркированные списки или абзацы. Однако эти методы часто были негибкими и неточными, не выявляя возможности распараллеливания даже при незначительном отклонении ответов от ожидаемых закономерностей. Подход PASTA, основанный на обучении, напротив, предлагает более надёжное и масштабируемое решение.

«Речь идёт о том, чтобы дать LLM возможность более эффективно генерировать контент», — говорит Джин, аспирант CSAIL. «Вместо того, чтобы пытаться угадать, где он может работать параллельно, мы учим LLM самостоятельно выявлять эти возможности, на ходу».

Заглядывая в будущее, команда с оптимизмом смотрит на более широкие перспективы PASTA. Возможность значительного сокращения задержки декодирования LLM может привести к снижению требований к вычислительным ресурсам, сделав эти мощные модели ИИ более доступными для более широкого круга пользователей и приложений.

«По сути, мы разработали протокол для оптимизации LLM», — говорит Джин. «Повышая эффективность вывода LLM, PASTA может значительно сократить требования к вычислительным ресурсам и улучшить доступность LLM».