Большие модели последовательностей для последовательного принятия решений

Архитектуры трансформаторов облегчили разработку крупномасштабных и универсальных моделей последовательностей для задач прогнозирования в области обработки естественного языка и компьютерного зрения, например GPT-3 и Swin Transformer.

Хотя изначально они были предназначены для задач прогнозирования, естественно задаться вопросом об их пригодности в другой важной области — задачах последовательного принятия решений и обучения с подкреплением, которые обычно осложняются давними проблемами, связанными с эффективностью выборки, присвоением кредитов, частичной наблюдаемостью и т. д. .

В последние годы модели последовательностей, особенно Трансформер, вызывают растущий интерес в сообществах RL, порождая многочисленные подходы с заметной эффективностью и возможностью обобщения.

Чтобы стимулировать дальнейшее изучение этой актуальной темы и расширить возможности реальных приложений, например робототехники, автоматических транспортных средств и автоматизированной промышленности. , исследовательская группа под руководством Мунин Вэня опубликовала свой опрос в журнале Frontiers of Computer Science.

В опросе представлен всесторонний обзор недавних работ, направленных на решение задач последовательного принятия решений с помощью моделей последовательностей, таких как Трансформатор, путем обсуждения связь между последовательным принятием решений и моделированием последовательностей, а также их категоризация в зависимости от того, как они используют Трансформатор.

Эти работы предполагают возможность создания большой модели решений для общих целей, то есть большой модели последовательности, которая может использовать обширный количество параметров для выполнения сотен или более последовательных задач принятия решений, аналогично тому, как большие модели последовательностей используются для НЛП и CV.

Чтобы изучить развитие Трансформера в области последовательного принятия решений, авторы обобщили недавние работы, которые преобразуют проблему обучения с подкреплением в последовательную форму, чтобы использовать модели последовательности для конкретных настроек обучения с подкреплением.

Авторы’ Сводные методы используют разнообразные данные для предварительного обучения крупномасштабной модели последовательности для различных последующих задач последовательного принятия решений, вдохновленных огромным успехом НЛП и CV.

Команда выдвигает различные потенциальные направления будущих исследований, направленных на повышение эффективности моделей больших последовательностей для последовательного принятия решений, включая , сетевые архитектуры, алгоритмы и эффективные системы обучения. Они надеются, что этот опрос может вдохновить на дальнейшее изучение этой актуальной темы.