Непрерывное приобретение навыков у роботов: новая структура имитирует непрерывное обучение человека

Прочитано: 84 раз(а)


Известно, что люди накапливают знания с течением времени, что в свою очередь позволяет им постоянно совершенствовать свои способности и навыки. Эту способность, известную как непрерывное обучение, до сих пор было трудно воспроизвести в системах искусственного интеллекта (ИИ) и робототехники.

Исследовательская группа Мюнхенского технического университета и Нанкинского университета под руководством профессора Алоиса Кнолля и доктора Чжэньшаня Бина разработала LEGION — новую структуру обучения с подкреплением, которая может оснастить роботизированные системы возможностями непрерывного обучения.

Предложенная ими структура, представленная в статье в журнале Nature Machine Intelligence , может помочь повысить адаптивность роботов, а также улучшить их производительность в реальных условиях.

«Наше исследование началось в 2021 году в рамках проекта по роботизированному метаподкрепляющему обучению, в рамках которого мы изначально изучали модели гауссовых смесей (GMM) в качестве априорных данных для вывода задач и кластеризации знаний», — рассказал Юань Мэн, первый автор статьи, изданию Tech Xplore.

«Хотя этот подход дал многообещающие результаты , мы столкнулись с ограничением — GMM требуют предопределенного количества кластеров, что делает их непригодными для сценариев непрерывного обучения, где количество задач изначально неизвестно и меняется асинхронно.

«Чтобы решить эту проблему, мы обратились к байесовским непараметрическим моделям, в частности к моделям смесей процессов Дирихле (DPMM), которые могут динамически корректировать количество кластеров на основе входящих данных о задачах».

Используя класс моделей, известных как DPMM, фреймворк LEGION позволяет алгоритмам, обученным с помощью обучения с подкреплением, непрерывно приобретать, сохранять и повторно применять знания в изменяющемся потоке задач. Исследователи надеются, что этот новый фреймворк поможет улучшить обучающие способности агентов ИИ, приблизив их на один шаг к непрерывному обучению, наблюдаемому у людей.

«Система LEGION разработана для имитации непрерывного обучения человека, позволяя роботу постоянно осваивать новые задачи, сохраняя и повторно используя ранее полученные знания», — пояснил Мэн.

«Его ключевой вклад — непараметрическое пространство знаний на основе DPMM, которое динамически определяет, как структурированы знания, не требуя предопределенного количества кластеров задач. Это предотвращает катастрофическое забывание и обеспечивает гибкую адаптацию к новым, невиданным задачам».

Новая структура, представленная Менгом, профессором Кноллем, доктором Бингом и их коллегами, интегрирует языковые вставки, которые кодируются из предварительно обученной большой языковой модели (LLM). Эта интеграция в конечном итоге позволяет роботам обрабатывать и понимать инструкции пользователя, интерпретируя эти инструкции независимо от демонстраций задач.

«Более того, наша структура облегчает рекомбинацию знаний, то есть робот может решать долгосрочные задачи, такие как уборка стола, путем разумной последовательности ранее изученных навыков, таких как толкание предметов, открытие ящиков или нажатие кнопок», — сказал Мэн.

«В отличие от традиционного имитационного обучения, которое опирается на предопределенные последовательности выполнения, LEGION допускает гибкое сочетание навыков в любом требуемом порядке, что приводит к большему обобщению и гибкости в реальных робототехнических приложениях».

Исследователи оценили свой подход в серии начальных тестов, применив его к реальной роботизированной системе. Их результаты были весьма многообещающими, поскольку фреймворк LEGION позволил роботу последовательно накапливать знания из непрерывного потока задач.

«Мы продемонстрировали, что непараметрические байесовские модели, в частности DPMM, могут служить эффективными предварительными знаниями для роботизированного непрерывного обучения», — сказал Мэн. «В отличие от традиционного многозадачного обучения, где все задачи изучаются одновременно, наша структура может динамически адаптироваться к потоку задач с неизвестным числом, сохраняя и рекомбинируя знания для улучшения производительности с течением времени».

Недавняя работа Мэн, профессора Кнолля, доктора Бинга и их коллег может дать информацию для будущих усилий, направленных на разработку роботов, которые могут непрерывно приобретать знания и совершенствовать свои навыки с течением времени. Структура LEGION может быть улучшена и применена к широкому спектру роботов, включая сервисных роботов и промышленных роботов.

«Например, робот, размещенный в домашней среде , может со временем научиться выполнять домашние дела, совершенствуя свои навыки на основе отзывов пользователей и адаптируясь к новым задачам по мере их возникновения», — сказал Мэн. «Точно так же и в промышленных условиях роботы могут постепенно обучаться и адаптироваться к меняющимся производственным линиям, не требуя масштабного перепрограммирования».

В своих следующих исследованиях ученые планируют работать над дальнейшим улучшением компромисса между стабильностью и пластичностью в непрерывном обучении, поскольку это позволит роботам надежно сохранять знания с течением времени, а также адаптироваться к новым средам или задачам. Для этого они будут интегрировать различные вычислительные методы, включая генеративное воспроизведение и непрерывное обратное распространение.

«Еще одним ключевым направлением будущих исследований станет кроссплатформенная передача знаний, когда робот сможет передавать и адаптировать полученные знания в различных воплощениях, таких как человекоподобные роботы, роботизированные руки и мобильные платформы», — добавил Мэн.

«Мы также стремимся расширить возможности LEGION за пределы структурированных сред, позволяя роботам справляться с неструктурированными, динамичными реальными условиями с разнообразными расположениями объектов. Наконец, мы планируем использовать LLM для адаптации вознаграждения в реальном времени, что позволит роботам динамически уточнять цели своих задач на основе вербальной или контекстной обратной связи».

Непрерывное приобретение навыков у роботов: новая структура имитирует непрерывное обучение человека



Новости партнеров