Для успешного использования в реальных условиях роботы должны быть способны надежно выполнять различные повседневные задачи, начиная от домашних дел и заканчивая промышленными процессами. Некоторые из задач, которые они могли бы выполнять, включают манипуляции с тканями, например, складывание одежды для размещения ее в шкафу или помощь пожилым людям с нарушениями подвижности в завязывании галстуков перед общественным мероприятием.
Разработка роботов, которые могут эффективно решать эти задачи, до сих пор оказалась довольно сложной задачей. Многие предлагаемые подходы к обучению роботов задачам манипуляции тканью основаны на имитационном обучении, технике обучения управлению роботом с использованием видео, кадров захвата движения и других данных людей, выполняющих интересующие их задачи.
Хотя некоторые из этих методов достигли обнадеживающих результатов, для хорошей работы им обычно требуются значительные объемы демонстрационных данных человека. Эти данные могут быть дорогими и сложными для сбора, в то время как существующие наборы данных с открытым исходным кодом не всегда содержат столько данных, сколько для обучения других вычислительных методов, таких как компьютерное зрение или генеративные модели ИИ.
Исследователи из Национального университета Сингапура, Шанхайского университета Цзяо Тун и Нанкинского университета недавно представили альтернативный подход, который может улучшить и упростить обучение алгоритмов робототехники с помощью человеческих демонстраций. Этот подход, изложенный в статье, предварительно опубликованной на arXiv , разработан для использования некоторых из множества видео, которые ежедневно публикуются в сети, в качестве человеческих демонстраций повседневных задач.
«Эта работа начинается с простой идеи — создания системы, которая позволяет роботам использовать бесчисленные демонстрационные видеоролики с участием людей в Интернете для изучения сложных навыков манипуляции», — рассказал Tech Xplore соавтор статьи Вэйкунь Пэн. «Другими словами, имея произвольное демонстрационное видео с участием людей, мы хотели, чтобы робот выполнил ту же задачу, что и в видеоролике».
Хотя в предыдущих исследованиях также были представлены методы имитационного обучения, в которых использовались видеоматериалы, в них использовались видеоролики, специфичные для определенной области (то есть видеоролики, на которых люди выполняют определенные задачи в той же среде, в которой робот впоследствии будет выполнять эту задачу), а не произвольные видеоролики, собранные в любой среде или обстановке.
С другой стороны, структура, разработанная Пэном и его коллегами, предназначена для имитационного обучения роботов с использованием произвольных демонстрационных видеороликов, найденных в Интернете.
Подход команды состоит из трех основных компонентов, названных Real2Sim, Learn@Sim и Sim2Real. Первый из этих компонентов является центральной и наиболее важной частью фреймворка.
«Real2Sim отслеживает движение объекта в демонстрационном видео и воспроизводит то же движение на сетчатой модели в симуляции», — пояснил Пэн. «Другими словами, мы пытаемся воспроизвести человеческую демонстрацию в симуляции. В итоге мы получаем последовательность сеток объектов, представляющих траекторию истинного объекта».
Подход исследователей использует сетки (т. е. точные цифровые представления геометрии, формы и динамики объекта) в качестве промежуточных представлений. После того, как компонент Real2Sim воспроизводит человеческую демонстрацию в смоделированной среде, второй компонент фреймворка, названный Learn@Sim, изучает точки захвата и точки размещения, которые позволят роботу выполнять те же действия посредством обучения с подкреплением.
«После обучения захвату точек и размещению точек в симуляции мы развернули политику на реальном роботе с двумя руками, что является третьим шагом нашего конвейера (т. е. Sim2Real)», — сказал Пэн. «Мы обучили остаточную политику для смягчения разрыва Sim2Real».
Исследователи оценили свой предложенный подход в серии тестов, уделив особое внимание задаче завязывания галстука. Хотя эта задача может быть чрезвычайно сложной для роботов, подход команды позволил роботизированному манипулятору успешно ее выполнить.
«Примечательно, что многие предыдущие работы требуют демонстрационных видеороликов «в домене», что означает, что настройки демонстрационных видеороликов должны быть такими же, как настройки среды выполнения робота», — сказал Пэн. «Наш метод, с другой стороны, может учиться на демонстрационных видеороликах «вне домена», поскольку мы извлекаем движение объекта в трехмерном пространстве из демонстрационного видеоролика».
В будущем новый подход, представленный Пэном и его коллегами, может быть применен к другим сложным и трудным задачам манипуляции роботами. В конечном итоге, он может облегчить обучение роботов посредством имитационного обучения, потенциально позволяя им достичь новых успехов в своих навыках.
«Мой план на будущее — расширить идею Real-Sim-Real для других задач», — добавил Пэн.
«Если мы можем воспроизвести движение объекта в симуляции, можем ли мы воспроизвести реальный мир в симуляции? Сообщество робототехники сталкивается с проблемой нехватки данных, и, по моему мнению, если мы сможем воспроизвести реальный мир в симуляции, мы сможем собирать данные более эффективно и лучше переносить изученную политику на реальных роботов».