Новый подход к воспроизведению движений человека и животных в роботах

В последние годы разработчики создали широкий спектр сложных роботов, которые могут работать в определенных условиях все более эффективно. Структура тела многих из этих систем вдохновлена природой, животными и людьми.

Хотя многие существующие роботы имеют тела, напоминающие тела людей или других видов животных, запрограммировать их так, чтобы они также двигались, как животные, которых они вдохновили, — не всегда простая задача. Это обычно влечет за собой разработку усовершенствованных контроллеров передвижения, что может потребовать значительных ресурсов и усилий разработчиков.

Исследователи из DeepMind недавно создали новую технику, которую можно использовать для эффективного обучения роботов воспроизведению движений людей или животных. Этот новый инструмент, представленный в статье, предварительно опубликованной на arXiv, вдохновлен предыдущей работой, в которой использовались данные, представляющие реальные движения человека и животных, собранные с использованием технологии захвата движения.

«Мы исследуем использование предварительных знаний о движениях человека и животных для изучения многоразовых навыков передвижения настоящих роботов с ногами», — написала команда DeepMind в своей статье. «Наш подход основан на предыдущей работе по имитации данных захвата движения человека или собаки (MoCap) для изучения модуля двигательных навыков. После изучения этот модуль навыков можно повторно использовать для сложных последующих задач».

Большая часть контроллеров движения роботов, разработанных в прошлом, имеют модульную конструкцию, в которой система разделена на разные части (т. е. модули), которые взаимодействуют друг с другом. Хотя некоторые из этих контроллеров достигли многообещающих результатов, их разработка часто требует значительных инженерных усилий. Кроме того, модульные конструкции обычно ориентированы на конкретные задачи, поэтому они плохо обобщаются для разных задач, ситуаций и сред.

В качестве альтернативы этим контроллерам некоторые исследователи предложили метод под названием «оптимизация траектории», который сочетает в себе планировщик движения с контроллером слежения. Эти подходы требуют меньше инженерных разработок, чем модульные контроллеры, но они часто требуют выполнения обширных вычислений и поэтому могут быть слишком медленными для применения в режиме реального времени.

В своей статье Стивен Бохез и его коллеги из DeepMind представили альтернативный подход к обучению гуманоидных и ножных роботов, чтобы они двигались способами, напоминающими стили передвижения людей и животных. Их метод обобщает двигательные навыки людей и животных на основе данных, собранных с помощью технологии захвата движения, а затем использует эти данные для обучения реальных роботов.

При разработке своего подхода команда прошла четыре основных этапа. Во-первых, они перенацелили данные захвата движения на реальных роботов. Впоследствии они обучили политику имитации желаемых траекторий движения в данных захвата движения в моделируемой среде.

«Эта политика имеет иерархическую структуру, в которой политика отслеживания кодирует желаемую эталонную траекторию в скрытое действие, которое впоследствии инструктирует низкоуровневый контроллер, обусловленный проприоцепцией», — пишут исследователи в своей статье.

После того, как они обучили эту политику имитации эталонных траекторий, исследователи смогли повторно использовать низкоуровневый контроллер с фиксированными параметрами, обучив новую политику задач для вывода скрытых действий. Это позволяет их контроллерам воспроизводить в роботах сложные движения человека или животных, например, ведение мяча. Наконец, Бохез и его коллеги перенесли разработанные ими контроллеры из симуляций в реальное оборудование.

«Важно, что из-за того, что данные MoCap имеют априорный характер, наш подход не требует обширной разработки вознаграждений для обеспечения разумного и естественного поведения во время повторного использования», — пишут исследователи в своей статье. «Это позволяет легко создавать хорошо регулируемые, ориентированные на задачи контроллеры, которые подходят для развертывания на реальных роботах».

На данный момент команда DeepMind оценила свой подход в серии экспериментов как в симуляции, так и в реальных условиях. В этих тестах они успешно использовали свою технику, чтобы обучить контроллера воспроизводить два основных поведения, а именно ходьбу и ведение мяча. Впоследствии они оценили качество движений, достигнутых с помощью их подхода, на двух реальных роботах: четвероногом роботе ANYmal и роботе-гуманоиде OP3.

Результаты, собранные Бохезом и его коллегами, очень многообещающи, предполагая, что их подход может помочь в разработке роботов, более реалистично имитирующих людей и животных. В своих следующих исследованиях они хотели бы обучить свою политику новому поведению животных и людей, а затем попытаться воспроизвести их на роботах.

«Мы хотим расширить наши наборы данных большим разнообразием поведения и дополнительно изучить ряд последующих задач, которые позволяет модуль навыков», — написали ученые в своей статье.