Представлен подход к улучшению навигации роботов в людных местах

Прочитано: 79 раз(а)


Хотя за последние несколько лет роботы становятся все более совершенными, большинство из них по-прежнему не могут надежно перемещаться в очень людных местах, таких как общественные места или дороги в городских условиях. Однако для крупномасштабного внедрения в умных городах будущего роботы должны будут иметь возможность надежно и безопасно перемещаться в этих средах, не сталкиваясь с людьми или близлежащими объектами.

Исследователи из Университета Сарагосы и Арагонского института инженерных исследований в Испании недавно предложили новый подход, основанный на машинном обучении, который может улучшить навигацию роботов как внутри, так и снаружи многолюдных помещений. Этот подход, представленный в статье, предварительно опубликованной на сервере arXiv, влечет за собой использование внутренних вознаграждений, которые, по сути, представляют собой «награды», которые агент ИИ получает за поведение, не связанное строго с задачей, которую он пытается выполнить.

«Автономная навигация роботов — это открытая нерешенная проблема, особенно в неструктурированных и динамических средах, где робот должен избегать столкновений с динамическими препятствиями и достигать цели», — сказал Tech Xplore Диего Мартинес Басельга, один из исследователей, проводивших исследование. . «Алгоритмы глубокого обучения с подкреплением доказали свою высокую эффективность с точки зрения успешности и времени достижения цели, но еще многое предстоит улучшить».

В методе, предложенном Мартинесом Басельгой и его коллегами, используются внутренние вознаграждения, предназначенные для повышения мотивации агента к исследованию новых «состояний» (т. е. взаимодействия с окружающей средой) или для снижения уровня неопределенности в заданном сценарии, чтобы агенты могли лучше прогнозировать последствия своих действий. В контексте своего исследования исследователи специально использовали эти награды, чтобы побудить роботов посещать неизвестные области в своей среде и исследовать ее различными способами, чтобы со временем они могли научиться более эффективно ориентироваться в ней.

Показатели обучения современного алгоритма по сравнению с тем же алгоритмом с ICM (внутренними вознаграждениями) поверх него. Предоставлено: Мартинес-Басельга, Риасуэло и Монтано.

«Большинство современных работ по глубокому обучению с подкреплением для навигации в толпе сосредоточены на улучшении сетей и обработке того, что чувствует робот», — сказал Мартинес Басельга. «Мой подход основан на том, как исследовать окружающую среду во время обучения, чтобы улучшить процесс обучения. Во время обучения, вместо того, чтобы пробовать случайные или оптимальные действия, робот пытается делать то, что, по его мнению, может чему-то научить».

Мартинес Басельга и его коллеги оценили потенциал использования внутренних вознаграждений для навигации роботов в людных местах, используя два разных подхода. Первый из них объединяет так называемый «внутренний модуль любопытства» (ICM), а второй основан на серии алгоритмов, известных как случайные кодировщики для эффективного исследования (RE3).

Исследователи оценили эти модели в серии симуляций, которые проводились на симуляторе CrowdNav . Они обнаружили, что оба предложенных ими подхода, объединяющих внутренние вознаграждения, превзошли разработанные ранее передовые методы навигации роботов в людных местах.

В будущем это исследование может побудить других робототехников использовать внутренние вознаграждения при обучении своих роботов, чтобы улучшить их способность справляться с непредвиденными обстоятельствами и безопасно перемещаться в высокодинамичных средах. Кроме того, две модели, основанные на внутренних вознаграждениях, протестированные Мартинесом Басельгой и его коллегами, вскоре могут быть интегрированы и протестированы на реальных роботах для дальнейшего подтверждения их потенциала.

«Результаты показывают, что, применяя эти интеллектуальные стратегии исследования, робот учится быстрее, а окончательная усвоенная политика лучше; и что их можно применять в дополнение к существующим алгоритмам для их улучшения», — добавил Мартинес Басельга. «В своих следующих исследованиях я планирую улучшить глубокое обучение с подкреплением в навигации роботов , чтобы сделать его более безопасным и надежным, что очень важно для его использования в реальном мире».

Представлен подход к улучшению навигации роботов в людных местах



Новости партнеров