Автономная навигация мобильных роботов в людных местах улучшается с использованием людей в качестве сенсоров

Группа исследователей из Университета Иллинойса в Урбане-Шампейне и Стэнфордского университета под руководством профессора Кэти Дриггс-Кэмпбелл недавно разработала новый метод обучения, основанный на глубоком подкреплении, который может улучшить способность мобильных роботов безопасно перемещаться в людных местах. Их метод, представленный в статье, предварительно опубликованной на arXiv, основан на идее использования людей в окружении робота в качестве индикаторов потенциальных препятствий.

«Наша статья основана на исследовательском направлении «люди как датчики» для картирования при наличии окклюзии», — сказала TechXplore Маша Иткина, один из исследователей, проводивших исследование. «Ключевой вывод заключается в том, что мы можем делать пространственные выводы об окружающей среде, наблюдая за интерактивным человеческим поведением, таким образом рассматривая людей как датчики. Например, если мы наблюдаем, как водитель резко тормозит, мы можем сделать вывод, что пешеход мог выбежать на дорогу. перед этим водителем».

Идея использования людей и их интерактивного поведения для оценки наличия или отсутствия закрытых препятствий была впервые предложена Афолаби и его коллегами в 2018 году, особенно в контексте беспилотных транспортных средств. В своей предыдущей работе Иткина и ее коллеги основывались на усилиях этой группы, обобщая идею «люди как датчики», так что она учитывала несколько наблюдаемых человеческих водителей вместо одного водителя (как это рассматривается в подходе команды Афолаби).

Для этого они разработали «сенсорную» модель для всех водителей в окружении автономного транспортного средства . Каждая из этих моделей сопоставила траекторию движения водителя с сеткой занятости окружающей среды перед водителем. Впоследствии эти оценки занятости были включены в карту автономного робота с использованием методов объединения датчиков.

«В нашей недавней статье мы замыкаем петлю, рассматривая вывод о окклюзии в рамках конвейера обучения с подкреплением», — сказала Иткина. «Наша цель состояла в том, чтобы продемонстрировать, что вывод окклюзии полезен для планировщика нисходящего пути, особенно когда пространственное представление учитывает задачи. Для достижения этой цели мы построили сквозную архитектуру, которая одновременно учится выводить окклюзии и выводить. политика, которая успешно и безопасно достигает цели».

Большинство ранее разработанных моделей, рассматривающих людей как датчики, специально разработаны для использования в городских условиях , чтобы повысить безопасность автономных транспортных средств. Новая модель, с другой стороны, была разработана для улучшения способности мобильного робота ориентироваться в толпе людей.

Задачи навигации в толпе, как правило, сложнее, чем задачи вождения в городе для автономных систем, поскольку поведение человека в толпе менее структурировано и, следовательно, более непредсказуемо. Исследователи решили решить эти задачи, используя модель глубокого обучения с подкреплением, интегрированную со скрытым пространством с учетом окклюзии, изученным вариационным автоэнкодером (VAE).

«Сначала мы представляем окружающую среду, окружающую робота, на карте локальной сетки занятости, очень похожей на вид с высоты птичьего полета или изображение препятствий вокруг робота сверху вниз», — сказал TechXplore Е-Джи Мун, первый автор этого исследования. «Эта карта сетки занятости позволяет нам фиксировать богатое интерактивное поведение в области сетки независимо от количества, размера и формы объектов и людей».

Модель исследователей включает в себя модуль вывода о окклюзии, который был обучен извлекать наблюдаемое социальное поведение, такое как замедление или поворот, чтобы избежать столкновений, из собранных последовательностей входных данных карты. Впоследствии он использует эту информацию, чтобы предсказать, где могут быть расположены закрытые объекты или агенты, и кодирует эту «расширенную информацию о восприятии» в низкоразмерное скрытое представление, используя архитектуру VAE.

«Поскольку наш модуль вывода об окклюзии обеспечивает лишь частичное наблюдение за окружающими агентами-людьми, у нас также есть модель супервизора, чей скрытый вектор кодирует пространственное положение как наблюдаемых, так и скрытых агентов-людей во время обучения», — пояснил Мун. «Сопоставляя скрытое пространство нашего модуля окклюзии с пространством модели супервизора, мы увеличиваем информацию о восприятии, связывая наблюдаемое социальное поведение с пространственным расположением окклюзированных человеческих агентов».

Полученное скрытое представление с учетом окклюзии в конечном итоге передается в систему глубокого обучения с подкреплением, которая побуждает робота активно избегать столкновений при выполнении своей миссии. Иткина, Мун и их коллеги протестировали свою модель в серии экспериментов как в смоделированной среде, так и в реальном мире, используя мобильного робота Turtlebot 2i.

«Мы успешно реализовали концепцию «люди как датчики», чтобы усилить ограниченное восприятие робота и обеспечить навигацию в толпе с учетом окклюзии», — сказал Мун. «Мы продемонстрировали, что наша политика с учетом окклюзии обеспечивает гораздо лучшую производительность навигации (то есть лучшее предотвращение столкновений и более плавные пути навигации), чем навигация с ограниченным обзором, и сравнима с навигацией с всесторонним обзором. Насколько нам известно, эта работа первый, кто использовал вывод о социальной окклюзии для навигации в толпе».

В своих тестах Иткина, Мун и их коллеги также обнаружили, что их модель генерирует несовершенные карты, которые не содержат точного местоположения как наблюдаемых агентов, так и предполагаемых агентов. Вместо этого их модуль учится сосредотачиваться на оценке местоположения ближайших «критических агентов», которые могут быть скрыты и могут блокировать путь робота к желаемому местоположению.

«Этот результат означает, что полная карта не обязательно является лучшей картой для навигации в частично наблюдаемой, многолюдной среде, но более важно сосредоточиться на нескольких потенциально опасных агентах», — сказал Мун.

Первоначальные результаты, полученные этой группой исследователей, очень многообещающие, поскольку они подчеркивают потенциал их метода для уменьшения столкновений робота с препятствиями в людных местах. В будущем их модель может быть реализована как на существующих, так и на недавно разработанных мобильных роботах, предназначенных для навигации по торговым центрам, аэропортам, офисам и другим многолюдным местам.

«Основной мотивацией для этой работы было уловить человеческую интуицию при навигации вокруг людей, особенно в закрытых условиях», — добавила Иткина. «Мы надеемся углубиться в понимание человеческих идей, чтобы улучшить возможности роботов. В частности, нас интересует, как мы можем одновременно делать прогнозы для окружающей среды и делать выводы об окклюзиях, поскольку входные данные для обеих задач включают исторические наблюдения за поведением человека. Мы также думаем о том, как эти идеи могут быть перенесены в различные условия, такие как склад и вспомогательная робототехника».