За последнее десятилетие или около того робототехники разработали множество передовых систем, однако большинство из этих систем по-прежнему требуют определенной степени контроля со стороны человека. В идеале будущие роботы должны исследовать неизвестные среды автономно и независимо, постоянно собирая данные и извлекая уроки из этих данных.
Исследователи из Университета Карнеги-Меллона недавно создали ALAN , робота-агента, который может автономно исследовать незнакомую среду. Было обнаружено , что этот робот, представленный в статье, предварительно опубликованной на arXiv и представленной на Международной конференции робототехники и автоматизации (ICRA 2023), успешно выполняет задачи в реальном мире после нескольких исследовательских испытаний.
«Мы были заинтересованы в создании ИИ, который обучается, ставя перед собой собственные цели», — сказал Tech Xplore Рассел Мендонка, один из исследователей, проводивших исследование. «Не полагаясь на надзор или руководство со стороны людей, такие агенты могут продолжать учиться в новых сценариях, руководствуясь собственным любопытством. Это позволит постоянно обобщать различные области и обнаруживать все более сложное поведение».
Группа робототехники в Университете Карнеги-Меллона уже представила несколько автономных агентов, которые могли хорошо справляться с новыми задачами практически без дополнительной подготовки, включая модель, обученную играть в видеоигру Марио, и систему, которая могла выполнять многоэтапные задачи манипулирования объектами. Однако эти системы были обучены и протестированы только в смоделированных условиях.
Ключевой целью недавнего исследования команды было создание основы, которую можно было бы применить к физическим роботам в мире, улучшая их способность исследовать свое окружение и выполнять новые задачи. ALAN, созданная ими система, учится исследовать свою среду автономно, не получая вознаграждения или указаний от агентов-людей. Впоследствии он может перепрофилировать то, чему научился в прошлом, для решения новых задач или проблем.
«ALAN изучает модель мира, в которой планирует свои действия, и направляет себя, используя цели, ориентированные на окружающую среду и агента», — объяснил Мендонка. «Он также уменьшает рабочее пространство до области интереса, используя стандартные предварительно обученные детекторы. После исследования робот может совмещать обнаруженные навыки для выполнения одноэтапных и многоэтапных задач, указанных с помощью целевых изображений».
Робот исследователей оснащен визуальным модулем, который может оценивать движения объектов в своем окружении. Затем этот модуль использует эти оценки того, как объекты перемещались, чтобы максимизировать изменение объектов и побуждать робота взаимодействовать с этими объектами.
«Это сигнал, ориентированный на окружающую среду, поскольку он не зависит от убеждений агента», — сказал Мендонка. «Чтобы улучшить свою оценку изменения в объектах, ALAN должен проявлять любопытство к этому. Для этого ALAN использует свою изученную модель мира для определения действий, в которых нет уверенности в прогнозируемом изменении объекта, а затем выполняет их в реальном времени. Этот ориентированный на агента сигнал развивается по мере того, как робот получает больше данных».
Ранее предложенные подходы к исследованию автономных роботов требовали больших объемов обучающих данных. Это предотвращает или существенно ограничивает их применение на реальных роботах. Напротив, подход к обучению, предложенный Мендонкой и его коллегами, позволяет роботу ALAN непрерывно и автономно учиться выполнять задачи, исследуя свое окружение.
«Мы показываем, что ALAN может научиться манипулировать объектами, используя всего около 100 траекторий, за 1–2 часа на двух разных игровых кухнях без каких-либо вознаграждений», — сказал Мендонка. «Следовательно, использование визуальных априорных данных может значительно повысить эффективность обучения роботов. Увеличенные версии этой системы, работающие в режиме 24/7, смогут постоянно приобретать новые полезные навыки с минимальным вмешательством человека в различных областях, что приближает нас к общему интеллектуальных роботов».
При первоначальных оценках робот команды показал себя на удивление хорошо, поскольку он смог быстро научиться выполнять новые манипуляционные задачи без какого-либо обучения или помощи со стороны агентов-людей. В будущем ALAN и лежащая в его основе структура могут проложить путь к созданию более эффективных автономных роботизированных систем для исследования окружающей среды.
«Далее мы хотим изучить, как использовать другие априорные данные, чтобы помочь структурировать поведение робота, например видео людей, выполняющих задачи, и языковые описания», — добавил Мендонка. «Системы, которые могут эффективно использовать эти данные, смогут лучше работать автономно, работая в структурированных пространствах. Кроме того, нас интересуют системы с несколькими роботами , которые могут объединять свой опыт для постоянного обучения».