Публичный выпуск ChatGPT и других больших языковых моделей (LLM) позволил разработчикам по всему миру начать экспериментировать с этими моделями для расширения интерактивных возможностей своих собственных систем. Однако подобных обобщающих моделей роботизированных манипуляций по-прежнему мало.
Исследователи из Калифорнийского университета в Беркли (UC Berkeley), Стэнфордского университета и CMU недавно представили Octo, универсальную модель роботизированных манипуляций с открытым исходным кодом, которая может позволить различным роботизированным системам эффективно манипулировать широким спектром объектов. Эта модель, представленная в статье , предварительно опубликованной на сервере arXiv, может открыть новые возможности для разработки роботов, способных выполнять ручные задачи.
«Большая часть текущего прогресса в области ИИ обусловлена большими наборами данных и большими моделями», — рассказали Tech Xplore Дибия Гош, Гомер Уок, Карл Перч, Кевин Блэк и Ойер Мис. «В сообществе робототехники мы недавно собрали набор данных Open X-Embodiment , большой набор данных для манипуляций, объединяющий данные многих исследовательских институтов . Хотя этот новый набор данных является действительно интересным ресурсом, в то время существовало не так много моделей, которые могли бы создать использовать его еще».
Недавняя работа этой исследовательской группы преследовала две основные цели. Первая заключалась в разработке хорошей универсальной модели робототехники, которую можно было бы применить к различным роботам, а вторая заключалась в создании кода с открытым исходным кодом, который позволил бы другим исследователям создавать аналогичные модели в будущем.
«Octo — это то, что мы называем «универсальной» моделью робота , нейронной сетью , которая может управлять множеством различных типов роботов и заставлять их выполнять такие запросы, как «взять ложку», «закрыть ящик», «протереть стол» и т. д. », — объяснили Гош, Уок, Перч, Блэк и Мис.
«Ключевым моментом является быть универсалом и работать над множеством роботов, потому что, если вы посмотрите на исследовательские лаборатории по всему миру, многие из них используют разных роботов, поэтому единственный способ гарантировать, что Octo может использоваться многими исследователями, — это поддерживать широкий спектр роботы».
В сообществе технологических исследований и разработок высокопроизводительные вычислительные инструменты, которые можно применять в нескольких системах, часто называют основополагающими моделями. Примером таких моделей является ChatGPT, который можно использовать для оснащения различных агентов и систем возможностями обработки естественного языка (NLP).
«Мы хотим создать аналогичные базовые модели, но для управления роботами, или, другими словами, модели, которые смогут управлять множеством роботов и заставлять их решать множество различных задач», — сказали Гош, Уок, Перч, Блэк и Мис.
«Octo — это первый шаг к этой цели. Его обучение очень похоже на такие модели, как ChatGPT: мы курируем большой и разнообразный набор данных, в нашем случае данные робота вместо текста, и обучаем большую модель прогнозировать следующее действие, которое должен выполнить робот с учетом текущего состояния робота и инструкции задачи».
Octo, модель, разработанная Гошем, Уоком, Перчем, Блэком и Мисом, основана на нейронных сетях того же типа, что и ChatGPT, известных как трансформаторы. Ключевым преимуществом Octo перед другими ранее разработанными моделями робототехники является масштаб данных, используемых для его обучения, и их гибкость.
Модель была обучена на самом большом наборе данных о траекториях роботизированных манипуляций, собранных на сегодняшний день; набор данных Open X-Embodiment. Octo также может обрабатывать разнообразную сенсорную информацию, включая различные типы изображений, показания суставов робота, языковые инструкции, изображения, связанные с целью, и многое другое.
«Octo также может управлять множеством различных типов роботов-манипуляторов: от маленьких одиночных рук, которые едва могут поднять банку с газировкой, до более крупных и мощных роботов-манипуляторов и даже двуручных установок», — сказали Гош, Уок, Перч, Блэк и Мис. . «Эта гибкость делает Octo более применимым к разнообразным установкам, которые есть у робототехников по всему миру».
Исследователи оценили свою модель в серии первоначальных экспериментов, применив ее на девяти различных роботизированных системах, разработанных в Калифорнийском университете в Беркли, Стэнфорде и КМУ. Octo преуспела в управлении этими роботами и позволила им выполнять различные манипулирующие задачи даже в тех случаях, когда во время обучения он не сталкивался с данными, собранными датчиками этих роботов, или их уникальной конструкцией.
«Было действительно здорово увидеть, что мы можем взять нашу модель Octo и использовать ее для управления множеством разных роботов», — сказали исследователи. «С тех пор, как мы выпустили модель , мы увидели довольно много людей, которые пытались запустить ее на своих собственных роботах, и мы также использовали базу кода, которую мы создали для Octo, в наших следующих проектах. Это некоторые обнадеживающие признаки того, что Octo действительно поможет развитию следующее поколение улучшенных моделей фундаментов для робототехники».
Для исследователей разработка Octo была лишь небольшой вехой на пути к их цели — созданию универсальной модели роботизированных манипуляций. В своих следующих исследованиях они планируют продолжить работу над этой целью и надеются, что исследовательские группы в других институтах также начнут экспериментировать с их кодом.
«Прямо сейчас есть вероятность, что модель не будет работать на вашем роботе из коробки, и вам нужно собрать несколько примеров задачи, которую вы хотите, чтобы ваш робот решил, чтобы обучить ей Octo, даже если это обыденная задача.
«То есть способность текущей модели к обобщению все еще довольно ограничена, и мы работаем над новыми моделями, которые продвинут это немного дальше. Мы еще не дошли до того момента, когда вы можете просто загрузить модель на свой компьютер, скажите своему роботу, что вы от него хотите, и он добьется успеха в 9 случаях из 10, но мы работаем над достижением этой цели».