Разрабатывается быстрый и точный способ обучения роботов сложным навыкам

Прочитано: 105 раз(а)


В Калифорнийском университете в Беркли исследователи из Лаборатории робототехнического искусственного интеллекта и обучения Сергея Левина обратили внимание на стол, на котором стояла башня из 39 идеально сложенных блоков Jenga. Затем бело-черный робот, чья единственная конечность согнулась пополам, как у сгорбленного жирафа, устремился к башне, размахивая черным кожаным хлыстом.

Случайному наблюдателю это могло показаться чудом физики: кнут ударил точно в нужное место, выбив один блок из штабеля, в то время как остальная часть башни осталась целой.

Эта задача, известная как «взбивание дженги», — хобби, которым занимаются люди с ловкостью и рефлексами, чтобы справиться с ней. Теперь ее освоили роботы благодаря новому методу обучения на основе искусственного интеллекта.

Обучаясь на примерах и отзывах людей, а также на собственных реальных попытках, этот протокол обучения обучает роботов выполнять сложные задачи, такие как взбивание дженги, со 100%-ным успехом.

Более того, роботы обучаются с впечатляющей скоростью, что позволяет им за один-два часа научиться идеально собирать материнскую плату компьютера, делать полку и многое другое.

Подпитываемая ИИ, область обучения роботов стремилась решить проблему обучения машин непредсказуемым или сложным действиям, а не единичным действиям, таким как многократное поднятие объекта с определенного места на конвейерной ленте. Чтобы решить эту дилемму, лаборатория Левина сосредоточилась на том, что называется « обучением с подкреплением ».

Постдокторант Цзяньлань Ло объяснил, что при обучении с подкреплением робот пытается выполнить задачу в реальном мире и, используя обратную связь с камер, учится на своих ошибках, чтобы в конечном итоге овладеть этим навыком. Когда команда впервые анонсировала новый программный пакет, использующий этот подход в начале 2024 года, Ло сказал, что они были воодушевлены тем, что другие могут быстро повторить их успех, используя программное обеспечение с открытым исходным кодом самостоятельно.

Этой осенью исследовательская группа Левина, Ло, Чарльза Сю, Чжэюаня Ху и Джеффри Ву опубликовала технический отчет о своей последней системе, которая справилась с поркой Дженга. Эта новая и улучшенная версия дополнена человеческим вмешательством. Результаты также опубликованы на сервере препринтов arXiv .

С помощью специальной мыши, которая управляет роботом, человек может корректировать курс робота, и эти корректировки могут быть включены в пресловутый банк памяти робота. Используя метод ИИ, называемый обучением с подкреплением, робот анализирует сумму всех своих попыток — с помощью и без помощи, успешных и неудачных — чтобы лучше выполнить свою задачу.

Ло сказал, что человеку нужно было вмешиваться все меньше и меньше, поскольку робот учился на собственном опыте. «Мне нужно было нянчиться с роботом, может быть, первые 30% или около того, а затем постепенно я мог уделять ему меньше внимания», — сказал он.

Лаборатория подвергла свою роботизированную систему испытаниям, связанным со сложными задачами, выходящими за рамки взбивания дженги. Робот переворачивал яйцо на сковороде, передавал предмет из одной руки в другую и собирал материнскую плату, приборную панель автомобиля и ремень ГРМ. Исследователи выбрали эти задачи, потому что они были разнообразными и, по словам Луо, представляли собой «все виды неопределенности при выполнении роботизированных задач в сложном реальном мире».

Задача с ремнем синхронизации выделялась по сложности. Каждый раз, когда робот взаимодействовал с ремнем синхронизации (представьте себе попытку манипулировать гибкой цепочкой ожерелья на двух штифтах), ему нужно было предвидеть и реагировать на это изменение.

Дженга-хлыст — это другой тип испытания. Он включает физику, которую трудно моделировать, поэтому менее эффективно обучать робота, используя только симуляции; реальный опыт был критически важен.

Исследователи также проверили адаптивность роботов, инсценировав неудачи. Они заставляли захват открываться, чтобы он ронял объект, или перемещали материнскую плату, когда робот пытался установить микрочип, обучая его реагировать на меняющуюся ситуацию, с которой он мог столкнуться за пределами лабораторной среды.

К концу обучения робот мог выполнять эти задачи правильно в 100% случаев. Исследователи сравнили свои результаты с распространенным методом «копируй мое поведение», известным как поведенческое клонирование, который обучался на том же количестве демонстрационных данных; их новая система сделала роботов быстрее и точнее.

Эти показатели имеют решающее значение, сказал Луо, поскольку планка компетентности робота очень высока. Обычные потребители и промышленники не хотят покупать непоследовательного робота. Луо подчеркнул, что, в частности, «изготовленные на заказ» производственные процессы, такие как те, которые часто используются для электроники, автомобилей и аэрокосмических деталей, могут выиграть от роботов, которые могут надежно и адаптивно изучать ряд задач.

Когда робот впервые справился с испытанием по взбиванию дженги, «это меня действительно потрясло», сказал Ло. «Задание дженги очень сложно для большинства людей. Я пробовал его с кнутом в руке; у меня был 0% успеха». И даже если его сравнить с опытным человеком, взбивающим дженгу, робот, скорее всего, превзойдет человека, потому что у него нет мышц, которые со временем устают.

Новая система обучения лаборатории Левина является частью более широкой тенденции в области инноваций в робототехнике. За последние два года эта более крупная область развивалась семимильными шагами, подстегиваемая инвестициями в отрасль и ИИ, который дает инженерам мощные инструменты для анализа данных о производительности или входных изображений, которые может наблюдать робот. Профессора и исследователи Беркли являются частью этого подъема инноваций.

Левин стал соучредителем робототехнической компании Physical Intelligence (PI), которая в настоящее время оценивается в 2 миллиарда долларов за свой прогресс в создании программного обеспечения, которое может работать с различными роботами.

В 2018 году профессор Кен Голдберг и другие исследователи из Беркли основали компанию Ambi Robotics. Компания создает роботов, обучаемых с помощью моделирования на основе искусственного интеллекта, которые захватывают и сортируют посылки в различные контейнеры, что делает их незаменимыми для предприятий электронной коммерции.

Питер Аббель, директор Исследовательской лаборатории искусственного интеллекта в Беркли, стал соавтором стартапа робототехники ИИ Covariant, чьи модели — и мозговой трест — были привлечены Amazon в прошлом году. А Хомаюн Казеруни, профессор машиностроения, основал публичную компанию Ekso Bionics, которая производит роботизированные «экзоскелеты» для людей с ограниченной подвижностью.

Что касается исследования Ло, он с нетерпением ждет, куда его команда и другие исследователи смогут его продвинуть. По его словам, следующим шагом будет предварительное обучение системы базовым возможностям манипулирования объектами, что исключит необходимость изучать их с нуля и вместо этого перейдет сразу к приобретению более сложных навыков. Лаборатория также решила сделать свои исследования открытыми, чтобы другие исследователи могли использовать их и развивать.

«Главная цель этого проекта — сделать технологию такой же доступной и удобной для пользователя, как iPhone», — сказал Ло. «Я твердо верю, что чем больше людей смогут ею воспользоваться, тем большее влияние мы сможем оказать».

Разрабатывается быстрый и точный способ обучения роботов сложным навыкам



Новости партнеров