Робототехники все еще пытаются понять, как роботы могут эффективно учиться на своих ошибках.
Используя методику обучения, обычно используемую для обучения собак сидению и стоянию, исследователи показали роботу, как научить себя нескольким новым трюкам, включая складывание блоков.
С помощью этого метода робот по имени Спот мог за несколько дней изучить то, что обычно занимает месяц.
Используя позитивное подкрепление — подход, знакомый всем, кто использовал угощения для изменения поведения собаки, — команда значительно улучшила навыки роботов и сделала это достаточно быстро, чтобы сделать обучение роботов для реальной работы более осуществимым предприятием.
«Здесь вопрос заключался в том, как заставить робота изучить какой-то навык?» говорит ведущий автор Эндрю Хундт, аспирант, работающий в Лаборатории вычислительного взаимодействия и робототехники Университета Джонса Хопкинса. «У меня были собаки породы корги, поэтому я знаю, что вознаграждения работают, и это послужило вдохновением для того, как я разработал алгоритм обучения».
Исследование опубликовано в IEEE Robotics and Automation Letters .
Обучение робота обучению
В отличие от людей и животных, которые рождаются с интуитивно понятным мозгом, компьютеры — это чистый лист и должны учиться всему с нуля. Но настоящее обучение часто достигается методом проб и ошибок, и робототехники все еще пытаются понять, как роботы могут эффективно учиться на своих ошибках.
Команда достигла этого, разработав систему вознаграждения, которая работает для робота так же, как и для собаки корги. Если собака могла получить печенье за хорошо выполненную работу, робот зарабатывал числовые баллы.
Хундт вспомнил, как однажды он научил своего щенка терьер-микса по имени Лия команде «оставь это», чтобы она могла игнорировать белок на прогулке. Он использовал два вида угощений: обычные угощения для тренировок и что-нибудь получше, например, сыр.
Когда Лия была взволнована и обнюхивала угощения, она ничего не получила. Но когда она успокоилась и отвернулась, то получила хорошее. «Тогда я дал ей сыр и сказал:« Оставь его! Хорошая Лия! »
Точно так же, чтобы складывать блоки, Роботу Spot нужно было научиться концентрироваться на конструктивных действиях. По мере того, как робот исследовал блоки, он быстро понял, что правильное поведение для стекирования приносит высокие баллы, а неправильное — ничего. Протянуть руку, но не схватить блок? Нет очков. Опрокинуть стопку? Однозначно нет очков. Спот заработал больше всего, поместив последний блок поверх стека из четырех блоков.
Рекорд!
Тактика обучения не только сработала, но и потребовалось всего несколько дней, чтобы научить робота тому, что раньше занимало недели. Команда смогла сократить время практики, сначала обучив моделируемого робота, который очень похож на видеоигру, а затем запустив тесты с помощью Spot.
«Робот хочет получить более высокий балл», — говорит Хундт. «Он быстро учится правильному поведению, чтобы получить лучшее вознаграждение. Фактически, для достижения 100% точности роботу требовался месяц практики. Мы смогли сделать это за два дня ».
Положительное подкрепление не только помогло роботу научиться складывать блоки, но с помощью балльной системы робот так же быстро научился нескольким другим задачам — даже как играть в симулированную навигационную игру. Способность учиться на ошибках во всех типах ситуаций имеет решающее значение для разработки робота, который мог бы адаптироваться к новым условиям.
«Вначале робот понятия не имел, что делает, но с каждой тренировкой он будет становиться все лучше и лучше. Он никогда не сдается, пытается складываться и может выполнить задачу в 100% случаев », — говорит Хундт.
Команда считает, что эти результаты могут помочь обучить домашних роботов стирке и мытью посуды — задачам, которые могут быть популярны на открытом рынке и помочь пожилым людям жить самостоятельно. Это также может помочь в разработке улучшенных беспилотных автомобилей.
«Наша цель — в конечном итоге разработать роботов, которые могут выполнять сложные задачи в реальном мире, такие как сборка продукта, уход за пожилыми людьми и хирургия», — говорит соавтор Грегори Д. Хагер, профессор компьютерных наук.
«В настоящее время мы не знаем, как программировать подобные задачи — мир слишком сложен. Но подобная работа показывает нам перспективность идеи о том, что роботы могут научиться выполнять такие реальные задачи безопасным и эффективным способом », — говорит Хагер.