Полуавтономные и автономные роботы внедряются во все большем количестве реальных сред, в том числе в промышленных условиях. Промышленные роботы могут ускорить производство различных продуктов, помогая людям выполнять основные задачи и облегчая их рабочую нагрузку.
Двумя наиболее важными задачами в производстве являются захват объектов и сборка изделий, однако надежное решение этих задач с помощью роботизированных систем может оказаться сложной задачей. Одним из основных ограничений промышленных роботов для автоматизированных сборочных цепочек является то, что их необходимо тщательно программировать для решения конкретных задач (например, захвата и сборки определенных предметов), а их программирование для конкретного продукта может занять время.
Исследователи из Технологического университета Циндао недавно решили устранить это важное ограничение промышленных роботов, используя глубокое обучение с подкреплением. В их статье, опубликованной в Международном журнале передовых производственных технологий , представлены новые алгоритмы глубокого обучения, которые могут ускорить время, необходимое для обучения промышленных роботов новым задачам захвата и сборки.
«В этой статье предлагается основа, основанная на глубоком обучении с подкреплением , для автономного обучения навыкам хватания и сборки роботов», — написали в своей статье Чэнцзюнь Чен, Хао Чжан и их коллеги.
«Между тем, представлены алгоритм обучения навыкам захвата робота на основе Q-обучения и алгоритм обучения навыкам сборки робота на основе PPO, где вводится априорная информация о знаниях для оптимизации действия захвата и сокращения времени обучения и данных взаимодействия, необходимых алгоритм обучения стратегии сборки».
Новые методы обучения роботов, представленные в этой недавней статье, основаны на инструментах компьютерного зрения и машинного обучения, представленных в последние годы. Во-первых, исследователи разработали алгоритм глубокого обучения, предназначенный для быстрого обучения роботов новым навыкам захвата объектов, а также отдельный алгоритм для обучения роботов сборке определенных объектов.
Одновременно они также разработали функции вознаграждения, которые можно использовать для эффективной оценки навыков захвата и сборки промышленных роботизированных систем. К ним относятся функции вознаграждения за ограничение захвата и сборки.
Чтобы оценить потенциал предложенного ими набора инструментов для обучения роботов, Чен, Чжан и их коллеги протестировали его как в моделировании, так и на физических промышленных роботах. В своих реальных экспериментах команда специально использовала UR5, легкую роботизированную руку, часто применяемую для промышленных задач, а также камеру RealSense D435i для сбора RGB-изображений объектов, которые затем могли анализировать их алгоритмы.
«Эффективность предложенной структуры и алгоритмов была проверена как в смоделированных, так и в реальных средах, а средний показатель успешного захвата в обеих средах составил до 90%. При допуске сборки «колышек в отверстии» 3 мм успех сборки этот показатель составил 86,7% и 73,3% в моделируемой среде и физической среде соответственно», — пишут исследователи в своей статье.
Первоначальные результаты, полученные Ченом, Чжаном и их сотрудниками, очень многообещающие. Они позволяют предположить, что их набор алгоритмов обучения может ускорить программирование промышленных роботов, быстро научив их надежно захватывать и собирать объекты. В своих следующих исследованиях ученые планируют еще больше улучшить свой подход и продолжить его тестирование на распространенных задачах по захвату и сборке.
«В будущей работе мы улучшим точность обнаружения отверстий и рандомизацию области формы и изображения отверстий в виртуальной среде, оптимизируем стратегию перехода от среды моделирования к физической среде и уменьшим ошибки на обоих этапах для улучшения сборки», — заключили исследователи.