В целях развития робототехники и искусственного интеллекта исследователи из Чунцинского технологического университета вместе со своими международными коллегами разработали передовой метод улучшения распознавания взаимодействия. В исследовании, опубликованном в журнале Cyborg and Bionic Systems, представлена сверточная сеть слияния и разделения графов (MS-GCN), новый подход, специально разработанный для решения сложностей распознавания взаимодействий на основе скелетов.
Распознавание взаимодействия человека играет решающую роль в различных приложениях, от улучшения интерфейсов человек-компьютер до улучшения систем наблюдения. Традиционные методы, обычно основанные на данных RGB, борются с такими проблемами, как изменения освещенности и окклюзии, что затрудняет точное распознавание.
Методы, основанные на скелете, которые фокусируются на структуре суставов человека, представляют собой многообещающую альтернативу благодаря их устойчивости к таким изменениям окружающей среды.
Недавно представленный MS-GCN решает давнюю проблему фиксации динамики взаимодействия между несколькими людьми, которую часто упускают из виду традиционные сети свертки графов. Благодаря интеграции свертки слияния и разделения графов с иерархическим управляемым вниманием и модулем краткосрочной зависимости MS-GCN превосходно понимает нюансы взаимоотношений между различными частями тела во время взаимодействия.
Инновационные особенности MS-GCN:
- Структура графа слияния и разделения: эта структура уникальным образом объединяет совместную информацию взаимодействующих людей в единое пространство признаков, позволяя проводить целостный анализ взаимодействий. Он отображает узлы соответствующих иерархических наборов двух людей в одном и том же семантическом пространстве, способствуя более точному распознаванию движений, специфичных для взаимодействия.
- Иерархическое управляемое внимание. Этот компонент имеет решающее значение для подчеркивания важности различных иерархических наборов на основе их значимости для текущего взаимодействия. Например, в таких действиях, как размахивание руками, он больше фокусируется на иерархических наборах, в которых задействованы руки, гарантируя, что критические характеристики движения не будут пропущены.
- Модуль краткосрочной зависимости: учитывая, что кратковременные изменения в движении могут иметь решающее значение для различения похожих действий, таких как рукопожатие и «дай пять», этот модуль повышает чувствительность модели к этим тонким различиям.
Эффективность MS-GCN подчеркивается его работой на двух признанных наборах данных, NTU60 и NTU120, где он достиг самых современных результатов. Этот подход был тщательно проверен посредством обширных экспериментов, продемонстрировавших его превосходство над существующими методами как в сценариях взаимодействия двух человек, так и в сценариях индивидуального взаимодействия.
Поскольку роботы и системы искусственного интеллекта все больше интегрируются в повседневную жизнь , их способность понимать людей и взаимодействовать с ними тонким и осмысленным образом приобретает первостепенное значение. MS-GCN не только расширяет область распознавания действий, но и открывает новые возможности для разработки более интуитивно понятных и отзывчивых систем искусственного интеллекта.
Это исследование подчеркивает значительный шаг вперед в поисках искусственного интеллекта, который сможет легко интегрироваться в среду обитания человека, предлагая заглянуть в будущее, где цифровые системы смогут предвидеть действия человека и реагировать на них с беспрецедентной точностью и эффективностью.