В настоящее время двигательные нарушения затрагивают около 5 миллионов человек в Соединенных Штатах. Физически вспомогательные роботы не только имеют потенциал помогать этим людям с повседневными задачами, они могут значительно повысить независимость, благополучие и качество жизни.
Большие языковые модели (LLM), которые могут как понимать, так и генерировать человеческий язык и код, имеют решающее значение для эффективной коммуникации человека и робота. Группа исследователей из Института робототехники Университета Карнеги-Меллона признала важность LLM и определила, что дальнейшая разработка инновационных интерфейсов улучшит коммуникацию между людьми и вспомогательными роботами, что приведет к улучшению ухода за людьми, страдающими двигательными нарушениями.
Исследовательская группа, в состав которой вошли преподаватели и студенты из Лаборатории роботизированного ухода и взаимодействия с человеком (RCHI), Лаборатории взаимодействия человека и робота (HARP) и Лаборатории мягких машин (SML), предложила VoicePilot — структуру и рекомендации по проектированию для включения LLM в качестве речевых интерфейсов для физически ассистивных роботов.
Будучи экспертами в области взаимодействия человека и робота , команда обеспечила, чтобы их подход был ориентирован на человека, что сделало VoicePilot первой работой, в которой люди напрямую взаимодействовали с LLM, интегрированным в физически ассистирующего робота.
Статья VoicePilot была принята к публикации на Симпозиуме по программному обеспечению и технологиям пользовательского интерфейса ( UIST 2024 ), который пройдет в Питтсбурге в октябре. Она доступна на сервере препринтов arXiv.
«Мы считаем, что степень магистра права является ключом к разработке персонализируемых и надежных речевых интерфейсов для вспомогательных роботов, которые могут предоставить роботам возможность интерпретировать высокоуровневые команды и тонкие настройки», — сказала Джесси Юань, соавтор и студентка бакалавриата в Лаборатории роботизированного ухода и взаимодействия с человеком.
Группа реализовала свой речевой интерфейс на основе LLM на Obi, коммерчески доступном вспомогательном роботе для кормления. Целью использования Obi было дать пользователям персонализированные инструкции, во многом похожие на инструкции для человека, осуществляющего уход, и успешно выполнить эти персонализированные инструкции.
Чтобы проверить эффективность VoicePilot, команда провела исследование на людях с 11 пожилыми людьми, проживающими в независимом жилом учреждении. Используя предопределенные задачи, открытый сеанс кормления и анализ аудиозаписей, собранных в ходе исследования, они собрали данные для предоставления рекомендаций по проектированию для включения LLM во вспомогательные интерфейсы.
Команда использовала собранные данные, чтобы определить пять основных принципов интеграции LLM в качестве речевых интерфейсов: интеграция должна предлагать возможности настройки, последовательно выполнять несколько функций, выполнять команды со скоростью, сопоставимой со скоростью человека, осуществляющего уход, выполнять команды последовательно и должна иметь возможность социального взаимодействия с пользователем.
«Предлагаемая нами структура и руководящие принципы помогут исследователям, инженерам и проектировщикам как в академических кругах, так и в промышленности в разработке речевых интерфейсов на основе степени магистра права для вспомогательных роботов », — сказал Акхил Падманабха, соавтор и аспирант Института робототехники.