«Семь колец, меняющих правила общения»: южнокорейские ученые создали беспроводной ИИ-переводчик языка жестов, работающий в реальном времени

Устройство, похожее на полупрозрачный пластырь, надевается на пальцы, не требует калибровки и распознает жесты с точностью около 88%. Разработка уже опубликована в журнале Science Advances. Ее авторы уверены, что смогут подарить голос 70 миллионам глухих и слабослышащих людей по всему миру.

В мире, где голосовые помощники научились заказывать пиццу, а нейросети — писать дипломы, огромная часть человечества по-прежнему сталкивается с почти непреодолимым барьером в самых простых бытовых ситуациях. Заказать кофе, объяснить врачу симптомы или просто познакомиться с новым человеком для глухих и слабослышащих людей зачастую превращается в серьезную проблему. Причина в том, что из примерно 70 миллионов человек, использующих более 300 жестовых языков, понимают их лишь единицы. Однако группа южнокорейских инженеров и биомедиков совершила прорыв, который может навсегда изменить эту реальность. Они создали систему умных колец, переводящую жесты в текст без проводов, громоздких перчаток и долгой настройки.

WRSLT: как это работает

Разработка получила название WRSLT (Wirelessly connected, Ring-type Sign Language Translator — беспроводной кольцевой переводчик языка жестов). Внешне устройство представляет собой набор из семи миниатюрных полупрозрачных колец, которые надеваются на фаланги пальцев чуть ниже второго сустава. Такой дизайн выбран не случайно: он позволяет руке двигаться совершенно свободно во время разговора. Авторы проекта отмечают, что традиционные системы перевода жестов либо использовали проводные массивы датчиков, похожие на сложную паутину, либо громоздкие перчатки, которые существенно ограничивали подвижность. Новая разработка лишена этих недостатков: кольца растягиваются, подстраиваясь под разный размер пальцев, и не мешают естественной артикуляции.

Каждое кольцо оснащено миниатюрным трехосевым акселерометром — датчиком, который фиксирует ускорение и ориентацию в пространстве. Эти сенсоры считывают сгибание, наклон, поворот и остановку каждого пальца. Собранные данные по протоколу Bluetooth Multilink передаются на смартфон или компьютер, где в дело вступает искусственный интеллект. Нейросеть анализирует траектории движения и преобразует их в осмысленный текст. Важно, что система не просто распознает отдельные слова, а использует специальный алгоритм последовательного обнаружения, способный «дописывать» предложения по мере того, как пользователь продолжает жестикулировать.

Испытания: точность, независимость, универсальность

Результаты тестирования, опубликованные в журнале Science Advances, впечатляют. Исследователи обучили нейросеть на одной группе добровольцев, после чего проверили ее работу на совершенно другой — людях, чьи данные никогда не использовались при настройке модели. Такой подход считается наиболее жестким и объективным, поскольку он имитирует реальную ситуацию: устройством будет пользоваться человек, который не участвовал в его разработке. Итоговая точность распознавания составила 88,5% для 100 слов международного жестового языка и 88,3% для 100 слов американского жестового языка.

Эти цифры важны не сами по себе, а в сравнении с предыдущими попытками. Авторы работы отмечают, что существующие аналоги либо показывают сопоставимую точность только после персональной калибровки под конкретного пользователя, либо не способны работать в беспроводном режиме. WRSLT же не требует подгонки, а заряда сменной батарейки в каждом кольце хватает примерно на 12 часов непрерывной работы. Система также успешно различает как динамические жесты (например, слова «танцевать», «летать», «солнце»), так и статичные, удерживаемые в неподвижном положении (например, местоимения «я» и «ты»).

Разработчики не скрывают, что их творение — пока лишь прототип. Текущий словарь в 200 слов (100 для ASL и 100 для ISL) — это лишь малая часть лексикона, необходимого для полноценного общения. Однако команда уже работает над миниатюризацией колец и расширением набора обучающих данных, чтобы охватить более широкий словарный запас и, в перспективе, другие жестовые языки. По словам самих исследователей, их платформа потенциально применима не только для перевода, но и для других задач, где требуется точное отслеживание движений пальцев — например, для управления в виртуальной или дополненной реальности, бесконтактных интерфейсов и систем реабилитационного мониторинга.

В исследовательскую группу вошли специалисты из Университета Йонсей, Университета иностранных языков Хангук, Корейского института науки и технологий (KIST) и других научных центров Южной Кореи. Их работа — это не просто очередной технологический курьез, а реальный шаг к тому, чтобы десятки миллионов людей по всему миру перестали чувствовать себя отрезанными от общества. И, возможно, совсем скоро для заказа чашки кофе глухому человеку будет достаточно просто пошевелить пальцами.