Разрабатывается метод передачи речи с помощью ИИ

Прочитано: 140 раз(а)


Последние технологические достижения открыли неоценимые возможности для помощи людям с нарушениями или ограниченными возможностями. Например, они позволили создать инструменты для поддержки физической реабилитации, отработки социальных навыков и оказания ежедневной помощи при выполнении конкретных задач.

Исследователи из Meta AI недавно разработали многообещающий и неинвазивный метод декодирования речи на основании активности мозга человека , который может позволить людям, не способным говорить, передавать свои мысли через компьютерный интерфейс. Предложенный ими метод, представленный в журнале Nature Machine Intelligence , объединяет использование техники визуализации и машинного обучения.

«После инсульта или заболевания головного мозга многие пациенты теряют способность говорить», — рассказала Medical Xpress Джин Реми Кинг, научный сотрудник Meta. «За последние пару лет был достигнут значительный прогресс в разработке нейронного протеза: устройства, обычно имплантируемого в моторную кору пациентов, которое можно использовать с помощью искусственного интеллекта для управления компьютерным интерфейсом. Однако такая возможность существует. , по-прежнему требует хирургического вмешательства на головном мозге и, следовательно, не лишен рисков».

Помимо хирургических процедур, большинство предлагаемых подходов к декодированию речи основаны на имплантированных электродах, и обеспечение правильного функционирования этих электродов в течение более чем нескольких месяцев является сложной задачей. Ключевой целью недавнего исследования Кинга и его коллег было изучение альтернативного неинвазивного пути декодирования речевых представлений.

«Вместо использования внутричерепных электродов мы используем магнитоэнцефалографию», — объяснил Кинг. «Это метод визуализации, основанный на неинвазивном устройстве, которое может делать более тысячи снимков мозговой активности в секунду. Поскольку эти сигналы мозга очень трудно интерпретировать, мы обучаем систему искусственного интеллекта декодировать их в речевые сегменты».

По сути, Кинг и его коллеги разработали систему искусственного интеллекта и обучили ее анализировать изображения магнитоэнцефалографии, предсказывая речь на основе записанной в них активности мозга. Их система искусственного интеллекта состоит из двух ключевых модулей, получивших название «мозговой модуль» и «речевой модуль».

Мозговой модуль был обучен извлекать информацию из активности мозга человека, записанной с помощью магнитоэнцефалографии. С другой стороны, речевой модуль идентифицирует речевые представления, которые подлежат декодированию.

«Два модуля параметризованы таким образом, что мы можем в любой момент сделать вывод о том, что слышит участник», — сказал Кинг.

Исследователи оценили предложенный ими подход в первоначальном исследовании с участием 175 человек. Участникам было предложено прослушать рассказанные короткие истории и отдельные произнесенные предложения, в то время как активность их мозга записывалась с помощью магнитоэнцефалографии или альтернативного метода, известного как электроэнцефалография.

Наилучших результатов команда добилась при анализе трехсекундных сигналов магнитоэнцефалографии. В частности, они могли декодировать соответствующие сегменты речи со средней точностью до 41% из более чем 1000 возможностей участников, однако с некоторыми участниками они достигли точности до 80%.

«Мы были удивлены полученной производительностью декодирования», — сказал Кинг. «В большинстве случаев мы можем получить то, что слышат участники, и если декодер допустит ошибку, это будет семантически похоже на целевую фразу».

Предложенная командой система декодирования речи выгодно отличается от различных базовых подходов, что подчеркивает ее потенциальную ценность для будущих приложений. Поскольку для этого не требуются инвазивные хирургические процедуры и использование мозговых имплантатов, его также может быть проще реализовать в реальных условиях.

«Наша команда занимается фундаментальными исследованиями: чтобы понять, как работает мозг и как это функционирование может быть связано и информировать ИИ», — сказал Кинг. «Предстоит долгий путь до практического применения, но мы надеемся, что эта разработка может помочь пациентам, чье общение ограничено или невозможно из-за паралича. Важным следующим шагом в этом отношении является выход за рамки декодирования воспринимаемой речи и декодирование произвел речь».

Система исследователей на основе искусственного интеллекта все еще находится на ранней стадии разработки и потребует значительных улучшений, прежде чем ее можно будет протестировать и внедрить в клинических условиях. Тем не менее, эта недавняя работа раскрыла потенциал создания менее инвазивных технологий для помощи пациентам с нарушениями речи.

«Наша команда в первую очередь сосредоточена на понимании того, как функционирует мозг», — добавил Кинг. «Поэтому мы пытаемся разработать эти инструменты для количественной оценки и понимания сходства между ИИ и мозгом не только в контексте речи , но и для других модальностей, таких как визуальное восприятие».

Meta AI разрабатывает неинвазивный метод декодирования речи по активности мозга



Новости партнеров