Ученые используют нейронную сеть ИИ для перевода речи из мозговой деятельности

Три недавно опубликованных исследования, сфокусированных на использовании нейронных сетей искусственного интеллекта (ИИ) для генерации звукового выхода из сигналов мозга, показали многообещающие результаты, а именно, производя идентифицируемые звуки до 80% времени. Сначала участники исследований измеряли свои мозговые сигналы, когда они либо читали вслух, либо слушали конкретные слова. Затем все данные были переданы в нейронную сеть, чтобы «научиться» интерпретировать сигналы мозга, после чего финальные звуки были реконструированы, чтобы слушатели могли их идентифицировать. Эти результаты представляют обнадеживающие перспективы в области интерфейсов мозг-компьютер (BCI), где основанное на мысли общение быстро перемещается из области научной фантастики в реальность.

Идея подключения человеческого мозга к компьютерам далеко не нова. Фактически, в последние годы было сделано несколько важных вех, включая предоставление возможности парализованным людям управлять планшетными компьютерами с их мозговыми волнами. Элон Маск также отлично привлек внимание к этой области благодаря Neuralink, его компании BCI, которая, по сути, надеется объединить человеческое сознание с мощью Интернета. По мере того, как технология интерфейса мозг-компьютер расширяется и разрабатывает новые способы стимулирования связи между мозгом и машинами, подобные исследования, изначально отмеченные журналом Science, будут продолжать демонстрировать устойчивый прогресс.

В первом исследовании, проведенном учеными из Колумбийского университета и Медицинской школы им. Хофстры Нортвелла, оба в Нью-Йорке, у пяти участников эпилепсии были записаны сигналы мозга от их слуховых кортексов, когда они слушали рассказы и читаемые им цифры. Данные сигнала передавались в нейронную сеть для анализа, который затем восстанавливал аудиофайлы, которые были точно определены участвующими слушателями в 75% случаев.

Во втором исследовании, проведенном группой из Университета Бремена (Германия), Университета Маастрихта (Нидерланды), Северо-западного университета (Иллинойс) и Университета Содружества Вирджинии (Вирджиния), данные о мозговых сигналах были собраны из речевого и моторного планирования шести пациентов. области во время прохождения опухолевых операций. Каждый пациент читает вслух определенные слова, чтобы нацелить собранные данные. После того, как данные мозга и аудиоданные были переданы в их нейронную сеть для обучения, программе были переданы сигналы мозга, не включенные в тренировочный набор для воссоздания звука, в результате чего были получены слова, которые можно было распознать в 40% случаев.

Наконец, в третьем исследовании , проведенном группой из Университета Калифорнии в Сан-Франциско, три участника с эпилепсией прочитали текст вслух, в то время как активность мозга была обнаружена в речевой и двигательной областях их мозга. Аудио, сгенерированное в результате анализа показаний сигналов в их нейронной сети, было представлено группе из 166 человек, которых попросили идентифицировать предложения из теста с множественным выбором — некоторые предложения были идентифицированы с точностью до 80%.

Хотя исследования, представленные в этих исследованиях, показывают серьезный прогресс в подключении человеческого мозга к компьютерам, все еще существует несколько существенных препятствий. Во-первых, способ, которым паттерны нейронных сигналов в мозге преобразуются в звуки, варьируются от человека к человеку, поэтому нейронные сети должны быть обучены каждому отдельному человеку. Наилучшие результаты требуют наилучших возможных данных, то есть максимально точных сигналов нейронов, то есть это то, что может быть получено только путем помещения электродов в сам мозг. Возможности сбора данных на этом инвазивном уровне для исследований ограничены, полагаясь на добровольное участие и одобрение экспериментов.

Все три выделенных исследования продемонстрировали способность реконструировать речь на основе нейронных данных в некоторой значительной степени; однако также во всех случаях участники исследования могли создавать слышимые звуки для использования с компьютерным обучающим набором. В случае пациентов, неспособных говорить, уровень сложности интерпретации речевых сигналов мозга от других сигналов будет самой большой проблемой. Кроме того, различия между мозговыми сигналами во время реальной речи и мышлением о речи еще больше осложнят ситуацию.