Наушники с искусственным интеллектом

Наушники с шумоподавлением очень хорошо справляются с созданием слухового чистого листа. Но стирание определенных звуков из окружающей среды пользователя по-прежнему является сложной задачей для исследователей. Последняя версия Apple AirPods Pro, например, автоматически регулирует уровни звука для пользователей — например, определяя, когда они разговаривают, — но у пользователя мало контроля над тем, кого слушать или когда это происходит.

Команда Вашингтонского университета разработала систему искусственного интеллекта, которая позволяет пользователю в наушниках смотреть на говорящего человека в течение трех-пяти секунд, чтобы «зарегистрировать» его. Система, получившая название «Целевой речевой слух», затем подавляет все остальные звуки в окружающей среде и воспроизводит только голос зарегистрированного говорящего в реальном времени, даже когда слушатель перемещается в шумных местах и больше не смотрит на говорящего.

Команда представила свои выводы 14 мая в Гонолулу на конференции ACM CHI по человеческому фактору в вычислительных системах . Код для экспериментального устройства доступен для дальнейшего использования другими. Система не коммерчески доступна.

«Сейчас мы склонны думать об искусственном интеллекте как о веб-чат-ботах, которые отвечают на вопросы», — сказал старший автор Шьям Голлакота, профессор Университета Вашингтона в Школе компьютерных наук и инженерии Пола Г. Аллена. «Но в этом проекте мы разрабатываем искусственный интеллект, чтобы изменить слуховое восприятие любого, кто носит наушники, с учетом его предпочтений. С помощью наших устройств вы теперь можете четко слышать одного говорящего, даже если вы находитесь в шумной обстановке, когда разговаривает много других людей».

Чтобы воспользоваться системой, человек, носящий готовые наушники с микрофонами, нажимает кнопку, направляя голову на говорящего. Звуковые волны от голоса говорящего должны одновременно достичь микрофонов на обеих сторонах гарнитуры; погрешность составляет 16 градусов. Наушники отправляют этот сигнал на бортовой встроенный компьютер, где программное обеспечение машинного обучения изучает вокальные образцы желаемого говорящего. Система фиксирует голос говорящего и продолжает воспроизводить его слушателю, даже когда пара перемещается. Способность системы концентрироваться на зарегистрированном голосе улучшается по мере того, как говорящий продолжает говорить, предоставляя системе больше обучающих данных.

Команда протестировала свою систему на 21 испытуемом, которые в среднем оценили четкость голоса зарегистрированного говорящего почти в два раза выше, чем нефильтрованный звук.

Эта работа основана на предыдущем исследовании «семантического слуха», проведенном командой, которое позволило пользователям выбирать определенные классы звуков, такие как голоса птиц или голоса, которые они хотели услышать, и подавляло другие звуки в окружающей среде.

В настоящее время система TSH может зарегистрировать только одного говорящего одновременно, и она может зарегистрировать говорящего только в том случае, если нет другого громкого голоса, доносящегося с того же направления, что и голос целевого говорящего. Если пользователя не устраивает качество звука , он может провести еще одну регистрацию динамика, чтобы улучшить четкость.

Команда работает над расширением системы на наушники и слуховые аппараты в будущем.