Представлен умный динамик меняющий форму

На виртуальных встречах легко запретить людям переговариваться друг с другом. Кто-то просто замолкает. Но по большей части эту возможность нелегко применить к записи личных собраний. В шумном кафе нет кнопок, чтобы заставить замолчать столик рядом с вами.

Способность определять местонахождение и контролировать звук — например, изолировать одного человека, говорящего из определенного места в переполненной комнате, — стала сложной задачей для исследователей , особенно без визуальных подсказок от камер.

Команда под руководством исследователей из Вашингтонского университета разработала интеллектуальный динамик , меняющий форму , который использует саморазвертывающиеся микрофоны для разделения комнат на речевые зоны и отслеживания положения отдельных говорящих. С помощью алгоритмов глубокого обучения, разработанных командой, система позволяет пользователям отключать звук в определенных областях или разделять одновременные разговоры, даже если у двух соседних людей одинаковые голоса.

Подобно парку Roomba, каждый из которых около дюйма в диаметре, микрофоны автоматически выдвигаются и возвращаются на зарядную станцию. Это позволяет системе перемещаться между средами и автоматически настраиваться. Например, на совещании в конференц-зале такая система может быть развернута вместо центрального микрофона, что позволит лучше контролировать звук в комнате.

Команда опубликовала свои выводы в журнале Nature Communications.

«Если я закрываю глаза и вижу, что в комнате разговаривают 10 человек, я понятия не имею, кто что говорит и где именно они находятся в комнате. Человеческому мозгу это чрезвычайно сложно обработать. технологии», — сказал соавтор Малек Итани, аспирант Школы компьютерных наук и инженерии Пола Аллена. «Впервые, используя то, что мы называем роботизированным «акустическим рой», мы можем отслеживать положение нескольких людей, говорящих в комнате, и разделять их речь».

Предыдущие исследования роев роботов требовали использования верхних или встроенных камер, проекторов или специальных поверхностей. Система команды UW является первой, которая точно распределяет рой роботов, используя только звук.

Прототип команды состоит из семи маленьких роботов, которые располагаются на столах разного размера. Когда они отходят от зарядного устройства, каждый робот издает высокочастотный звук , как будто летучая мышь движется, используя эту частоту и другие датчики, чтобы избегать препятствий и передвигаться, не падая со стола.

Автоматическое развертывание позволяет роботам размещаться с максимальной точностью, обеспечивая больший контроль над звуком, чем если бы их устанавливал человек. Роботы расходятся как можно дальше друг от друга, поскольку на больших расстояниях легче различать и определять местонахождение говорящих людей. Сегодняшние потребительские интеллектуальные колонки имеют несколько микрофонов, но сгруппированы на одном устройстве и расположены слишком близко, чтобы обеспечить возможность отключения звука и активных зон этой системы.

«Если у меня есть один микрофон в футе от меня, а другой микрофон в двух футах, мой голос сначала достигнет микрофона, который находится в футе от меня. Если кто-то другой находится ближе к микрофону, который находится на расстоянии двух футов, его голос дойдет туда. во-первых», — сказал соавтор Туочао Чен, аспирант Школы Аллена Университета Вашингтона.

«Мы разработали нейронные сети, которые используют эти сигналы с задержкой по времени, чтобы отделять то, что говорит каждый человек, и отслеживать его положение в пространстве. Таким образом, вы можете позволить четырем людям вести два разговора, изолировать любой из четырех голосов и определить местонахождение каждого из голосов в комната.»

Команда протестировала роботов в офисах, гостиных и кухнях, выступая группами от трех до пяти человек. Во всех этих средах система могла различать разные голоса в пределах 1,6 футов (50 сантиметров) друг от друга в 90% случаев без предварительной информации о количестве говорящих. Система смогла обработать три секунды аудио в среднем за 1,82 секунды — достаточно быстро для потоковой передачи в реальном времени, но слишком долго для общения в реальном времени, например видеозвонков.

Исследователи говорят, что по мере развития технологий в умных домах могут быть развернуты акустические рои, чтобы лучше различать людей, разговаривающих с помощью умных динамиков. Это потенциально может позволить, например, голосовое управление телевизором только людям, сидящим на диване в «активной зоне».

Исследователи планируют в конечном итоге создать роботов -микрофонов , которые смогут перемещаться по комнатам, а не ограничиваться столами. Команда также изучает, могут ли динамики издавать звуки, которые позволяют создавать зоны отключения звука и активные зоны, чтобы люди в разных частях комнаты могли слышать разный звук. Нынешнее исследование — еще один шаг к научно-фантастическим технологиям, таким как «конус тишины» в «Будь умнее» и «Дюна», пишут авторы.

Конечно, любая технология, вызывающая сравнение с вымышленными шпионскими инструментами, поднимает вопросы конфиденциальности. Исследователи признают возможность неправильного использования, поэтому предусмотрели средства защиты от этого: микрофоны управляются звуком, а не встроенной камерой, как в других подобных системах.

Роботы хорошо видны, а их индикаторы мигают, когда они активны. Вместо обработки звука в облаке, как это делают большинство умных колонок, акустические рои обрабатывают весь звук локально в целях обеспечения конфиденциальности. И хотя первые мысли некоторых людей могут быть о слежке, систему можно использовать и в противоположном направлении, говорят исследователи.

«Это потенциально может принести пользу конфиденциальности, помимо того, что позволяют современные умные колонки», — сказал Итани. «Я могу сказать: «Не записывайте ничего вокруг моего стола», и наша система создаст пузырь в трех футах вокруг меня. Ничего в этом пузырьке не будет записано. Или если две группы говорят рядом друг с другом, а одна группа говорит частный разговор, пока другая группа записывает, один разговор может находиться в беззвучной зоне, и он останется приватным».