Разработана модель для создания более естественной синтезированной речи

Прочитано: 54 раз(а)


Последние технологические достижения позволяют разрабатывать вычислительные инструменты, которые могут значительно улучшить качество жизни людей с ограниченными возможностями или сенсорными нарушениями. К ним относятся так называемые модели преобразования электромиографии в речь (ETS), предназначенные для преобразования электрических сигналов, вырабатываемых скелетными мышцами, в речь.

Исследователи из Бременского университета и SUPSI недавно представили Diff-ETS, модель преобразования ETS, которая может производить более естественную синтезированную речь . Эта модель, представленная в статье , опубликованной на сервере препринтов arXiv , может быть использована для разработки новых систем, которые позволят людям, неспособным говорить, например, пациентам, перенесшим ларингэктомию (операцию по удалению части голосового аппарата человека), общаться с другими.

Большинство ранее представленных методов преобразования ETS имеют два ключевых компонента: кодер EMG и вокодер. Кодер электромиографии (ЭМГ) может преобразовывать сигналы ЭМГ в акустические речевые характеристики, в то время как вокодер использует эти речевые характеристики для синтеза речевых сигналов.

«Из-за недостаточного количества доступных данных и зашумленных сигналов синтезированная речь часто демонстрирует низкий уровень естественности», — пишут в своей статье Чжао Рен, Кевин Шек и их коллеги. «В этой работе мы предлагаем Diff-ETS, модель ETS, которая использует вероятностную модель диффузии на основе оценок для повышения естественности синтезированной речи. Модель диффузии применяется для улучшения качества акустических характеристик, прогнозируемых кодировщиком ЭМГ. »

В отличие от многих других моделей преобразования ETS, разработанных в прошлом и состоящих из кодера и вокодера, модель исследователей состоит из трех компонентов, а именно кодера ЭМГ, диффузионно-вероятностной модели и вокодера. Таким образом, диффузионно-вероятностная модель, второй из этих компонентов, является новым дополнением, которое может привести к более естественной синтезированной речи.

Рен, Шек и их коллеги обучили кодер ЭМГ прогнозировать так называемую логарифмическую спектрограмму Мела (т. е. визуальное представление аудиосигналов) и целевые фонемы на основе сигналов ЭМГ. С другой стороны, диффузионно-вероятностная модель была обучена для улучшения log Mel-спектрограмм, в то время как предварительно обученный вокодер может переводить эту спектрограмму в синтезированную речь.

Исследователи оценили модель Diff-ETS в серии тестов, сравнив ее с базовой методикой ETS. Результаты оказались весьма многообещающими, поскольку синтезируемая им речь была более естественной и похожей на человеческую, чем та, которую воспроизводил базовый метод.

«В наших экспериментах мы оценивали точную настройку модели диффузии на основе прогнозов предварительно обученного кодировщика ЭМГ и комплексное обучение обеих моделей», — написали Рен, Шек и их коллеги в своей статье. «Мы сравнили Diff-ETS с базовой моделью ETS без диффузии, используя объективные показатели и тест на прослушивание. Результаты показали, что предложенный Diff-ETS значительно улучшил естественность речи по сравнению с базовым уровнем».

В будущем модель преобразования ETS, разработанная этой командой исследователей, может быть использована для разработки более совершенных технологий искусственной генерации слышимой речи. Эти системы могут позволить людям, которые не могут говорить, выражать свои мысли вслух, что облегчит их взаимодействие с другими.

«В будущих усилиях можно будет сократить количество параметров модели, используя различные методы, например, сжатие модели и дистилляцию знаний, тем самым генерируя образцы речи в режиме реального времени », — пишут исследователи. «Более того, модель диффузии можно обучать вместе с кодером и вокодером для дальнейшего улучшения качества речи».

Анализ речи с помощью искусственного интеллекта может помочь в предотвращении самоубийств



Новости партнеров