Инструменты машинного обучения могут предсказывать эмоции по голосам всего за секунду

Слова важны, чтобы выразить себя. Однако то, что мы не говорим, может сыграть еще большую роль в передаче эмоций. Люди часто могут сказать, что чувствуют окружающие их люди, с помощью невербальных сигналов, встроенных в наш голос.

Теперь исследователи в Германии попытались выяснить, могут ли технические инструменты точно предсказать эмоциональный подтекст во фрагментах голосовых записей. Для этого они сравнили точность трех моделей машинного обучения для распознавания различных эмоций в аудиозаписях. Их результаты были опубликованы в журнале Frontiers in Psychology.

«Здесь мы показываем, что машинное обучение можно использовать для распознавания эмоций по аудиоклипам продолжительностью всего 1,5 секунды», — сказал первый автор статьи Ханнес Димерлинг, исследователь Центра психологии продолжительности жизни Института человеческого развития Макса Планка. «Наши модели достигли точности, аналогичной человеческой, при классификации бессмысленных предложений с эмоциональной окраской, произнесенных актерами».

Слушая, как мы себя чувствуем

Исследователи извлекли бессмысленные предложения из двух наборов данных — канадского и немецкого — что позволило им выяснить, могут ли модели МО точно распознавать эмоции независимо от языка, культурных нюансов и семантического содержания.

Каждый клип был сокращен до 1,5 секунды, поскольку именно столько времени нужно человеку для распознавания эмоций в речи. Это также самая короткая продолжительность звука, при которой можно избежать наложения эмоций. Эмоции, включенные в исследование, включали радость, гнев, печаль, страх, отвращение и нейтральные эмоции.

На основе данных обучения исследователи создали модели машинного обучения, которые работали одним из трех способов: Глубокие нейронные сети (DNN) подобны сложным фильтрам, которые анализируют компоненты звука, такие как частота или высота тона (например, когда голос становится громче из-за того, что говорящий злится), чтобы выявить скрытые эмоции.

Сверточные нейронные сети (CNN) сканируют закономерности в визуальном представлении саундтреков, подобно тому, как определяют эмоции по ритму и текстуре голоса. Гибридная модель (C-DNN) объединяет оба метода, используя как аудио, так и визуальную спектрограмму для прогнозирования эмоций. Затем модели были протестированы на эффективность на обоих наборах данных.

«Мы обнаружили, что DNN и C-DNN достигают большей точности, чем использование только спектрограмм в CNN», — сказал Димерлинг. «Независимо от модели, классификация эмоций была правильной с более высокой вероятностью, чем можно было бы достичь с помощью догадок, и была сопоставима с точностью людей».

Так же хорошо, как любой человек

«Мы хотели поместить наши модели в реалистичный контекст и использовали человеческие навыки прогнозирования в качестве ориентира», — объяснил Димерлинг. «Если бы модели превзошли людей, это могло бы означать, что могут существовать закономерности, которые мы не распознаем». По мнению исследователей, тот факт, что неподготовленные люди и модели действуют одинаково, может означать, что оба полагаются на схожие шаблоны распознавания.

Полученные результаты также показывают, что возможно разработать системы, которые смогут мгновенно интерпретировать эмоциональные сигналы и обеспечивать немедленную и интуитивную обратную связь в широком диапазоне ситуаций. Это может привести к созданию масштабируемых и экономически эффективных приложений в различных областях, где понимание эмоционального контекста имеет решающее значение, таких как терапия и технологии межличностного общения.

Исследователи также указали на некоторые ограничения в своем исследовании, например, на то, что образцы предложений, произнесенные актером, могут не передать весь спектр реальных, спонтанных эмоций. Они также заявили, что будущая работа должна исследовать аудиосегменты, которые длятся дольше или короче 1,5 секунды, чтобы выяснить, какая продолжительность оптимальна для распознавания эмоций.