Речь имеет решающее значение для выявления суицидальных мыслей и является ключом к пониманию психического и эмоционального состояния людей, испытывающих их. Консультанты горячей линии по вопросам самоубийств обучены быстро анализировать варианты речи, чтобы лучше помогать позвонившим в кризисной ситуации.
Но поскольку ни одна система не идеальна, существует вероятность ошибки в интерпретации речи звонящего. Чтобы помочь консультантам горячей линии правильно оценить состояние звонящего, Concordia Ph.D. Студентка Алаа Нфисси разработала модель распознавания речевых эмоций (SER) с использованием инструментов искусственного интеллекта. Модель анализирует и кодирует модуляции формы сигналов в голосах абонентов. Эта модель, по его словам, может привести к повышению эффективности реагирования при реальном мониторинге самоубийств.
Исследование опубликовано в рамках 18-й Международной конференции IEEE по семантическим вычислениям (ICSC) 2024 года .
«Традиционно SER выполнялся вручную обученными психологами, которые аннотировали речевые сигналы, что требует большого количества времени и опыта», — говорит он. «Наша модель глубокого обучения автоматически извлекает особенности речи, необходимые для распознавания эмоций».
Нфисси является членом Центра исследований и вмешательства в области самоубийств, этических проблем и практик в конце жизни (CRISE). Его статья была впервые представлена на 18-й Международной конференции IEEE по семантическим вычислениям в феврале 2024 года в Калифорнии, где она получила награду за лучшую студенческую работу.
Мгновенное распознавание эмоций
Для построения своей модели Нфисси использовал базу данных реальных звонков на горячие линии для самоубийств, которые были объединены с базой данных записей различных актеров, выражающих определенные эмоции. Оба набора записей были сегментированы и аннотированы обученными исследователями или актерами, озвучившими записи, в соответствии с протоколом, специально разработанным для этой задачи.
Каждый сегмент был снабжен аннотациями, отражающими определенное состояние ума: злое, нейтральное, грустное или испуганное/обеспокоенное/беспокоенное. Записи актеров усилили эмоциональное освещение исходного набора данных, в котором состояния гнева и страха/обеспокоенности/беспокойства были недостаточно представлены.
Затем модель глубокого обучения Нфисси проанализировала данные с помощью нейронной сети и вентильных рекуррентных единиц. Эти архитектуры глубокого обучения используются для обработки последовательностей данных, которые извлекают локальные и зависящие от времени функции.
«Этот метод передает эмоции через временной процесс, то есть мы можем обнаруживать эмоции по тому, что было до одного отдельного момента. У нас есть представление о том, что произошло и что было раньше, и что мы можем лучше определить эмоциональное состояние в определенное время.»
По словам Нфиси, эта модель улучшает существующие архитектуры. Старые модели для обработки требовали, чтобы сегменты были одинаковой длины, обычно где-то в диапазоне от пяти до шести секунд. Его модель использует сигналы управления переменной длины, которые могут обрабатывать различные временные сегменты без необходимости создания функций вручную.
Результаты подтвердили модель Нфисси. Он точно распознал четыре эмоции в объединенном наборе данных. Он правильно определил страх/обеспокоенность/беспокойство в 82% случаев; нейтральный — 78%; грустно, 77%; и злится в 72% случаев.
Модель оказалась особенно подходящей для правильного определения профессионально записанных сегментов: вероятность успеха составляла от 78% для грустных до 100% для гневных.
Эта работа принадлежит лично Нфисси, которому при разработке модели пришлось тщательно изучить работу горячей линии по самоубийствам.
«Многие из этих людей страдают, и иногда простое вмешательство консультанта может очень помочь. Однако не все консультанты обучены одинаково, и некоторым может потребоваться больше времени, чтобы обработать и понять эмоции звонящего».
Он говорит, что надеется, что его модель можно будет использовать для разработки информационной панели, работающей в режиме реального времени, которую консультанты смогут использовать при общении с эмоциональными звонящими, чтобы помочь выбрать подходящую стратегию вмешательства.
«Мы надеемся, что это поможет им и в конечном итоге предотвратит самоубийство».