Разработана модель, способная распознавать речь на разных языках по движениям губ говорящего

В последние годы методы глубокого обучения достигли замечательных результатов в многочисленных языковых задачах и задачах обработки изображений. Это включает в себя визуальное распознавание речи (VSR), которое влечет за собой идентификацию содержания речи исключительно путем анализа движений губ говорящего.

Хотя некоторые алгоритмы глубокого обучения добились очень многообещающих результатов в задачах VSR, они в первую очередь были обучены обнаруживать речь на английском языке, поскольку большинство существующих обучающих наборов данных включают только английскую речь. Это ограничивает их потенциальную пользовательскую базу людьми, которые живут или работают в англоязычной среде.

Исследователи из Имперского колледжа Лондона недавно разработали новую модель, которая может решать задачи VSR на нескольких языках. Было обнаружено, что эта модель, представленная в статье, опубликованной в Nature Machine Intelligence , превосходит некоторые ранее предложенные модели, обученные на гораздо больших наборах данных.

«Визуальное распознавание речи (VSR) было одной из основных тем моей докторской диссертации, — говорит Пинчуань Ма, доктор философии. выпускник Имперского колледжа, проводивший исследование, рассказал TechXplore. «Во время учебы я работал над несколькими темами, например, изучал, как сочетать визуальную информацию со звуком для аудиовизуального распознавания речи и как распознавать визуальную речь независимо от положения головы участников. Я понял, что подавляющее большинство существующей литературы имел дело только с английской речью».

Основная цель недавнего исследования Ма и его коллег заключалась в том, чтобы обучить модель глубокого обучения распознавать речь на языках, отличных от английского, по движениям губ говорящих, а затем сравнить ее производительность с эффективностью других моделей, обученных распознавать английскую речь. Модель, созданная исследователями, аналогична моделям, представленным другими командами в прошлом, но некоторые из ее гиперпараметров были оптимизированы, набор данных был дополнен (то есть увеличен в размере за счет добавления синтетических, слегка измененных версий данных) и использовались дополнительные функции потерь.

«Мы показали, что можем использовать одни и те же модели для обучения моделей VSR на других языках», — пояснил Ма. «Наша модель принимает в качестве входных данных необработанные изображения без извлечения каких-либо признаков, а затем автоматически изучает, какие полезные свойства следует извлечь из этих изображений для выполнения задач VSR. Основная новинка этой работы заключается в том, что мы обучаем модель выполнять VSR, а также добавляем некоторые дополнительные методы увеличения данных и функции потерь».

При первоначальных оценках модель, созданная Ма и его коллегами, работала на удивление хорошо, превосходя другие модели VSR, обученные на гораздо больших наборах данных, даже если для нее требовалось меньше исходных обучающих данных. Однако, как и ожидалось, он не работал так же хорошо, как модели распознавания английской речи, в основном из-за меньших наборов данных, доступных для обучения.

«Мы достигли самых современных результатов на нескольких языках, тщательно разработав модель, а не просто используя большие наборы данных или большие модели, что является текущей тенденцией в литературе», — сказал Ма. «Другими словами, мы показали, что то, как спроектирована модель, не менее важно для ее производительности, чем увеличение ее размера или использование большего количества обучающих данных. Это потенциально может привести к изменению способов, которыми исследователи пытаются улучшить модели VSR».

Ма и его коллеги показали, что можно добиться самых современных результатов в задачах VSR, тщательно разработав модели глубокого обучения, вместо того, чтобы использовать более крупные версии той же модели или собирать дополнительные обучающие данные, что является дорогостоящим и трудоемким. В будущем их работа может вдохновить другие исследовательские группы на разработку альтернативных моделей VSR, которые могут эффективно распознавать речь по движениям губ на языках, отличных от английского.

«Одна из основных областей исследований, которые меня интересуют, — это то, как мы можем объединить модели VSR с существующим (только аудио) распознаванием речи », — добавил Ма. «Меня особенно интересует, как эти модели могут быть динамически взвешены, то есть как модель может узнать, на какую модель следует полагаться в зависимости от шума. Другими словами, в шумной среде аудиовизуальная модель должна больше полагаться на шум. визуальный поток, но когда область рта закрыта, он должен больше полагаться на звуковой поток. Существующие модели по существу замораживаются после обучения и не могут адаптироваться к изменениям в окружающей среде».