Исследования могут принести автоматическое распознавание речи на 2000 языков

Лишь часть из 7000–8000 языков, на которых говорят во всем мире, пользуются современными языковыми технологиями, такими как транскрипция голоса в текст, автоматические субтитры, мгновенный перевод и распознавание голоса. Исследователи из Университета Карнеги-Меллона хотят увеличить количество языков с доступными им инструментами автоматического распознавания речи примерно с 200 до потенциально 2000.

«Многие люди в этом мире говорят на разных языках, но инструменты языковых технологий разрабатываются не для всех из них», — сказал Синьцзян Ли, доктор философии. студент Института языковых технологий Школы компьютерных наук (LTI). «Разработка технологии и хорошей языковой модели для всех людей — одна из целей этого исследования».

Ли является частью исследовательской группы, стремящейся упростить требования к данным, необходимые языкам для создания модели распознавания речи . Команда, в которую также входят преподаватели LTI Синдзи Ватанабе, Флориан Метце, Дэвид Мортенсен и Алан Блэк, представила свою последнюю работу «ASR2K: распознавание речи для примерно 2000 языков без звука» на выставке Interspeech 2022 в Южной Корее.

Для большинства моделей распознавания речи требуется два набора данных : текст и аудио. Текстовые данные существуют для тысяч языков. Аудио данных нет. Команда надеется устранить необходимость в аудиоданных, сосредоточившись на лингвистических элементах, общих для многих языков.

Исторически сложилось так, что технологии распознавания речи сосредоточены на фонеме языка. Эти отдельные звуки, которые отличают одно слово от другого — например, «д», который отличает «собаку» от «бревна» и «винтика», — уникальны для каждого языка. Но в языках также есть телефоны, которые описывают, как слово звучит физически. Несколько телефонов могут соответствовать одной фонеме. Таким образом, хотя отдельные языки могут иметь разные фонемы, их основные телефоны могут быть одинаковыми.

Команда LTI разрабатывает модель распознавания речи, которая отходит от фонем и вместо этого опирается на информацию о том, как телефоны распределяются между языками, тем самым сокращая усилия по созданию отдельных моделей для каждого языка. В частности, он сочетает модель с филогенетическим деревом — диаграммой, отображающей отношения между языками, — чтобы помочь с правилами произношения. Благодаря своей модели и древовидной структуре команда может аппроксимировать модель речи для тысяч языков без аудиоданных.

«Мы пытаемся устранить это требование к аудиоданным , что помогает нам перейти от 100 или 200 языков к 2000», — сказал Ли. «Это первое исследование, нацеленное на такое большое количество языков, и мы — первая команда, стремящаяся расширить языковые инструменты до такого масштаба».

Все еще на ранней стадии, исследование улучшило существующие инструменты языковой аппроксимации на скромные 5%, но команда надеется, что оно послужит источником вдохновения не только для их будущей работы, но и для других исследователей.

Для Ли работа означает нечто большее, чем просто сделать языковые технологии доступными для всех. Речь идет о сохранении культуры.

«Каждый язык является очень важным фактором в своей культуре. У каждого языка есть своя история, и если вы не попытаетесь сохранить языки, эти истории могут быть потеряны», — сказал Ли. «Разработка такой системы распознавания речи и этого инструмента — это шаг к сохранению этих языков».