Google сообщает о развитии сервиса Google Переводчик

Google сообщает о прогрессе своей универсальной модели речи.

В ноябре Google объявил, что приступает к инициативе, кульминацией которой станет разработка модели машинного обучения, способной распознавать и переводить 1000 самых распространенных языков мира. В течение последних нескольких месяцев компания работала над достижением этой цели и опубликовала запись в блоге членов команды, работающей над проектом. Команда Google также опубликовала документ, описывающий внедрение универсальной модели речи (USM) на сервере препринтов arXiv.

Обновления, предоставляемые Google, являются частью более важной цели: создать языковой переводчик, использующий автоматическое распознавание речи (ASR), способный переводить любой язык мира по запросу. С этой целью они решили временно ограничить количество языков, которые они пытаются поддерживать (до 100), из-за небольшого числа людей, говорящих на менее распространенных языках. В таких редких языках отсутствуют наборы данных для обучения.

В рамках своего объявления Google наметил первые шаги к своему USM, разбив его на семейства речевых моделей, обученных на миллиардах часов записанной речи и охватывающих более 300 языков. Они отмечают, что их USM уже используется для языковых переводов с субтитрами на YouTube. Они также обрисовывают в общих чертах модель для каждого из семейств.

Google объясняет, что модели создаются с использованием обучающих «конвейеров», которые включают три типа наборов данных: непарный звук, непарный текст и парные данные ASR. Они также отмечают, что используют конформерные модели для обработки ожидаемых параметров 2B, необходимых для проекта, и будут делать это, используя три основных этапа: неконтролируемое предварительное обучение, многоцелевое контролируемое предварительное обучение и контролируемое обучение ASR. Конечным результатом будет создание двух типов моделей — предварительно обученных и моделей ASR.

Google также утверждает, что в своем нынешнем состоянии его USM показал производительность, сравнимую или превосходящую модель Whisper — модель распознавания речи общего назначения, созданную сообществом GitHub. Ожидается, что помимо использования USM для YouTube Google соединит свою модель с другими приложениями ИИ, включая устройства дополненной реальности.