Система искусственного интеллекта может конвертировать голосовую дорожку в видео говорящего человека, используя неподвижное изображение

Небольшая группа исследователей искусственного интеллекта из Института интеллектуальных вычислений Alibaba Group демонстрирует с помощью созданных ими видеороликов новое приложение искусственного интеллекта, которое может принимать одну фотографию лица человека и саундтрек того, кто говорит или поет, и использовать их для создать анимированную версию человека, говорящего или поющего голосовую дорожку. Группа опубликовала документ , описывающий свою работу над сервером препринтов arXiv.

Предыдущие исследователи продемонстрировали приложения искусственного интеллекта, которые могут обрабатывать фотографию лица и использовать ее для создания полуанимационной версии. В этом новом проекте команда Alibaba пошла еще дальше, добавив звук. И, возможно, что не менее важно, они сделали это без использования 3D-моделей или даже ориентиров лица. Вместо этого команда использовала диффузионное моделирование, основанное на обучении ИИ на больших наборах данных аудио- или видеофайлов. В этом случае команда использовала около 250 часов таких данных для создания своего приложения, которое они назвали Emote Portrait Alive ( EMO ).

Путем прямого преобразования аудиосигнала в видеокадры исследователи создали приложение, которое фиксирует тонкие жесты человеческого лица, особенности речи и другие характеристики, которые идентифицируют анимированное изображение лица как человеческое. Видео точно воссоздают вероятные формы рта, используемые для формирования слов и предложений, а также выражения, обычно связанные с ними.

Команда опубликовала несколько видеороликов, демонстрирующих поразительно точную работу, которую они создали, утверждая, что они превосходят другие приложения по реалистичности и выразительности. Они также отмечают, что длина готового видео определяется длиной исходной звуковой дорожки. В видеороликах исходное изображение показано рядом с человеком, говорящим или поющим голосом человека, записанного на исходной звуковой дорожке.

В заключение команда признает, что использование такого приложения необходимо будет ограничить или контролировать, чтобы предотвратить неэтичное использование такой технологии.