Команда исследователей искусственного интеллекта из Microsoft Research Asia разработала приложение искусственного интеллекта, которое преобразует неподвижное изображение человека и звуковую дорожку в анимацию, которая точно изображает человека, говорящего или поющего звуковую дорожку, с соответствующим выражением лица.
Команда опубликовала документ , описывающий, как они создавали приложение на сервере препринтов arXiv ; образцы видео доступны на странице исследовательского проекта.
Исследовательская группа стремилась анимировать неподвижные изображения разговоров и пения, используя любую предоставленную фонограмму, а также отображать правдоподобную мимику. Они явно преуспели в разработке VASA-1, системы искусственного интеллекта, которая превращает статические изображения, снятые камерой, нарисованные или раскрашенные, в то, что они описывают как «исключительно синхронизированную» анимацию.
Группа доказала эффективность своей системы, разместив короткие видеоклипы с результатами своих испытаний. В одном из мультфильмов Мона Лиза исполняет рэп-песню; в другом фотография женщины превратилась в пение, а в третьем рисунок мужчины произносит речь.
В каждой анимации выражение лица меняется вместе со словами, подчеркивая сказанное. Исследователи также отмечают, что, несмотря на реалистичность видео, более пристальное рассмотрение может выявить недостатки и свидетельства того, что они были созданы искусственно.
Исследовательская группа добилась своих результатов, обучая свое приложение тысячам изображений с самыми разными выражениями лиц . Они также отмечают, что в настоящее время система создает изображения размером 512х512 пикселей со скоростью 45 кадров в секунду. Кроме того, создание видео с использованием графического процессора Nvidia RTX 4090 настольного уровня занимало в среднем две минуты.
Исследовательская группа предполагает, что VASA-1 можно использовать для создания чрезвычайно реалистичных аватаров для игр или симуляций. В то же время они признают возможность злоупотреблений и поэтому не делают систему доступной для общего использования.