Группа исследователей из Google Research, Google Deep Mind и Тель-Авивского университета сообщает, что можно использовать приложения машинного обучения для воссоздания и моделирования частей или всей существующей видеоигры.
Группа опубликовала на сервере препринтов arXiv статью , в которой описывается их модификация существующего обучающего приложения, которое они называют GameNGen, и использовали его для воспроизведения и моделирования коротких фрагментов видеоигры Doom.
Попытки воссоздать видеоигры с помощью генеративного ИИ включают два типа работы: воссоздание изображений и воссоздание действий. Этот процесс называется «нейронным рендерингом», и его изучают несколько заинтересованных групп.
Как и другие приложения ИИ, эта наука основана на использовании диффузионных моделей, которые являются генеративными системами, позволяющими компьютеру создавать новые данные из старых с помощью специальных алгоритмов. В этом новом исследовании исследовательская группа хотела определить, могут ли они точно смоделировать игру Doom, воссоздав ее с помощью машинного обучения.
Команда начала со Stable Diffusion 1.4, модели диффузии , над которой исследователи Google работали в течение нескольких итераций. Ее цель — создавать новые изображения с помощью машинного обучения. После настройки модели исследователи дали ей возможность учиться только на видеоиграх, а не на всем в Интернете, и назвали ее GameNGen.
Они обучили ее с помощью видео из интернет-источников, показывающих экраны игры Doom в процессе игры, в то время как играл человек. Эти данные использовались для обучения новой системы тому, как должен выглядеть мир Doom и как должен происходить игровой процесс. Затем они запустили ее и обнаружили, что она может генерировать реалистичные новые кадры игрового процесса со скоростью более 20 кадров в секунду, используя всего один TPU.
Исследователи показали фрагменты Doom, созданные GameNGen, оценщикам-людям и обнаружили, что те не смогли отличить фрагменты от реальных игровых действий более чем в половине случаев.