Команда исследователей Google представила GameNGen — игровой нейродвижок, который в реальном времени анализирует нажатия клавиш и покадрово генерирует игровой процесс Doom. Всё выглядит так, что пользователь играет в Doom, но на самом деле окружение и всё происходящее на экране создаётся нейросетью.
Для реализации проекта исследователям пришлось сперва обучить агента играть в Doom. Это нужно было для автоматизации сбора данных, которые вошли в датасет основной нейросети. Использование для этого людей, по словам исследователей, значительно затянуло бы процесс.
После этого полученные данные использовали для обучения Stable Diffusion 1.4 генерировать следующий кадр игры на основе текущего и действий игрока. Также разработчики поработали над устойчивостью создаваемых кадров, чтобы объекты на них сохранили своё положение, а персонажи не меняли внешний вид.Схема работы GameNGen
В результате GameNGen может интерактивно имитировать классический Doom со скоростью более 20 кадров в секунду при запуске на одном тензорном процессоре (TPU) от Google.
Для оценки качества генерации исследователи привлекли группу из 10 экспертов. Им показали 130 роликов, в которых симуляция воспроизводилась одновременно с игрой. Длительность роликов была 1,6 и 3,2 секунды. Экспертам надо было найти запись настоящей игры. Для 1,6-секундных роликов доля правильных ответов составила 58%, для 3,2-секундных — 60%. Результат немного лучше случайной выборки.
На сайте проекта доступны примеры работы GameNGen и полный текст исследования.
Источник новости: habr.com