категории | RSS

Microsoft выпускает игровую демоверсию Quake II, созданнную AI в реальном времени

Компания Microsoft представила исследовательский проект, который генерирует и запускает Quake II полностью в рамках модели искусственного интеллекта, создавая игровую версию игры в реальном времени.

Модель, называемая WHAMM (World and Human Action MaskGIT Model), является частью Copilot Labs от Microsoft и предназначена для изучения возможностей и границ генеративного ИИ в интерактивных медиа. Она основана на более ранней версии WHAM-1.6B , которая была обучена на игре Bleeding Edge. Эта модель обрабатывала только один кадр в секунду.

WHAMM значительно повышает производительность, генерируя более десяти кадров в секунду — достаточно для поддержки интерактивности в реальном времени внутри самой модели. И WHAMM, и WHAM-1.6B являются частью семейства моделей Microsoft «Muse», которое фокусируется на генеративных инструментах ИИ для разработки игр.

Одной из ключевых инноваций WHAMM является ее способность обучаться на гораздо меньшем количестве данных. В то время как WHAM-1.6B обучался на семи годах игрового процесса, WHAMM потребовалась всего одна неделя игрового процесса Quake II, собранная с одного уровня. Набор данных, записанный профессиональными тестерами, предлагал целевые и высококачественные примеры, которые позволили модели эффективно изучать игровое поведение.

WHAMM также принимает другую техническую стратегию. Вместо использования авторегрессионного метода, применяемого в WHAM-1.6B, где токены изображений генерируются по одному, WHAMM реализует стратегию MaskGIT . Этот подход позволяет модели генерировать все токены изображений параллельно в течение нескольких итераций. В результате скорость генерации значительно возросла, а выходное разрешение удвоилось, улучшившись с 300 × 180 пикселей до 640 × 360 пикселей.Система WHAMM работает в три этапа: во-первых, она преобразует изображения в токены с помощью ViT-VQGAN. Затем предсказывает, что должно произойти, основываясь на контексте. Наконец, улучшает предсказанные токены изображений с помощью нескольких итераций. | Изображение: Microsoft

Архитектура WHAMM состоит из двух основных компонентов. Первый — это «магистральный» трансформатор с примерно 500 миллионами параметров, который генерирует начальные прогнозы изображений. Второй — это меньший модуль «уточнения» с 250 миллионами параметров, который итеративно улучшает вывод. Для создания каждого нового кадра модель использует предыдущие девять пар изображение-действие в качестве контекста.

Версия Quake II, созданная ИИ и доступная для тестирования здесь, поддерживает основные взаимодействия, такие как перемещение, прыжки, стрельба и размещение объектов. Симуляция также сохраняет изменения, внесенные в окружающую среду, и позволяет игрокам исследовать скрытые разделы уровня.

Хотя WHAMM поддерживает базовый игровой процесс, он не полностью воспроизводит оригинальный Quake II. Модель генерирует приближение среды на основе узкого набора обучающих данных, что приводит к нескольким техническим ограничениям.

Вражеские персонажи выглядят визуально размытыми, бою не хватает реализма, а индикаторы здоровья ненадежны. Объекты исчезают со сцены, если остаются вне экрана более 0,9 секунд — предел контекстного окна модели. Игровая область ограничена одним сегментом уровня, и симуляция замирает по окончании этого сегмента. Задержка ввода также остается высокой, с заметными задержками между вводом игрока и реакцией системы.

WHAMM является частью более широкого набора недавних инициатив, исследующих, как генеративный ИИ может быть применен к разработке игр. Другие примеры включают GameGen-O , который фокусируется на создании симуляций открытого мира, а также GameNGen и DIAMOND — системы от Google и Deepmind, которые имитируют игровой процесс для таких игр, как DOOM и Counter-Strike. Хотя эти модели представляют собой значительный прогресс, они продолжают сталкиваться с техническими ограничениями, включая вывод низкого разрешения, ограниченную память и сниженную контекстную осведомленность.

Игровая индустрия особенно склонна к принятию генеративного ИИ, поскольку он объединяет несколько дисциплин — код, дизайн, повествование и мультимедиа — в циклах разработки, которые часто ограничены жесткими бюджетами и сроками. Такое сочетание творческой сложности и давления ресурсов делает производство игр особенно восприимчивым к инструментам, которые могут частично автоматизировать структурированные задачи.

Источник



Источник новости: habr.com

DimonVideo
2025-04-06T14:50:02Z

Здесь находятся
всего 0. За сутки здесь было 0 человек
Яндекс.Метрика