категории | RSS

Google представила Lumiere — нейросеть для генерации реалистичных видео

Google представила нейросеть Lumiere для генерации коротких реалистичных видео. Для этого используется модель пространственно-временной диффузии (Space-Time-U-Net, STUNet).

Lumiere генерирует пятисекундные видеоролики по текстовому описанию. Главное отличие модели Space-Time-U-Net, которая используется в Lumiere, в том, что она создаёт видео за один проход. Другие нейросети для этого сначала генерируют ключевые кадры, а потом заполняет время между ними. Из-за этого часто возникает несогласование кадров между собой.

Для обучения модели преобразования текста в видео использовали датасет из 30 млн роликов с текстовым описанием. Все видео в наборе данных были в разрешении 128×128 пикселей, длиной 80 кадров и частотой 16 кадров в секунду. На выходе нейросеть генерирует пятисекундные ролики 1024×1024 пикселей.

В Lumiere есть несколько режимов работы. Нейросеть может генерировать видео по текстовому описанию, анимировать изображения, придерживаться заданного стиля и изменять только указанные фрагменты ролика.

Подробное исследование нового метода генерации видео инженеры опубликовали на портале arxive.org. На сайте проекта Lumiere можно ознакомиться с примерами работы нейросети.



Источник новости: habr.com

DimonVideo
2024-01-29T00:50:02Z

Здесь находятся
всего 0. За сутки здесь было 0 человек
Яндекс.Метрика