Сегодня, 22 ноября, стало известно, что компания Stability AI обновила свою нейросеть Stable Diffusion, добавив возможность генерации коротких видеороликов на основе изображений. Разработчики Сбера пошли ещё дальше — они презентовали Kandinsky Video, ИИ-модель, способную создавать видео по текстовому описанию. Это первая в России генеративная модель для создания полноценных видеороликов по текстовому описанию.
Первый заместитель председателя правления Сбербанка Александр Ведяхин в рамках мероприятия AI Journey заявил, Kandinsky Video способна генерировать видео продолжительностью восемь секунд с частотой кадров до 30 fps.
Работа нейросети строится на двух блоках. Работа первой заключается в создании ключевых кадров, из которых затем складывается сюжет ролика. Второй блок генерирует так называемые интерполяционные кадры — они необходимы, чтобы достичь максимально возможной плавности конечного ролика. В итоге работы этих двух блоков получается видео, где могут двигаться не только объекты, но и фон. Возможность создавать ролики, где моделируется пролёт камеры относительно статичных объектов отличает отечественную разработку от множественных аналогов.
Разработчик из Сбера сообщили, что их нейронная сеть способна создавать ролики с разрешением 512 × 512 пикселей. Для её обучения задействовали более 300 000 пар «текст – видео». На создание ролика у искусственного интеллекта уходит около трёх минут времени. Попробовать Kandinsky Video можно на платформе fusionbrain.ai и в Telegram-боте, где необходимо оставить заявку на доступ.
Источник новости: trashbox.ru