Исследователи выпустили модель машинного обучения MagicAnimate, предназначенную для анимации фотографий. В исследовании отмечается, что нейросеть справляется с задачей лучше похожих решений.
Для генерации используется эталонное изображение и последовательность кадров движения в виде анимации DensePose. После этого применяется диффузионная модель для генерации кадров с учётом содержимого эталонного изображения. Полученные кадры склеиваются в готовый ролик.
Разработчики отмечают, что для генерации анимаций в полный рост нейросети не надо передавать эталонную фотографию с персонажем в полный рост. Все недостающие элементы дорисует диффузионная модель, а пользователь может указать уточняющий запрос для генерации. В одном из примеров использовали картину «Мона Лиза» для создания анимации бега.
В экспериментах проверили возможность анимации изображений, полученных с помощью DALL-E 3. Нейросеть справилась с заданием. Это даёт возможность наладить полный процесс производства анимированных кадров несуществующих персонажей.
Также учёные отметили, что MagicAnimate поддерживает генерацию анимаций для нескольких человек в кадре. Для этого важно, чтобы на эталонном изображении и кадрах DensePose совпадало количество людей.
Код проекта открыт и опубликован на GitHub, а протестировать возможности MagicAnimate можно на платформе Hugging Face.
Источник новости: habr.com