Исследователи из ByteDance представили OmniHuman-1 — новую платформу для создания видеороликов из образцов изображений и аудио. Новая система от дочерней компании TikTok превращает неподвижные изображения в видео, добавляя движение и речь. Демонстрация показывает, как генеральный директор Nvidia Дженсен Хуанг поет, подчеркивая как возможности системы, так и потенциальные риски.
Исследователи ByteDance разработали OmniHuman-1 для решения ключевой проблемы в генерации видео с помощью AI: создание естественных человеческих движений в масштабе. Предыдущие системы испытывали трудности при предоставлении большего количества данных для обучения, поскольку большая их часть содержала нерелевантную информацию, которую приходилось отфильтровывать, часто теряя ценные шаблоны движений в процессе.
Чтобы решить эту проблему, OmniHuman обрабатывает несколько типов ввода одновременно — текст, изображение, аудио и позы тела. Такой подход позволяет системе эффективно использовать больше данных для обучения. Исследователи предоставили ей около 19 000 часов видеоматериалов для обучения.Фреймворк OmniHuman объединяет модель на основе DiT с многоэтапной стратегией обучения.
Сначала система обрабатывает каждый тип ввода отдельно, сжимая информацию о движении из текстовых описаний, шаблонных изображений, аудиосигналов и данных о движении в компактный формат. Затем она постепенно преобразует это в реалистичный видеовыход, обучаясь генерировать плавное движение, сравнивая свои результаты с реальными видео. OmniHuman создает высококачественную анимацию для широкого спектра форматов входных данных: от портретов до снимков в полный рост.
Результаты показывают естественные движения рта и жесты, которые хорошо соответствуют устному содержанию. Система обрабатывает пропорции тела и окружающую среду лучше, чем предыдущие модели, сообщает команда. Почти во всех тестах на качество и реалистичность OmniHuman-1 явно превосходит предыдущие методы.
Помимо фотографий реальных людей, система также может эффективно анимировать персонажей мультфильмов. Длина сгенерированных видео ограничена не самой моделью, а доступной памятью. На странице проекта показаны примеры от пяти до 25 секунд. С TikTok и видеоредактором CapCut, достигшими огромных баз пользователей, ByteDance уже реализует функции AI в масштабе. Компания объявила о планах сосредоточиться на разработке ИИ в феврале 2024 года .
Источник
Источник новости: habr.com