Компания ByteDance разработала новый подход к созданию портретов с помощью ИИ, который решает такие распространенные проблемы, как непоследовательность черт лица и несоответствие заданным промптам
В отличие от предыдущих решений, таких как PuLID-FLUX, которые напрямую изменяют внимание модели ИИ, InfuseNet обрабатывает черты лица как параллельный информационный слой. Это сохраняет основную модель ИИ нетронутой, одновременно улучшая качество генерации портретов.InfuseNet обрабатывает идентификационные характеристики и управляет входными данными отдельно от основной модели ИИ, что позволяет лучше сохранять черты лица при следовании текстовым подсказкам. | Изображение: ByteDance
Система использует двухэтапный процесс обучения. Он начинается с реальных портретных фотографий, а затем переходит к синтетическим изображениям, которые генерируются системой с использованием специализированных модулей оптимизации.
По данным ByteDance, этот подход значительно улучшает качество вывода. Сгенерированные изображения сохраняют большее сходство с исходным человеком и точнее следуют текстовым подсказкам. Он также позволяет избежать распространенных проблем, таких как прямое копирование лица и ухудшение качества, которые мешают другим подходам.
В пользовательском тестировании с 16 участниками InfiniteYou показал явные преимущества по сравнению с существующими решениями. При оценке сходства лиц, точности текстовых подсказок, качества изображения и эстетики 72,8 процента предпочли результаты InfiniteYou по сравнению с 27,2 процента для PuLID-FLUX.
InfiniteYou работает с популярными инструментами ИИ, включая ControlNet и LoRA. Системе требуется всего четыре этапа обработки для генерации изображений, и она позволяет пользователям изменять как людей, так и объекты на них. Признавая эти улучшения, ByteDance отмечает, что все еще есть возможности для улучшения сходства лиц и качества изображений.Система интегрируется с существующими инструментами ИИ, такими как ControlNet и LoRA, что позволяет выполнять широкий спектр модификаций портретов и корректировок стиля. | Изображение: ByteDance
ByteDance опубликовал код InfiniteYou на GitHub и сделал веса модели доступными через Hugging Face. Экспериментальная демоверсия запланирована, но пока не запущена.
Как участник Content Authenticity Initiative , ByteDance работает с производителями камер и поставщиками медиа для внедрения метаданных C2PA для идентификации контента, сгенерированного ИИ. Однако компания не уточнила, будет ли InfiniteYou включать эти функции аутентификации.
Релиз следует за последними разработками ByteDance в области искусственного интеллекта, включая OmniHuman-1 для фотореалистичной анимации и серию Goku для видеороликов с искусственным интеллектом.
Источник
Источник новости: habr.com