Разработчики выпустили контроллер OminiControl для диффузионных моделей-трансформеров. С её помощью пользователи могут перемещать объекты с фотографии на сгенерированное изображение.
OminiControl работает в двух режимах:
Генерация. В этом режиме на вход нейросети надо передать фотографию исходного объекта и текстом описать желаемый результат. После чего нейросеть сгенерирует изображение, на котором будет находиться исходный объект.
Заполнение маски. Пользователь может закрыть маской фрагменты исходного изображения и задать текстовый запрос для генерации. После этого нейросеть заполнит маску, учитывая промпт.
Пока нейросеть может генерировать изображения с разрешением 512 × 512 пикселей. В ближайшее время разработчики выпустят модель, которая будет создавать картинки с разрешением 1024 × 1024 пикселей.
Код OminiControl опубликован на GitHub, а на площадке HuggingFace развернули бесплатное демо.
Источник новости: habr.com