Компания Stability AI выпустила предварительную версию модели машинного обучения Stable Cascade для генерации изображений. Главная особенность нейросети в её трёхступенчатой архитектуре, которая позволяет тонко настраивать генерацию и добиваться более качественных результатов.
Stable Cascade состоит из трёх разных моделей машинного обучения, работающих в одном конвейере. Благодаря этому разделению удаётся ускорить генерацию и не снижать качество. Примечательно, что суммарно у Stable Cascade всего 10 млрд параметров. Это позволяет использовать нейросеть в системах с ограниченным количеством ресурсов.
В тестах скорости вывода Stable Cascade оказывается быстрее Stable Diffusion XL, в которой почти 23 млрд параметров.
Модель может генерировать вариации одного изображения под разными ракурсами или с изменёнными деталями. Для создания таких изображений можно использовать как текстовое описание, так и режим image-to-image. В последнем случае нейросети можно передать исходное изображение, для которого будут создаваться вариации.
Команда проекта отметила, что вместе со Stable Cascade выпустит код для файн-тюнинга, обучения, ControlNet и LoRA, чтобы сторонним разработчикам было проще экспериментировать с моделью. Компания представила список некоторых ControlNet, которые выпустит:
Inpainting / Outpainting — можно загрузить изображение с маской и запросом, с помощью которого область маски заполнится с учётом содержимого.
Canny Edge — генерация картинок по линиям границ или по наброскам.
2x Super Resolution — увеличение разрешения изображения.
Код Stable Cascade опубликовали на GitHub и Hugging Face.
Источник новости: habr.com