Stability AI опубликовала Stable Diffusion 3.5 Large — модель text-to-image с 8 млрд. параметров

Разное

02:50 23-10-2024

DimonVideo

Stability AI опубликовала Stable Diffusion 3.5 Large — модель text-to-image с 8 млрд. параметров

В основе SD 3.5 Large - архитектура Multimodal Diffusion Transformer (MMDiT). Модель использует три предобученных текстовых энкодера:

🟢 OpenCLIP-ViT/G;

🟢 CLIP-ViT/L;

🟢 T5-xxl.

OpenCLIP-ViT/G и CLIP-ViT/L имеют контекстную длину 77 токенов, а T5-xxl - 77/256 токенов.
Модель доступна по API в сервисах - Stability AI, Replicate и Deepinfra.

Для локального использования модели рекомендуется использовать ComfyUI (базовый воркфлоу) или Diffusers.

⚠️ Инференс квантованной NF4-версии на ограниченных VRAM

⚠️ Подробные инструкции по файнтюну и тренировке LoRA для Stable Diffusion 3.5 Large.

В целом, модель выглядит лучше 3-й версии. Местами лучше FLUX, метсами хуже. Подтянули эстетику и фотореализм, но согласованность в анатомии все еще не очень. Но самое главное, что далии возможность тренить Лоры, они все исправят.

▶️Локальный запуск инференса на Diffusers:# install Diffusers pip install -U diffusers # Inference import torch from diffusers import StableDiffusion3Pipeline pipe = StableDiffusion3Pipeline.from_pretrained("stabilityai/stable-diffusion-3.5-large", torch_dtype=torch.bfloat16) pipe = pipe.to("cuda") image = pipe( "A happy woman laying on a grass", num_inference_steps=28, guidance_scale=3.5, ).images[0] image.save("woman.png")

📌 Лицензирование:

🟢Модель доступна под лицензией Stability Community License, которая разрешает бесплатное использование для исследовательских, некоммерческих и коммерческих целей организациями или частными лицами с годовым доходом менее 1 млн. долл. США.

🟠Для получения коммерческой лицензии для организаций с годовым доходом более 1 млн. долл. США необходимо связаться со Stability AI.

🟡Страница проекта

🟡Arxiv

🟡Модель

#AI #ML #Diffusion #SDL #StabilityAI

Источник новости: habr.com

Чат в Telegram

Регистрация

Войти

Главная

Опросы

Форум

Обзор новинок

Обменник

Android

Трекер

PC

Видео

Картинки

Новости

Разные новости

Статьи

Блоги

Комментарии

ПОДДЕРЖИ сайт

Stability AI опубликовала Stable Diffusion 3.5 Large — модель text-to-image с 8 млрд. параметров

Разное

Похожие файлы

Создатели Stable Diffusion представили «облегчённый» генератор картинок Stable Cascade

Stability AI выпустила модель Stable Diffusion XL 1.0

Stability AI опубликовала открытую модель Stable Audio для генерации музыки

Stable Diffusion теперь не только нарисует что угодно по вашему тексту, но и поможет создать 3D-модель