Компания Stability AI запустила платформу искусственного интеллекта для преобразования текста в аудио под названием Stable Audio. Она также использует модель диффузии, которая лежит в основе Stable Diffusion, но обучена на аудио, а не на изображениях. Пользователи могут использовать платформу для создания песен или фонового звука.
Модели диффузии, как правило, генерируют звук фиксированной длины, однако новая платформа позволяет пользователям создавать звуки разной длины, а также генерировать более продолжительные мелодии.
Stability AI обучила Stable Audio на наборе данных, состоящему из более чем 800 тысяч аудиофайлов музыки, звуковых эффектов и игры отдельных инструментов, а также на текстовых метаданных от компании AudioSparx, лицензирующей музыку. Набор включает более 19,5 тысяч часов звуков. Stability AI заявляет, что имеет разрешение на использование материалов, защищённых авторским правом.
У Stable Audio будет три тарифа: бесплатная версия, позволяющая пользователям создавать до 45 секунд аудио для 20 треков в месяц; уровень Professional за $11,99 для 500 треков продолжительностью до 90 секунд; индивидуальный корпоративный уровень Enterprise. Те, кто выберет бесплатную версию, не смогут использовать аудио в коммерческих целях. Тренировать свои ИИ-модели на полученных треках также запрещено.
В 2022 году сообщалось, что в рамках проекта Riffusion разработчики развивают вариант системы машинного обучения Stable Diffusion для генерации музыки вместо изображений. Мелодии можно создавать как на основе предложенного шаблона, так и с помощью текстового описания на естественном языке.
Источник новости: habr.com