Исследователи Гонконгского университета науки и технологии представили открытую нейросеть для генерации музыки. Авторы проект называют свою разработку бесплатным аналогом Suno. Модель может генерировать инструментальные композиции и песни.
В исследовании отмечается, что в задачах генерации песен на основе текста всё ещё нет чёткого понимания, как решить некоторые проблемы. Например, во многих реализациях не получается сохранить характер композиции до самого конца, а ещё нейросеть искажает слова, чтобы они лучше ложились на музыку. Есть удачные проприетарные реализации, но у исследователей нет возможности узнать, какие подходы в них применяются.
Для решения этой проблемы исследователи разработали семейство моделей машинного обучения YuE на базе языковой модели LLaMA. Нейросеть позволяет генерировать треки длительностью до пяти минут с согласованной музыкальной структурой. Для этого авторы проекта использовали аудиотокенизатор с улучшенным пониманием семантики для снижения затрат на обучение и текстовую цепочку мыслей для лучшей работы с контекстом. Для масштабируемости применили трёхступенчатый метод обучения.
Итоговая модель может генерировать композиции на разных языках и работает в мультиязычном режиме. Например, строчки песни могут быть сразу на трёх языках. В таком случае нейросеть сгенерирует корректную композицию.
Отмечается, что для запуска YuE необходимо довольно много свободной видеопамяти. Например, для запуска двух сессий (генерация одного куплета и одного припева) потребуется около 24 ГБ памяти. Для запуска четырёх и более сессий уже потребуется не менее 80 ГБ видеопамяти. Также отмечается, что генерации 30 секунд аудио на Nvidia H800 займёт 150 секунд, а на нескольких RTX 4090 — 360 секунд.
Код проекта опубликовали на GitHub. Помимо кода в репозитории есть инструкции по запуску и советы по составлению запросов. Примеры работы нейросети доступны на официальном сайте. Текст исследования авторы проекта опубликуют позже.
Источник новости: habr.com