Вице-президент по цифровым поверхностям «Салют» Сбербанка Денис Филиппов на международной конференции по искусственному интеллекту AI Jorney 2023 сообщил, что создатели чат-бота GigaChat научили своё детище создавать музыкальные композиции по текстовому описанию пользователей.
Достаточно ввести простой запрос без каких-либо деталей, например, «напиши весёлую музыку в стиле поп» или «создай композицию для медитации». В итоге пользователь получит файл с самой мелодией, а также нотную партитуру в формате MIDI, совместимую с любой DAW (Digital Audio Workstation). MIDI-файл в дальнейшем можно использовать для своих творческих начинаний: менять аранжировку, редактировать гармонии и так далее.
Новая возможность в GigaChat появилась благодаря интеграции нейросетей CLaMP и SymFormer. Обучение последней происходило на суперкомпьютере Christofari и базе данных с более чем 200 000 композициями самых разных жанров: от классики и хип-хопа до кантри и джаза. В основе модели генерации композиций лежит принцип рассмотрения музыки в качестве нотного текста — в этом помогла адаптация подхода text-2-image к нотному домену.
Как пояснили в Сбере, генерация музыкальных композиций происходит в несколько этапов. На первом текстовой запрос, введённый пользователем, с помощью нейросети CLaMP конвертируется в понятный для генератора мелодий язык. Далее данные поступают в модель SymFormer, которая создаёт несколько мелодий и выбирает наиболее успешный вариант. На последнем этапе происходит формирование аудиофайла и MIDI-файла с нотной партитурой, которые и отправляются пользователю.
Источник новости: trashbox.ru