Изображение: Shutterstock / Illus_man
В демонстрационном видео Fugatto создаёт композиции по нестандартным запросам, например: «Сымитируй вой саксофона, затем лай, а после этого добавь электронную музыку с лаем собак». Среди других возможностей, которые показала Nvidia, — создание уникальных звуковых эффектов по описанию, таких как «глубокие, грохочущие басовые импульсы, дополненные прерывистыми, высокими цифровыми щебетаниями, напоминающими пробуждение гигантской разумной машины».
Кроме того, Fugatto способен изменять звук голоса, трансформируя акцент или тон, делая его, например, спокойным или сердитым. Инструмент также поддерживает редактирование музыки: он может выделять вокал, добавлять новые инструменты или изменять звучание, например, заменяя фортепиано оперным вокалом.
В сопроводительной документации Nvidia приводит список наборов данных, использованных для обучения Fugatto, включая библиотеку звуковых эффектов BBC. Хотя на рынке уже есть другие ИИ-инструменты для работы с аудио, такие как Stability AI, OpenAI, Google DeepMind, ElevenLabs и Adobe, Fugatto выделяется своей способностью создавать звуки, которые не существовали ранее.
Стоит отметить, что некоторые стартапы, разрабатывающие музыкальные ИИ, сталкиваются с исками за нарушение авторских прав, а недавние расследования показывают, что такие компании, как Nvidia, обучали свои модели на субтитрах тысяч YouTube-видео. Для разработки Fugatto исследователям пришлось собрать массивный набор данных с миллионами аудиосэмплов и разработать инструкции, которые расширили функциональность модели, сделав её более точной и универсальной.
Пока неизвестно, станет ли Fugatto доступным для широкой аудитории и когда это произойдёт. Читайте также Machine Learning на практике: зачем технологии бизнесу и когда их использовать? Являясь частью искусственного интеллекта, машинное обучение (Machine Learning, ML) открывает все больше возможностей бизнесу. Его внедряют для трансформации процессов, развития транспорта, логистики, АПК и других отраслей, а экономический эффект применения ИИ составляет более триллиона рублей. Рассмотрим, какие прикладные задачи компаний решает ML, приведем примеры внедрения, поговорим про подход Retrieval-Augmented Generation (RAG) и дадим чек-лист качественной интеграции и использования ИИ в реальном секторе.
Источник: The Verge
Источник новости: www.it-world.ru