Исследователи Университета Корё (Южная Корея) выпустили модель машинного обучения, предназначенную для преобразования текста в голос. Производительность разработки превосходит решения на базе больших языковых моделей и диффузии.
Особенность HierSpeech++ в том, что система использует иерархическую структуру. Благодаря этому отпадает необходимость предварительного обучения. Разработчики используют возможности платформы преобразования текста в вектор для создания самоконтролируемых адресов.
Отмечается, что HierSpeech++ может стать лидером в области синтезирования речи. В системе используется система сверхвысокого разрешения аудио. Благодаря этому на выходе получаются записи в частотном диапазоне от 16 до 48 кГц.
На странице проекта доступны примеры генерации и сравнение с другими популярными моделями. Демонстрационная модель развёрнута на платформе Hugging Face. На ней можно попробовать синтез с несколькими параметрами. Код платформы опубликован в GitHub-репозитории. Для локального запуска необходимо использовать Pytorch и Torchaudio.
Источник новости: habr.com