Разработчики выпустили HierSpeech++ — модель для генерации голоса

Разное

16:50 05-12-2023

DimonVideo

Разработчики выпустили HierSpeech++ — модель для генерации голоса

Исследователи Университета Корё (Южная Корея) выпустили модель машинного обучения, предназначенную для преобразования текста в голос. Производительность разработки превосходит решения на базе больших языковых моделей и диффузии.

Особенность HierSpeech++ в том, что система использует иерархическую структуру. Благодаря этому отпадает необходимость предварительного обучения. Разработчики используют возможности платформы преобразования текста в вектор для создания самоконтролируемых адресов.

Отмечается, что HierSpeech++ может стать лидером в области синтезирования речи. В системе используется система сверхвысокого разрешения аудио. Благодаря этому на выходе получаются записи в частотном диапазоне от 16 до 48 кГц.

На странице проекта доступны примеры генерации и сравнение с другими популярными моделями. Демонстрационная модель развёрнута на платформе Hugging Face. На ней можно попробовать синтез с несколькими параметрами. Код платформы опубликован в GitHub-репозитории. Для локального запуска необходимо использовать Pytorch и Torchaudio.

Источник новости: habr.com

Чат в Telegram

Регистрация

Войти

Главная

Опросы

Форум

Обзор новинок

Обменник

Android

Трекер

PC

Видео

Картинки

Новости

Разные новости

Статьи

Блоги

Комментарии

ПОДДЕРЖИ сайт

Разработчики выпустили HierSpeech++ — модель для генерации голоса

Разное

Похожие файлы

Разработчики выпустили нейросеть Unique3D для генерации трёхмерных моделей

Разработчики выпустили ToonCrafter — нейросеть для генерации анимационных видео

Tencent выпустила Hunyuan3D — нейросеть для генерации 3D-моделей

Google объявил о том, что их модель для генерации видео Veo теперь доступна для подписчиков Google Cloud