Mozilla выпустила открытый набор голосовых данных Common Voice 19.0

Разное

10:50 23-09-2024

DimonVideo

Mozilla выпустила открытый набор голосовых данных Common Voice 19.0

Компания Mozilla представила в открытом доступе обновлённые наборы голосовых данных Common Voice с примерами произношения более 200 тысяч человек. Их можно использовать в системах машинного обучения для построения моделей распознавания и синтеза речи.

Объём речевого материала в коллекции увеличился с 31.8 до 32.6 тысяч часов, из которых более 20 тысяч часов прошли процедуру проверки. Одновременно число поддерживаемых языков увеличилось со 129 до 131.

Для англоязычных записей использовали голоса 93,9 тысяч человек. Они надиктовали 3587 часов речи. Набор русского языка включает 3296 участников и 278 часов (ранее был 3241 участник и 277 часов), узбекского — 2200 участников и 265 часов (было 2189 участников и 265 часов), белорусского языка — 8444 участников и 1846 часов речевого материала (было 8400 участников и 1815 часов).

Больше всего речевых записей (25%) предоставили участники в возрасте 20-29 лет, 45% участников — мужчины, а 17% — женщины.

Mozilla Common Voice — это открытая инициатива по машинному обучению речи реальных людей. Все накопленные данные считаются общественным достоянием. Поддержать инициативу может любой желающий.

Между тем российские разработчики при поддержке Фонда содействия инновациям в рамках федерального проекта «Искусственный интеллект» выпустили открытый датасет для детекции речи (voice activity detection). Он содержит порядка 150 тысяч часов аудио более чем на 6 тысячах языков.

Источник новости: habr.com

Чат в Telegram

Регистрация

Войти

Главная

Опросы

Форум

Обзор новинок

Обменник

Android

Трекер

PC

Видео

Картинки

Новости

Разные новости

Статьи

Блоги

Комментарии

ПОДДЕРЖИ сайт

Mozilla выпустила открытый набор голосовых данных Common Voice 19.0

Разное

Похожие файлы

Mozilla выпустила открытый набор голосовых данных Common Voice 20

Проект Overture Maps представил открытые наборы картографических данных

Ассоциация Разработчиков и Производителей Электроники РФ выпустила открытое письмо в поддержку «ЛайтКом» и «Миландр»

В открытый доступ попали данные пользователей соцсети Yappy