Mozilla выпустила открытый набор голосовых данных Common Voice 20

Разное

20:50 18-12-2024

DimonVideo

Mozilla выпустила открытый набор голосовых данных Common Voice 20

Компания Mozilla представила новую версию датасета Common Voice, в который вошли записи речи более 200 тысяч людей. Датасет доступен по лицензии CC0 (общественное достояние), его можно использовать для разработки моделей распознавания и генерации речи.

Объём собранного речевого материала в новой версии увеличился с 32,6 до 33,1 тыс. часов, количество поддерживаемых языков выросло с 129 до 133 (добавились записи на арагонском языке, а также языках исиндебеле, южный сото и тупури). Датасет содержит 3,6 тыс. часов речи на английском, 3,3 тыс. часов речи на русском, 1,8 тыс. на белорусском, 114 часов на украинском, 265 на узбекском.

Mozilla Common Voice — это открытая инициатива по машинному обучению речи реальных людей. Первый набор Common Voice был опубликован 29 ноября 2017 года, в него входило 400 тыс. записей на 500 часов. Сегодня набор Common Voice на английском — вторая по величине свободно распространяемая коллекция голосовых данных после LibriSpeech. Все накопленные данные считаются общественным достоянием. Поддержать инициативу может любой желающий.

В апреле российские разработчики при поддержке Фонда содействия инновациям в рамках федерального проекта «Искусственный интеллект» выпустили открытый датасет для детекции речи (voice activity detection). Он содержит порядка 150 тысяч часов аудио более чем на 6 тысячах языков.

Источник новости: habr.com

Чат в Telegram

Регистрация

Войти

Главная

Опросы

Форум

Обзор новинок

Обменник

Android

Трекер

PC

Видео

Картинки

Новости

Разные новости

Статьи

Блоги

Комментарии

ПОДДЕРЖИ сайт

Mozilla выпустила открытый набор голосовых данных Common Voice 20

Разное

Похожие файлы

Mozilla выпустила открытый набор голосовых данных Common Voice 19.0

Проект Overture Maps представил открытые наборы картографических данных

Ассоциация Разработчиков и Производителей Электроники РФ выпустила открытое письмо в поддержку «ЛайтКом» и «Миландр»

В открытый доступ попали данные пользователей соцсети Yappy