Компания Mozilla представила новую версию датасета Common Voice, в который вошли записи речи более 200 тысяч людей. Датасет доступен по лицензии CC0 (общественное достояние), его можно использовать для разработки моделей распознавания и генерации речи.
Объём собранного речевого материала в новой версии увеличился с 32,6 до 33,1 тыс. часов, количество поддерживаемых языков выросло с 129 до 133 (добавились записи на арагонском языке, а также языках исиндебеле, южный сото и тупури). Датасет содержит 3,6 тыс. часов речи на английском, 3,3 тыс. часов речи на русском, 1,8 тыс. на белорусском, 114 часов на украинском, 265 на узбекском.
Mozilla Common Voice — это открытая инициатива по машинному обучению речи реальных людей. Первый набор Common Voice был опубликован 29 ноября 2017 года, в него входило 400 тыс. записей на 500 часов. Сегодня набор Common Voice на английском — вторая по величине свободно распространяемая коллекция голосовых данных после LibriSpeech. Все накопленные данные считаются общественным достоянием. Поддержать инициативу может любой желающий.
В апреле российские разработчики при поддержке Фонда содействия инновациям в рамках федерального проекта «Искусственный интеллект» выпустили открытый датасет для детекции речи (voice activity detection). Он содержит порядка 150 тысяч часов аудио более чем на 6 тысячах языков.
Источник новости: habr.com