Компания Mozilla представила в открытом доступе обновлённые наборы голосовых данных Common Voice с примерами произношения более 200 тысяч человек. Их можно использовать в системах машинного обучения для построения моделей распознавания и синтеза речи.
Объём речевого материала в коллекции увеличился с 31.8 до 32.6 тысяч часов, из которых более 20 тысяч часов прошли процедуру проверки. Одновременно число поддерживаемых языков увеличилось со 129 до 131.
Для англоязычных записей использовали голоса 93,9 тысяч человек. Они надиктовали 3587 часов речи. Набор русского языка включает 3296 участников и 278 часов (ранее был 3241 участник и 277 часов), узбекского — 2200 участников и 265 часов (было 2189 участников и 265 часов), белорусского языка — 8444 участников и 1846 часов речевого материала (было 8400 участников и 1815 часов).
Больше всего речевых записей (25%) предоставили участники в возрасте 20-29 лет, 45% участников — мужчины, а 17% — женщины.
Mozilla Common Voice — это открытая инициатива по машинному обучению речи реальных людей. Все накопленные данные считаются общественным достоянием. Поддержать инициативу может любой желающий.
Между тем российские разработчики при поддержке Фонда содействия инновациям в рамках федерального проекта «Искусственный интеллект» выпустили открытый датасет для детекции речи (voice activity detection). Он содержит порядка 150 тысяч часов аудио более чем на 6 тысячах языков.
Источник новости: habr.com