Компания Mozilla обновила наборы голосовых данных Common Voice, включающие примеры произношения более 200 тысяч человек. Данные опубликованы как общественное достояние (CC0). Предложенные наборы можно использовать в системах машинного обучения для построения моделей распознавания и синтеза речи. По сравнению с прошлым обновлением объём речевого материала в коллекции увеличился с 28.7 до 30.3 тысяч часов речи, из которых 19.7 тысяч часов прошли процедуру проверки. Число поддерживаемых языков увеличилось со 114 до 120 (добавлены идиш, латгальский, лигурийский, осетинский, телугу и западный сьерра-пуэбланский науатль).

https://www.opennet.ru/opennews/art.shtml?num=60345