«Яндекс. Переводчик» обновят, добавив в него более двух десятков языков малых народов России. Сервис уже поддерживает осетинский язык, а остальные будут добавлять постепенно в течение ближайших трёх лет.
Некоторые языки получат встроенную нейросетевую технологию распознавания и синтеза речи. Это позволит переводить сайты в «Яндекс. Браузере», а также использовать голосовой ввод в «Поиске», «Картах» и мессенджерах с помощью «Яндекс. Клавиатуры». Первым языком с поддержкой этой опции станет татарский.
Кроме татарского, распознавание и синтез речи будут доступны для более чем 10 популярных языков, на каждом из которых говорят более 300 тысяч человек
Кроме того, виртуальный ассистент «Алиса» научится читать на этих языках народные сказки.
По данным «Яндекс. Поиска», жители РФ чаще всего ищут в Интернете перевод фраз на татарском. На втором месте — башкирский, а на третьем — чувашский. Эти и другие языки, такие как удмуртский, якутский, горномарийский и марийский, уже доступны в «Переводчике», часть из них — в бета-версии. Позднее в «Переводчик» будут добавлены языки Северного Кавказа: чеченский, ингушский и другие, а позже и языки народов Сибири, в том числе бурятский и тувинский.
Наконец, «Яндекс» планирует улучшить качество перевода доступных языков.
Чтобы научить нейросеть переводить с новых языков, ей показывают параллельные тексты — фрагменты одинакового текста на двух языках. При этом энкодер конвертирует исходный текст в абстрактное представление в виде чисел, а декодер использует это представление для генерации перевода. Однако в случае с малыми языками нейросети обычно не хватает данных. Чтобы решить эту проблему, «Яндекс» прибегает к помощи лингвистического сообщества. Кроме того, улучшать перевод помогают знания о схожих языках. В «Яндекс. Переводчике» одна модель переводит с татарского, якутского и чувашского на русский, поскольку эти три языка относятся к тюркским. Создание единой модели для родственных языков позволяет собирать большой набор параллельных текстов и в итоге добиваться более высокого качества, чем при обучении отдельных моделей для каждого языка.
Между тем в Google Translate внедрили поддержку 110 новых языков, от кантонского диалекта до кекчи. Ранее компания объявила об инициативе «1000 языков» — обязательстве создать модели искусственного интеллекта, которые будут поддерживать именно такое количество переводов.
Источник новости: habr.com