категории | RSS

В Google Translate появится поддержка 110 новых языков

В сервисе Google Translate будет поддерживаться 110 новых языков, от кантонского диалекта до кекчи. Ранее компания объявила об инициативе «1000 языков» — обязательстве создать модели искусственного интеллекта, которые будут поддерживать именно такое количество переводов.

Реализация инициативы происходит при поддержке большой языковой модели PaLM 2.

Отмечается, что на 110 языках, которые будет включать сервис, говорят более 614 млн человек или около 8% населения мира. На некоторых из этих языков более 100 млн человек. У других же почти не осталось носителей, но ведётся активная работа по их возрождению. 

Около четверти новых языков приходится на Африку, включая фон, киконго, луо, га, свати, венда и волоф.

Вот примеры языков, которые будут поддерживаться в Google Translate:

афар — тональный язык, на котором говорят в Джибути, Эритрее и Эфиопии;

кантонский диалект, который используют в Китае;

мэнкс — кельтский язык острова Мэн. Он почти перестал использоваться со смертью последнего носителя языка в 1974 году, но сейчас на нём снова  говорят тысячи людей;

НКо — это стандартизированная форма западноафриканских языков мандинг, которая объединяет многие диалекты. Уникальный алфавит языка был изобретен в 1949 году, и сегодня над ним работает активное исследовательское сообщество;

пенджаби (шахмукхи) — это разновидность пенджаби, написанная персидско-арабским письмом (шахмукхи), является наиболее распространённым языком в Пакистане;

тамазайт (амазиг) — берберский язык, на котором говорят в Северной Африке;

ток-писин — креольский язык английского происхождения и лингва-франка Папуа-Новой Гвинеи.

Подход Google при отборе языков заключался в определении приоритетности наиболее часто используемых их разновидностей. Например, цыганский язык включает множество диалектов. PaLM 2 научили генерировать текст, наиболее близкий к южному влакс-ромскому, широко используемому варианту в Интернете. Однако он включает и элементы диалекта северных влахов и балканских цыган.

В 2023 году Google представила модель PaLM 2, которая работает на 100 языках и, в том числе, на 20 языках программирования.



Источник новости: habr.com

DimonVideo
2024-06-27T12:50:04Z

Здесь находятся
всего 0. За сутки здесь было 0 человек
Яндекс.Метрика