Документация

Как работает машинный перевод

Система машинного перевода позволяет переводить отдельные слова, целые тексты и веб-страницы. Она существует в виде веб-сервиса, мобильного приложения, а также работает в других продуктах Яндекса, например, в Браузере помогает переводить веб-страницы.

От других немногочисленных подобных сервисов Яндекс.Перевод отличается автословарем. Технология, разработанная командой лингвистов и программистов Яндекса, объединяет современные статистические подходы машинного перевода и традиционные лингвистические инструменты.

Машинный перевод Яндекса основан на статистическом подходе. Чтобы выучить язык, система сравнивает сотни тысяч параллельных текстов, переводящих друг друга «по предложениям». Она содержит два фундаментальных блока: модель перевода и модель языка.

Модель перевода строит граф, содержащий все возможные варианты перевода предложения. Модель языка выбирает лучший вариант перевода с точки зрения оптимальной сочетаемости слов в натуральном языке.

Обучается модель перевода на больших корпусах параллельных текстов. Языковая модель строится из больших корпусов текстов на одном языке и содержит все его наиболее употребимые n-словные сочетания. N может быть от 1 до 7 (обычно 5).

Для автоматической оценки качества машинного перевода Яндекс использует метрику BLEU — она определяет процент n-грамм (n<=4), совпавших в машинном переводе и эталонном переводе предложения. Вручную обычно оценивают по 5-балльной шкале два показателя: передача смысла (Adequacy) и гладкость речи (Fluency).