Синтез речи

Синтез речи — это процесс генерирования речи по печатному тексту. SpeechKit Cloud позволяет озвучить любой текст на нескольких языках. При этом можно выбрать голос (мужской или женский) и интонацию.

Языки

  • русский

  • английский

  • украинский

  • турецкий

Качество синтеза

Под качеством синтезированной речи понимается сходство с человеческим голосом и способность передать эмоции с помощью интонаций.

Особенность технологии синтеза в Яндексе — мы не склеиваем фрагменты реальной речи, а обучаем акустическую модель на речи диктора. Для этого используется статистический подход на базе скрытых марковских моделей (Hidden Markov Model). Тембр голоса, созданного таким образом, несколько искусственный, но речь получается плавной, а интонации естественными.

Статистический подход также позволяет менять параметры уже существующих голосов. Благодаря этому можно выбирать интонацию, с которой произносится текст.