Как настроить генерацию речи и звуков

Текст, который навык отправляет Алисе, можно оформить в формате TTS (text-to-speech), чтобы тоньше управлять звуками, которые воспроизводит навык.

Звуки из библиотеки

Наряду с синтезированным голосом навык может воспроизводить звуки из библиотеки Алисы. Чтобы добавить звуки к произносимому тексту, добавьте в свойство tts ответа тег <speaker>, например:

...
  "tts": "<speaker audio="alice-sounds-game-win-1.opus"> У вас получилось!"
...

Свойства и формат ответа описаны в протоколе работы навыков.

Настройка голосового синтеза

(разметку для голоса можно проверить на тестовом стенде Speechkit)

Советы по использованию TTS-разметки:

  • При необходимости ударные гласные в словах следует отмечать знаком «+», например:

    • остр+ота,
    • м+ука.
  • Длинные слова можно разбить на слова покороче и проставить ударения для каждого из этих коротких слов, например:

    • мн+ого пр+офильный,
    • с+еми пал+атинск.
  • Некоторые слова можно попробовать писать так, как они слышатся:

    • «ненастный»нен+асный;
    • «пожалуйста»пож+алуста.
  • Каждый отделенный пробелами пунктуационный знак преобразуется в фонему pau (пауза в 50-100 мс). Таким образом в тексте можно задавать небольшие паузы последовательностью дефисов. Например: Смелость - - - - - - город+а берет.

    Не стоит создавать таким образом паузы больше 10 секунд — длинная последовательность pau-фонем может привести к звуковым артефактам при синтезе.