Часто задаваемые вопросы

Общие вопросы

Кто может воспользоваться возможностями Yandex SpeechKit?

Воспользоваться возможностями SpeechKit может любой желающий.

Использование SpeechKit Cloud регулируется следующими условиями.

Можно ли использовать Yandex SpeechKit в коммерческих целях?

SpeechKit для коммерческого использования является платным.

Стоимость использования зависит от объема запросов. Для коммерческого использования нужно заключить договор с Яндексом.

Если у вас есть вопрос о платном использовании SpeechKit, напишите нам.

Кто может получить бесплатный доступ к Yandex SpeechKit?

SpeechKit Mobile SDK можно использовать бесплатно, если вы получаете меньше 10 000 запросов в сутки.

Первый месяц использования SpeechKit Cloud API и SpeechKit JavaScript API является бесплатным для всех.

Если вы хотите использовать распознавание речи в исследовательских или образовательных проектах, для некоммерческих целей — напишите нам.

Как получить API-ключ?

Ключ можно получить в Кабинете разработчика.

Что такое UUID и как его получить?

UUID (Universally Unique Identifier) — это универсальный идентификатор пользователя. Должен быть уникальным для каждого пользователя или устройства.

Разработчик самостоятельно формирует идентификатор случайным образом. Для наших API нужно передавать его в виде строки из 32‑х цифр (без дефисов) в шестнадцатеричной системе счисления.

Где можно использовать Yandex SpeechKit?

Сейчас библиотека SpeechKit используется в мобильных приложениях и на сервисах Яндекса, а также в проектах других разработчиков приложений для iOS, Android и WP8.

Также SpeechKit работает в составе промышленных систем, где есть потребность в распознавании речи.

У нас есть задача, для решения которой необходимо использовать речевые технологии. Мы готовы заплатить. Вы можете помочь?

Да. Расскажите нам нам о вашей задаче. Чем больше информации вы предоставите, тем точнее мы сможем вам ответить.

Речевые технологии

Где происходит распознавание?

Распознавание речи происходит на серверах Яндекса.

Если вам необходима локальная система распознавания, напишите нам.

Важно помнить, что распознавание речи — это сложная вычислительная задача, которая требует серьезных мощностей.

От чего зависит качество распознавания?

Качество распознавания зависит от качества исходного звука, качества кодирования, разборчивости и темпа речи, сложности фраз и их длины. Также важна тематика голосовых запросов — она должна максимально совпадать с выбранной языковой моделью.

Можно ли улучшить качество распознавания для конкретного пользователя?

Качество распознавания можно улучшить за счет качества звука на входе.

Акустические модели Яндекса обучаются на сотнях тысяч записей речи разных людей и учитывают различные произношения и акценты. Модели постоянно переобучаются с добавлением свежих данных, поэтому адаптировать систему под конкретного человека скорее всего не потребуется.

Почему первым в списке результатов распознавания иногда оказывается не самый точный вариант?

Это связано с низким качеством исходного звука или неразборчивостью речи. Даже если среди результатов распознавания есть верный, ранжирование не всегда оказывается удовлетворительными.

Какую информацию о говорящем вы можете извлечь из голосового запроса?

Существуют технологии определения пола говорящего, эмоционального состояния и возраста. С помощью SpeechKit Cloud API можно получить информацию о поле и о возрастной группе говорящего, а также определить язык.

Может ли SpeechKit понять смысл распознанного текста?

Да. Мы работаем над технологиями понимания естественной речи (Nаtural Language Understanding), и нам интересны задачи пользователей, связанные с ними. В наших приложениях это работает, например, в Навигаторе — с помощью смыслового анализа он понимает команды вида [Поехали домой через заправку].

Вы можете создать новый голос для озвучивания?

Да. Статистический подход позволяет нам быстро создавать новые голоса. Для создания голоса достаточно записать всего несколько часов речи диктора.

SpeechKit Cloud API

Какое количество запросов может обрабатывать SpeechKit Cloud?

SpeechKit Cloud ежедневно обрабатывает миллионы голосовых запросов от пользователей Яндекса, а также от внешних сервисов и приложений, которые используют нашу технологию.

Для каждого ключа есть ограничение по максимальному числу запросов в сутки. Если вам нужно параллельно обрабатывать большое число запросов, напишите нам на адрес voice@support.yandex.ru. В письме укажите ваш API‑ключ и объем запросов, который вам необходим.

Существует ли запасной вариант работы с SpeechKit Cloud, который можно было бы использовать, если основной выйдет из строя?

Запросы к API обрабатывает балансировщик, который автоматически распределяет их по разным серверам. Инфраструктура SpeechKit изначально спроектирована под высокие нагрузки, поэтому система является достаточно надежной.

Распознавание занимает много времени. Почему?

Такое может происходить, если система получает на вход слишком длинный звуковой фрагмент.

Если речевой фрагмент длиной в 20 секунд распознается дольше 7–8 секунд, напишите нам об этом.

При распознавании некоторых фрагментов сервер возвращает ошибку 500.

Напишите нам. Мы постараемся решить эту проблему.

Возможно ли использовать эту систему для обработки массивов уже записанного звука?

Да. Если у вас есть такие задачи, напишите нам.

Можно ли развернуть эту систему локально и что для этого нужно?

Можно. Если у вас есть такие задачи, напишите нам.

Ответ сервера: "Content-size limit reached!". Что это значит?

Превышен максимальный размер аудио фрагмента, который может быть передан в одном POST-запросе.

При передаче по протоколу HTTP аудио файлов размером больше 1 МБ используйте механизм кодирования передачи.

Какова максимальная длина звукового фрагмента для распознавания?

Если вы отправляете POST-запрос, в котором звуковой фрагмент передается целиком, максимальный размер аудио файла — 1 МБ.

Если вам нужно распознавать аудио из файла большего размера, отправляйте данные частями — используйте механизм кодирования передачи или потоковый режим.

Если эти ограничения не подходят для ваших задач, напишите об этом нам.

Сколько знаков после запятой можно указывать для параметра speed?

Использовать сотые доли можно, но на практике не имеет смысла. Например, разница между значениями 0,7 и 0,8 настолько не существенна, что человеческому уху ее с трудом удается различить.