Часто задаваемые вопросы

Общие вопросы

  1. Кто может воспользоваться возможностями Yandex SpeechKit?
  2. Можно ли использовать Yandex SpeechKit в коммерческих целях?
  3. Кто может получить бесплатный доступ к Yandex SpeechKit?
  4. Как получить API-ключ?
  5. Что такое UUID и как его получить?
  6. Где можно использовать Yandex SpeechKit?
  7. У нас есть задача, для решения которой необходимо использовать речевые технологии. Мы готовы заплатить. Вы можете помочь?

Кто может воспользоваться возможностями Yandex SpeechKit?

Воспользоваться возможностями SpeechKit может любой желающий.

Коммерческое использование SpeechKit Cloud доступно для юридических лиц.

Физические лица, использующие технологию SpeechKit Cloud для частных и социальных проектов также могут использовать речевые технологии Яндекса на бесплатной основе.

Использование SpeechKit Cloud на бесплатной основе регулируется пользовательским соглашением.

Можно ли использовать Yandex SpeechKit в коммерческих целях?

Да, коммерческое использование SpeechKit Cloud доступно для юридических лиц.

Для перехода на коммерческое использование ключа, за 10 дней до окончания тестового периода (длительность тестового периода — 30 дней) заполните заявку на заключение договора и отправьте ее нам.

При коммерческом использовании тарификация составляет 20 копеек за один запрос на синтез или распознавание речи. Один запрос равен 20 секундам. Если за обращение к серверу обрабатывается пакет данных меньшей длительности, он автоматически округляется до 20 секунд.

По завершению отчетного периода выставляется счет на основе фактического количества переданных запросов, но не меньше 200 рублей.

Кто может получить бесплатный доступ к Yandex SpeechKit?

SpeechKit Mobile SDK можно использовать бесплатно, если вы совершаете меньше 10 000 запросов в сутки.

Первый месяц использования SpeechKit Cloud API является бесплатным для всех. Для бесплатного периода действует ограничение — не более 1000 запросов в сутки.

Если вы хотите использовать распознавание речи в исследовательских или образовательных проектах, для некоммерческих целей — напишите нам. В письме укажите используемый ключ, а также опишите ваш проект.

Как получить API-ключ?

Ключ можно получить в Кабинете разработчика.

Что такое UUID и как его получить?

UUID (Universally Unique Identifier) — это универсальный идентификатор пользователя. Должен быть уникальным для каждого пользователя или устройства.

Разработчик самостоятельно формирует идентификатор случайным образом. Для наших API нужно передавать его в виде строки из 32‑х цифр (без дефисов) в шестнадцатеричной системе счисления.

Где можно использовать Yandex SpeechKit?

Сейчас библиотека SpeechKit используется в мобильных приложениях и на сервисах Яндекса, а также в проектах других разработчиков приложений для iOS и Android.

Также SpeechKit работает в составе промышленных систем, где есть потребность в распознавании речи.

У нас есть задача, для решения которой необходимо использовать речевые технологии. Мы готовы заплатить. Вы можете помочь?

В данный момент SpeechKit Cloud предоставляется в формате «as is». Мы не дорабатываем технологию по запросу.

Возможности SpeechKit Cloud описаны в документации.

Речевые технологии

  1. Что такое запрос?
  2. Где происходит распознавание?
  3. От чего зависит качество распознавания?
  4. Можно ли улучшить качество распознавания для конкретного пользователя?
  5. Почему первым в списке результатов распознавания иногда оказывается не самый точный вариант?
  6. Какую информацию о говорящем вы можете извлечь из голосового запроса?
  7. Может ли SpeechKit понять смысл распознанного текста?
  8. Вы можете создать новый голос для озвучивания?
  9. Возможно ли создание новых языковых моделей для распознавания речи?
  10. Мы хотим использовать SpeechKit для протоколирования встреч, это возможно?
  11. Мы хотим использовать SpeechKit для перевода телефонных разговоров/интервью в текст и для выявления определенных слов-маркеров, это возможно?

Что такое запрос?

Запрос — это одно обращение к серверу SpeechKit с помощью вашего API-ключа.

Для целей тарификации и подсчета статистики под запросом понимается условная единица, равная 20 секундам синтезированной или распознанной речи.

Для определения количества запросов фактическая длина запроса делится на двадцать и округляется в большую сторону.

Например, если за обращение к серверу передается звуковой фрагмент длительностью 13 секунд, это будет считаться одним запросом.

Где происходит распознавание?

Распознавание речи происходит на серверах Яндекса.

От чего зависит качество распознавания?

Качество распознавания зависит от качества исходного звука, качества кодирования, разборчивости и темпа речи, сложности фраз и их длины. Также важна тематика голосовых запросов — она должна максимально совпадать с выбранной языковой моделью.

Можно ли улучшить качество распознавания для конкретного пользователя?

Качество распознавания можно улучшить за счет качества звука на входе.

Акустические модели Яндекса обучаются на сотнях тысяч записей речи разных людей и учитывают различные произношения и акценты. Модели постоянно переобучаются с добавлением свежих данных, поэтому адаптировать систему под конкретного человека скорее всего не потребуется.

Почему первым в списке результатов распознавания иногда оказывается не самый точный вариант?

Это связано с низким качеством исходного звука или неразборчивостью речи. Даже если среди результатов распознавания есть верный, ранжирование не всегда оказывается удовлетворительным.

Какую информацию о говорящем вы можете извлечь из голосового запроса?

Существуют технологии определения пола говорящего, эмоционального состояния и возраста. С помощью SpeechKit Cloud API можно получить информацию о поле и о возрастной группе говорящего, а также определить язык.

Может ли SpeechKit понять смысл распознанного текста?

Да. Мы работаем над технологиями понимания естественной речи (Nаtural Language Understanding). В настоящий момент эти функции используются во внутренних сервисах Яндекса и не лицензированы для внешних заказчиков.

Вы можете создать новый голос для озвучивания?

Да. Статистический подход позволяет нам быстро создавать новые голоса. Для создания голоса достаточно записать всего несколько часов речи диктора.

Возможно ли создание новых языковых моделей для распознавания речи?

В настоящий момент мы не занимаемся разработкой дополнительных языковых моделей по запросу заказчика.

Мы хотим использовать SpeechKit для протоколирования встреч, это возможно?

Распознавание длинных аудиофайлов является сложной и до конца не решенной технологической задачей. Сейчас мы не берем в работу такие проекты.

Мы хотим использовать SpeechKit для перевода телефонных разговоров/интервью в текст и для выявления определенных слов-маркеров, это возможно?

Нет, SpeechKit заточен под распознавание коротких речевых сообщений длительностью до 30 секунд.

Задачи по речевой аналитике — выявление определенных слов, оценка эмоционального фона собеседников, соответствие разговора скрипту не решаются с помощью функциональности SpeechKit.

SpeechKit Cloud API

  1. Какое количество запросов может обрабатывать SpeechKit Cloud?
  2. Существует ли запасной вариант работы с SpeechKit Cloud, который можно было бы использовать, если основной выйдет из строя?
  3. Распознавание занимает много времени. Почему?
  4. При распознавании некоторых фрагментов сервер возвращает ошибку 500.
  5. Возможно ли использовать эту систему для обработки массивов уже записанного звука?
  6. Ответ сервера: "Content-size limit reached!". Что это значит?
  7. Какова максимальная длина звукового фрагмента для распознавания?
  8. Сколько знаков после запятой можно указывать для параметра speed?

Какое количество запросов может обрабатывать SpeechKit Cloud?

SpeechKit Cloud ежедневно обрабатывает миллионы голосовых запросов от пользователей Яндекса, а также от внешних сервисов и приложений, которые используют нашу технологию.

Для каждого ключа есть ограничение по максимальному числу запросов в сутки. Если вам нужно параллельно обрабатывать большое число запросов, напишите нам на адрес voice@support.yandex.ru. В письме укажите ваш API‑ключ и объем запросов, который вам необходим.

Существует ли запасной вариант работы с SpeechKit Cloud, который можно было бы использовать, если основной выйдет из строя?

Запросы к API обрабатывает балансировщик, который автоматически распределяет их по разным серверам. Инфраструктура SpeechKit изначально спроектирована под высокие нагрузки, поэтому система является достаточно надежной.

Распознавание занимает много времени. Почему?

Такое может происходить, если система получает на вход слишком длинный звуковой фрагмент.

Если речевой фрагмент длиной в 20 секунд распознается дольше 7–8 секунд, напишите нам об этом.

При распознавании некоторых фрагментов сервер возвращает ошибку 500.

Напишите нам. Мы постараемся решить эту проблему.

Возможно ли использовать эту систему для обработки массивов уже записанного звука?

SpeechKit поддерживает распознавание уже созданных записей, однако технология заточена под работу с короткими фрагментами речи. Если продолжительность записи больше 30 секунд, качество снижается.

Сейчас SpeechKit не подходит для решения задач распознавания записей телефонных разговоров, интервью и других длительных аудиозаписей.

Ответ сервера: "Content-size limit reached!". Что это значит?

Превышен максимальный размер аудио фрагмента, который может быть передан в одном POST-запросе.

При передаче по протоколу HTTP аудиофайлов размером больше 1 МБ используйте механизм кодирования передачи.

Какова максимальная длина звукового фрагмента для распознавания?

Если вы отправляете POST-запрос, в котором звуковой фрагмент передается целиком, максимальный размер аудио файла — 1 МБ.

Если вам нужно распознавать аудио из файла большего размера, отправляйте данные частями — используйте механизм кодирования передачи или потоковый режим.

Если эти ограничения не подходят для ваших задач, напишите об этом нам.

Сколько знаков после запятой можно указывать для параметра speed?

Использовать сотые доли можно, но на практике не имеет смысла. Например, разница между значениями 0,7 и 0,8 настолько не существенна, что человеческому уху ее с трудом удается различить.