Настройка распознавания речи, особенности аудио и черновика роботов
Эффективность Голосового робота на 90% зависит от его способности точно понимать клиента, говорящего на разных языках или с разной скоростью. В UniTalk мы интегрировали расширенные настройки распознавания речи (на базе Google), которые позволяют управлять двумя языками одновременно, настраивать чувствительность и скорость получения результата. Кроме того, вы получаете гибкий инструмент для создания аудио: от динамического синтеза речи (TTS) из параметров обзвона до использования SSML и тишины. Это обеспечивает максимальную натуральность диалога и гарантирует, что ни один билингвальный клиент не будет проигнорирован.
Как робот выбирает результаты распознавания, если в настройках распознавания указаны два языка?
Система распознавания Google по мере того, как абонент разговаривает, отправляет промежуточные результаты, а примерно через 1,5-2,5 сек, когда абонент договорил, отправляет финальный результат распознавания.
Для какого языка поступит финальный результат первым, тот и будет выбран. Если он поступит одновременно для обоих языков, будет выбран тот, у которого % точности выше, что определяет Google.
Если в настройках распознавания языка включить «Не ждать финальный результат», а последний промежуточный результат пришел более 2 секунд назад, он будет считаться финальным.
Настройки речи абонента создаются на странице настройки распознавания. На данный момент доступна только система распознавания Google.
Общие настройки
- Название — название профиля
- Настройка основного языка
- Настройка альтернативного языка
- Альтернативный язык не должен совпадать с основным, указывать его не обязательно. Распознавание альтернативного языка оплачивается отдельно.
Особенности распознавания Google
- В Google есть языки, которые поддерживают улучшенное распознавание (заточенное под телефонные звонки) и те, которые не поддерживают.
- Список языков, которые доступны к выбору в настройках:
- English (US) — поддерживает улучшенное распознавание
- English (GB) — поддерживает улучшенное распознавание
- Украинский
- русский
- Польский
- Если вам нужен язык, которого нет в списке, обратитесь в техническую поддержку.
- Во время распознавания Google отправляет промежуточные результаты, пока абонент говорит, а через некоторое время — финальный результат.
- Для языков, которые поддерживают улучшенное распознавание (русский, английский), финальный результат поступает примерно через 2 секунды после того, как абонент закончил говорить.
- С языками, которые не поддерживают улучшенное распознавание (украинский, польский), все нестабильно: финальный результат может прийти через 2 секунды, а может аж через минуту.
Настройки:
- Использовать расширенную модель распознавания. Доступно только для языков с улучшенным распознаванием. Примерно на 10% ускоряет получение финального результата, но промежуточные результаты становятся менее точными.
- Не ждать финального результата. Если после получения промежуточного результата в течение 2 секунд мы не получили другой промежуточный или финальный результат, то результат будет принят в работу голосовым роботом, не дожидаясь финального результата. Эта настройка добавлена специально для языков, которые не поддерживают улучшенное распознавание. Не рекомендуем включать для языков, которые поддерживают улучшенное распознавание.
Особенности аудио
Аудио и альтернативное аудио вы можете задать не просто как одно аудио проекта, а как набор частей.
Частью аудио могут быть:
- аудио проекта

Чтобы аудио было доступно для голосовых роботов, на странице аудио оно обязательно должно быть загружено в разделе «Голосовые роботы». Максимально возможная длительность аудио — 5 минут, если больше — при загрузке обрежется.
- тишина

Максимально возможная продолжительность тишины — 10 000 миллисекунд (10 секунд)
- синтез речи

— «Синтезировать значение» — выбор значения, которое нужно синтезировать. Синтезировать можно данные, указанные в номерах голосовых роботов — имя, заметку, параметры от 1 до 10, данные для Web Dialer
— Синтез речи работает только для звонков голосовых роботов. Голосовой робот до того, как звонить абоненту синтезирует все аудио в работе и его фоновых диалогах
— Настройка «Если не удалось синтезировать аудио» определяет, что будет в случае неудачного синтеза.

— Завершить звонок — если не удалось синтезировать хотя бы одно аудио — робот не будет звонить абоненту
— Пропустить аудио — части аудио, которые не удалось синтезировать, будут пропущены при воспроизведении аудио абоненту
Если в части аудио не выбраны настройки синтеза речи, будут использоваться настройки синтеза речи, которые указаны в основных настройках робота.
Если параметр, который необходимо синтезировать, отсутствует, эта часть аудио во время его проигрывания будет пропущена. Например, когда в синтезе указано, что нужно синтезировать имя из номера обзвона, но имя не указано.
Если значение, которое нужно синтезировать, начинается и заканчивается с , оно будет синтезировано как текст в формате SSML, а не как обычный текст.

Например, здесь показано одно аудио, которое состоит из четырех частей. При проигрывании аудио абоненту сначала будет проигрываться аудио проекта «Добрый день», затем 0,2 секунды тишины, далее — синтезированное аудио со значением, которое указано в поле «Имя», а в конце — аудио проекта «Акция».
Черновики роботов
При редактировании робота несохраненные изменения сохраняются в черновики. Список черновиков находится на странице голосовых роботов в разделе «Черновики». После сохранения робота черновик автоматически удаляется. Черновики привязаны к браузеру и видеть их можете только вы. Максимальное количество сохраненных черновиков — 3.
Черновики сохраняются при любом изменении робота и при перемещении между версиями робота в редакторе стрелками, кроме случая, когда левая стрелка не активна (в этом случае изменений нет).

На странице голосовых роботов можно удалять и просматривать черновики. В каждом черновике отображается id робота, к которому он относится. Если id=0, это черновик робота, который еще не был сохранен и не получил id.
Если перейти в черновик и сохранить его, изменения сохранятся в работе с таким же id, за исключением случаев, когда id=0 — тогда будет создан новый робот. Например:

У черновика «Окна» и у робота «Окна» одинаковый id. Если перейти в черновик и нажать кнопку «Сохранить», изменения применятся к роботу «Окна», а черновик «Окна» автоматически удалится.
Другие настройки
- Где в настройках робота указывается язык?
Языки, на которых мы получаем распознанные слова абонента, указываются в настройках распознавания речи. Они указываются в основных настройках робота. В условиях перехода фразы, слова и т.д. должны быть прописаны на тех же языках, которые указаны в настройках распознавания речи.
- В каких случаях добавляются новые версии, к которым можно вернуться с помощью кнопки «Отменить»?

— Во время добавления узла во время добавления узла
— При удалении узла во время удаления узла
— После нажатия на кнопку «Применить изменения» на боковой панели с настройками (т.е. после сохранения основных настроек робота, настроек условий узла, сохранения настроек действия узла)
— При вставке узлов после копирования или вырезания
— После изменения цвета боковой полосы узлов
— После перемещения узла влево или вправо в списке дочерних узлов родительского узла
После сохранения робота отменить изменения нельзя — промежуточные версии теряются.
- Сущности, указанные в голосовых роботах нельзя удалить из проекта
Это касается:
- Сценариев
- Голосовых меню
- Отделов
- Аудио голосовых роботов аудио голосовых роботов
- Мелодий на содержании
- Обработчиков событий
- Фоновых роботов фоновых роботов
- Профилей условий голосовых роботов
- Профилей настроек распознавания речи в настройках
- При удалении из проекта внутренней линии, если она была указана в действиях голосовых роботов с типом «Перевод звонка на SIP-линию», тип действия будет изменен на «Выход из голосового робота»
- В истории звонков в переадресациях голосовые роботы отображаются как один шаг переадресации. Фоновые роботы не попадают в переадресации, они считаются частью основного робота.
Тонкая настройка распознавания речи и гибкость работы с аудио являются ключом к созданию высокоадаптивного Голосового робота. Используя два языка распознавания и индивидуальные настройки (такие как «Не ждать финальный результат» для менее стабильных языков), вы минимизируете задержки и обеспечиваете точность. Возможность создавать аудио из динамических частей (TTS из параметров) позволяет мгновенно персонализировать обзвоны. Наконец, система черновиков гарантирует, что ваши незавершенные изменения всегда будут сохранены и защищены от случайных потерь.