Настройка распознавания речи, особенности аудио и черновика роботов

Дата обновления контента: 01.05.2024

Эффективность Голосового робота на 90% зависит от его способности точно понимать клиента, говорящего на разных языках или с разной скоростью. В UniTalk мы интегрировали расширенные настройки распознавания речи (на базе Google), которые позволяют управлять двумя языками одновременно, настраивать чувствительность и скорость получения результата. Кроме того, вы получаете гибкий инструмент для создания аудио: от динамического синтеза речи (TTS) из параметров обзвона до использования SSML и тишины. Это обеспечивает максимальную натуральность диалога и гарантирует, что ни один билингвальный клиент не будет проигнорирован.

Как робот выбирает результаты распознавания, если в настройках распознавания указаны два языка?

Система распознавания Google по мере того, как абонент разговаривает, отправляет промежуточные результаты, а примерно через 1,5-2,5 сек, когда абонент договорил, отправляет финальный результат распознавания.

Для какого языка поступит финальный результат первым, тот и будет выбран. Если он поступит одновременно для обоих языков, будет выбран тот, у которого % точности выше, что определяет Google.

Если в настройках распознавания языка включить «Не ждать финальный результат», а последний промежуточный результат пришел более 2 секунд назад, он будет считаться финальным.

Настройки речи абонента создаются на странице настройки распознавания. На данный момент доступна только система распознавания Google.

Общие настройки

Название — название профиля
Настройка основного языка
Настройка альтернативного языка
Альтернативный язык не должен совпадать с основным, указывать его не обязательно. Распознавание альтернативного языка оплачивается отдельно.

Особенности распознавания Google

В Google есть языки, которые поддерживают улучшенное распознавание (заточенное под телефонные звонки) и те, которые не поддерживают.
Список языков, которые доступны к выбору в настройках:
- English (US) — поддерживает улучшенное распознавание
- English (GB) — поддерживает улучшенное распознавание
- Украинский
- русский
- Польский
Если вам нужен язык, которого нет в списке, обратитесь в техническую поддержку.
Во время распознавания Google отправляет промежуточные результаты, пока абонент говорит, а через некоторое время — финальный результат.
Для языков, которые поддерживают улучшенное распознавание (русский, английский), финальный результат поступает примерно через 2 секунды после того, как абонент закончил говорить.
С языками, которые не поддерживают улучшенное распознавание (украинский, польский), все нестабильно: финальный результат может прийти через 2 секунды, а может аж через минуту.

Настройки:

Использовать расширенную модель распознавания. Доступно только для языков с улучшенным распознаванием. Примерно на 10% ускоряет получение финального результата, но промежуточные результаты становятся менее точными.
Не ждать финального результата. Если после получения промежуточного результата в течение 2 секунд мы не получили другой промежуточный или финальный результат, то результат будет принят в работу голосовым роботом, не дожидаясь финального результата. Эта настройка добавлена специально для языков, которые не поддерживают улучшенное распознавание. Не рекомендуем включать для языков, которые поддерживают улучшенное распознавание.

Особенности аудио

Аудио и альтернативное аудио вы можете задать не просто как одно аудио проекта, а как набор частей.

Частью аудио могут быть:

аудио проекта

Чтобы аудио было доступно для голосовых роботов, на странице аудио оно обязательно должно быть загружено в разделе «Голосовые роботы». Максимально возможная длительность аудио — 5 минут, если больше — при загрузке обрежется.

тишина

Максимально возможная продолжительность тишины — 10 000 миллисекунд (10 секунд)

синтез речи

— «Синтезировать значение» — выбор значения, которое нужно синтезировать. Синтезировать можно данные, указанные в номерах голосовых роботов — имя, заметку, параметры от 1 до 10, данные для Web Dialer

— Синтез речи работает только для звонков голосовых роботов. Голосовой робот до того, как звонить абоненту синтезирует все аудио в работе и его фоновых диалогах

— Настройка «Если не удалось синтезировать аудио» определяет, что будет в случае неудачного синтеза.

— Завершить звонок — если не удалось синтезировать хотя бы одно аудио — робот не будет звонить абоненту

— Пропустить аудио — части аудио, которые не удалось синтезировать, будут пропущены при воспроизведении аудио абоненту

Если в части аудио не выбраны настройки синтеза речи, будут использоваться настройки синтеза речи, которые указаны в основных настройках робота.

Если параметр, который необходимо синтезировать, отсутствует, эта часть аудио во время его проигрывания будет пропущена. Например, когда в синтезе указано, что нужно синтезировать имя из номера обзвона, но имя не указано.

Если значение, которое нужно синтезировать, начинается и заканчивается с , оно будет синтезировано как текст в формате SSML, а не как обычный текст.

Например, здесь показано одно аудио, которое состоит из четырех частей. При проигрывании аудио абоненту сначала будет проигрываться аудио проекта «Добрый день», затем 0,2 секунды тишины, далее — синтезированное аудио со значением, которое указано в поле «Имя», а в конце — аудио проекта «Акция».

Черновики роботов

При редактировании робота несохраненные изменения сохраняются в черновики. Список черновиков находится на странице голосовых роботов в разделе «Черновики». После сохранения робота черновик автоматически удаляется. Черновики привязаны к браузеру и видеть их можете только вы. Максимальное количество сохраненных черновиков — 3.

Черновики сохраняются при любом изменении робота и при перемещении между версиями робота в редакторе стрелками, кроме случая, когда левая стрелка не активна (в этом случае изменений нет).

На странице голосовых роботов можно удалять и просматривать черновики. В каждом черновике отображается id робота, к которому он относится. Если id=0, это черновик робота, который еще не был сохранен и не получил id.

Если перейти в черновик и сохранить его, изменения сохранятся в работе с таким же id, за исключением случаев, когда id=0 — тогда будет создан новый робот. Например:

У черновика «Окна» и у робота «Окна» одинаковый id. Если перейти в черновик и нажать кнопку «Сохранить», изменения применятся к роботу «Окна», а черновик «Окна» автоматически удалится.

Другие настройки

Где в настройках робота указывается язык?

Языки, на которых мы получаем распознанные слова абонента, указываются в настройках распознавания речи. Они указываются в основных настройках робота. В условиях перехода фразы, слова и т.д. должны быть прописаны на тех же языках, которые указаны в настройках распознавания речи.

В каких случаях добавляются новые версии, к которым можно вернуться с помощью кнопки «Отменить»?

— Во время добавления узла во время добавления узла

— При удалении узла во время удаления узла

— После нажатия на кнопку «Применить изменения» на боковой панели с настройками (т.е. после сохранения основных настроек робота, настроек условий узла, сохранения настроек действия узла)

— При вставке узлов после копирования или вырезания

— После изменения цвета боковой полосы узлов

— После перемещения узла влево или вправо в списке дочерних узлов родительского узла

После сохранения робота отменить изменения нельзя — промежуточные версии теряются.

Сущности, указанные в голосовых роботах нельзя удалить из проекта

Это касается:

Сценариев
Голосовых меню
Отделов
Аудио голосовых роботов аудио голосовых роботов
Мелодий на содержании
Обработчиков событий
Фоновых роботов фоновых роботов
Профилей условий голосовых роботов
Профилей настроек распознавания речи в настройках

При удалении из проекта внутренней линии, если она была указана в действиях голосовых роботов с типом «Перевод звонка на SIP-линию», тип действия будет изменен на «Выход из голосового робота»
В истории звонков в переадресациях голосовые роботы отображаются как один шаг переадресации. Фоновые роботы не попадают в переадресации, они считаются частью основного робота.

Тонкая настройка распознавания речи и гибкость работы с аудио являются ключом к созданию высокоадаптивного Голосового робота. Используя два языка распознавания и индивидуальные настройки (такие как «Не ждать финальный результат» для менее стабильных языков), вы минимизируете задержки и обеспечиваете точность. Возможность создавать аудио из динамических частей (TTS из параметров) позволяет мгновенно персонализировать обзвоны. Наконец, система черновиков гарантирует, что ваши незавершенные изменения всегда будут сохранены и защищены от случайных потерь.

UniTalk: единое решение для управления коммуникацией с клиентами

Закажите обратный звонок или позвоните нам:

+38 (073) 332 50 13

Получить консультацию