Налаштування розпізнавання мови, особливості аудіо та чернетки роботів
Ефективність Голосового робота на 90% залежить від його здатності точно розуміти клієнта, який говорить різними мовами або з різною швидкістю. У UniTalk ми інтегрували розширені налаштування розпізнавання мови (на базі Google), які дозволяють керувати двома мовами одночасно, налаштовувати чутливість та швидкість отримання результату. Крім того, ви отримуєте гнучкий інструмент для створення аудіо: від динамічного синтезу мови (TTS) з параметрів обдзвону до використання SSML та тиші. Це забезпечує максимальну натуральність діалогу та гарантує, що жоден білінгвальний клієнт не буде проігнорований.
Як робот вибирає результати розпізнавання, якщо в налаштуваннях розпізнавання вказано дві мови?
Система розпізнавання Google у міру того, як абонент розмовляє, надсилає проміжні результати, а приблизно через 1,5-2,5 сек, коли абонент договорив, надсилає фінальний результат розпізнавання.
Для якої мови надійде фінальний результат першим, той й буде вибраний. Якщо він надійде одночасно для обох мов, буде вибраний той, у якого % точності вище, що визначає Google.
Якщо в налаштуваннях розпізнавання мови увімкнути “Не чекати фінальний результат”, а останній проміжний результат прийшов більше, ніж 2 секунди тому, він вважатиметься фінальним.
Налаштування мовлення абонента створюються на сторінці налаштування розпізнавання. Наразі доступна лише система розпізнавання Google.
Загальні налаштування
- Назва — назва профілю
- Налаштування основної мови
- Налаштування альтернативної мови
- Альтернативна мова не має співпадати з основною, вказувати його не обов’язково. Розпізнавання альтернативної мови оплачується окремо.
Особливості розпізнавання Google
- В Google є мови, які підтримують покращене розпізнавання (заточене під телефонні дзвінки) та ті, які не підтримують.
- Список мов, які доступні до вибору в налаштуваннях:
- English (US) – підтримує покращене розпізнавання
- English (GB) – підтримує покращене розпізнавання
- Українська
- Російська – підтримує покращене розпізнавання
- Polski
- Якщо вам потрібна мова, якої немає в списку, зверніться до технічної підтримки.
- Під час розпізнавання Google надсилає проміжні результати, поки абонент говорить, а через деякий час — фінальний результат.
- Для мов, які підтримують поліпшене розпізнавання (російська, англійська), фінальний результат надходить приблизно через 2 секунди після того, як абонент закінчив говорити.
- З мовами, які не підтримують поліпшене розпізнавання (українська, польська), все нестабільно: фінальний результат може прийти через 2 секунди, а може аж через хвилину.
Налаштування
- Використовувати розширену модель розпізнавання. Доступно тільки для мов з поліпшеним розпізнаванням. Приблизно на 10% прискорює отримання фінального результату, але проміжні результати стають менш точними.
- Не чекати на фінальний результат. Якщо після отримання проміжного результату впродовж 2 секунд ми не отримали інший проміжний або фінальний результат, то результат буде прийнято в роботу голосовим роботом, не чекаючи на фінальний результат. Це налаштування додано спеціально для мов, які не підтримують поліпшене розпізнавання. Не рекомендуємо вмикати для мов, які підтримують покращене розпізнавання.
Особливості аудіо
Аудіо та альтернативне аудіо ви можете задати не просто як одне аудіо проєкту, а як набір частин.
Частиною аудіо можуть бути:
- аудіо проєкту

Щоб аудіо було доступне для голосових роботів, на сторінці аудіо воно обов’язково має бути завантажене в розділі “Голосові роботи”. Максимально можлива тривалість аудіо — 5 хвилин, якщо більше — при завантаженні обріжеться.
- тиша

Максимально можлива тривалість тиші — 10 000 мілісекунд (10 секунд)
- синтез мовлення

— “Синтезувати значення” — вибір значення, яке потрібно синтезувати. Синтезувати можна дані, вказані в номерах голосових роботів — ім’я, замітку, параметри від 1 до 10, дані для Web Dialer
— Синтез мовлення працює тільки для дзвінків голосових роботів. Голосовий робот до того, як телефонувати абоненту синтезує все аудіо в роботі та його фонових діалогах
— Налаштування “Якщо не вдалось синтезувати аудіо” визначає, що буде у випадку невдалого синтезу.

— Завершити дзвінок — якщо не вдалось синтезувати хоча б одне аудіо — робот не буде телефонувати абоненту
— Пропустити аудіо — частини аудіо, які не вдалось синтезувати, будуть пропущені під час відтворення аудіо абоненту
Якщо в частині аудіо не вибрані налаштування синтезу мовлення, будуть використовуватись налаштування синтезу мовлення, які вказані в основних налаштуваннях робота.
Якщо параметр, який необхідно синтезувати, відсутній, ця частина аудіо під час його програвання буде пропущена. Наприклад, коли в синтезі вказано, що потрібно синтезувати ім’я з номера обдзвону, але ім’я не вказане.
Якщо значення, яке потрібно синтезувати, починається та закінчується з <speak>, воно буде синтезоване як текст у форматі SSML, а не як звичайний текст.

Наприклад, тут показане одне аудіо, яке складається з чотирьох частин. Під час програвання аудіо абоненту спочатку буде програватись аудіо проєкту “Доброго дня”, потім 0,2 секунди тиші, далі — синтезоване аудіо зі значенням, яке вказане в полі “Ім’я”, а наприкінці — аудіо проєкту “Акція”.
Чернетки роботів
При редагуванні робота незбережені зміни зберігаються в чернетки. Список чернеток знаходиться на сторінці голосових роботів у розділі “Чернетки”. Після збереження робота чернетка автоматично видаляється. Чернетки прив’язані до браузера і бачити їх можете лише ви. Максимальна кількість збережених чернеток — 3.
Чернетки зберігаються при будь-якій зміні робота та при переміщенні між версіями робота у редакторі стрілками, окрім випадку, коли ліва стрілка не активна (в цьому випадку змін немає).

На сторінці голосових роботів можна видаляти та переглядати чернетки. У кожній чернетці відображається id робота, до якого вона відноситься. Якщо id=0, ця чернетка робота, який ще не був збережений та не отримав id.
Якщо перейти в чернетку та зберегти її, зміни збережуться у роботі з таким же id, за винятком випадків, коли id=0 — тоді буде створений новий робот. Наприклад:

У чернетки “Вікна” та у робота “Вікна” однаковий id. Якщо перейти у чернетку та натиснути кнопку “Зберегти”, зміни застосуються до робота “Вікна”, а чернетка “Вікна” автоматично видалиться.
Інші налаштування
- Де в налаштуваннях робота вказується мова?
Мови, якими ми отримуємо розпізнані слова абонента, вказуються в налаштуваннях розпізнавання мови. Вони вказуються в основних налаштуваннях робота. В умовах переходу фрази, слова тощо мають бути прописані на тих самих мовах, які вказані в налаштуваннях розпізнавання мови.
- У яких випадках додаються нові версії, до яких можна повернутися за допомогою кнопки “Скасувати”?

— Під час додавання вузла
— Під час видалення вузла
— Після натискання на кнопку “Застосувати зміни” на бічній панелі з налаштуваннями (тобто після збереження основних налаштувань робота, налаштувань умов вузла, збереження налаштувань дії вузла)
— Під час вставки вузлів після копіювання або вирізання
— Після зміни кольору бічної смуги вузлів
— Після переміщення вузла вліво або вправо у списку дочірніх вузлів батьківського вузла
Після збереження робота скасувати зміни не можна — проміжні версії втрачаються.
- Сутності, зазначені в голосових роботах не можна видалити з проєкту
Це стосується:
- Сценаріїв
- Голосових меню
- Відділів
- Аудіо голосових роботів
- Мелодій на утриманні
- Оброблювачів подій
- Фонових роботів
- Профілів умов голосових роботів
- Профілів налаштувань розпізнавання мови
- У разі видалення з проєкту внутрішньої лінії, якщо вона була вказана в діях голосових роботів із типом “Переведення дзвінка на SIP-лінію”, тип дії буде змінено на “Вихід із голосового робота”.
- В історії дзвінків у переадресаціях голосові роботи відображаються як один крок переадресації. Фонові роботи не потрапляють у переадресації, вони вважаються частиною основного робота.
Тонке налаштування розпізнавання мови та гнучкість роботи з аудіо є ключем до створення високоадаптивного Голосового робота. Використовуючи дві мови розпізнавання та індивідуальні налаштування (як-от “Не чекати фінальний результат” для менш стабільних мов), ви мінімізуєте затримки та забезпечуєте точність. Можливість створювати аудіо з динамічних частин (TTS з параметрів) дозволяє миттєво персоналізувати обдзвони. Нарешті, система чернеток гарантує, що ваші незавершені зміни завжди будуть збережені та захищені від випадкових втрат.