Как настроить синтез речи в UniTalk: пошаговый гайд

Дата обновления контента: 14.05.2025

Необходимость быстрой персонализации и обновления голосовых сообщений больше не ограничивается временем на студийную запись или бюджетом на диктора. Синтез речи (Text-to-Speech, TTS) от UniTalk — это интеллектуальный инструмент, который мгновенно генерирует аудио из вашего текста, имитируя человеческую речь с интонациями и паузами. Это дает вам возможность быстро создавать десятки уникальных приветствий, обновлять IVR-меню и массово обзванивать клиентов с максимальной натуральностью звучания. Ознакомьтесь с нашими гибкими инструментами и сравните ведущих провайдеров (включая UniTalk Alfa), чтобы ваш голос звучал безупречно.

1. Синтез речи на странице «Синтез аудио»

В разделе «Синтез аудио» в личном кабинете Вы можете создавать собственные аудио файлы из текста сразу добавляя их в необходимый Вам функционал: во входящие сценарии, голосовое меню, обзвоны, мелодии ожидания в очереди с сопровождением, в АРI звонках.

Текст, который Вы хотите перевести в аудио, может быть как в обычном формате, так и в формате SSML.

SSML (Speech Synthesis Markup Language) — язык разметки для приложений синтеза речи, что позволяет более тонко настроить озвучивание текста.

Также можно выбрать сервис через который будет синтезироваться речь. В списке доступных сейчас сервисы от Microsoft, Google, UniTalk Alfa, Yandex.

Кроме того, есть возможность отформатировать текст перед синтезом. В форматирование входит разбиение числа на цифры или на цифры с запятой, разбиение текста на символы. Настройка не работает для синтеза текста в формате SSML. Также стоит отметить, что тип форматирования будет влиять на количество оплачиваемых символов.

Вот здесь можно выбрать паузу перед текстом, которая измеряется в миллисекундах. 1 секунда = 1000 миллисекунд. Длительность паузы также влияет на количество оплачиваемых символов.

Также есть возможность выбрать язык, на котором будет озвучиваться введенный Вами текст.

И вариант голоса, которым будет озвучен текст.

Стоит отметить, что в сервисе UniTalk Alfa также доступен выбор модели и большее количество поддерживаемых языков.

Одним из преимуществ синтеза речи является возможность использования расширенных настроек. К таким настройкам входят добавление дополнительной тишины перед текстом, после текстом, перед знаками препинания, между предложениями, также возможность изменить громкость, высоту голоса, что позволит голосу звучать ниже или выше, возможность изменения скорости прочтения текста. Кроме этого, можно выбрать вариант того как именно будет проговариваться введенная Вами фраза: как адрес, валюта, номер телефона, время, дата и тд. 
Все эти настройки помогут Вам максимально качественно и приближенно к реальному человеческому голосу синтезировать Ваш текст.

Удобно также то, что Вы можете сразу увидеть стоимость синтеза текста, который хотите синтезировать.

После того как Вы ввели текст для синтеза, внесли все необходимые настройки и нажали на «Синтезировать», Вам необходимо ввести название аудио и выбрать раздел к которому оно будет добавлено. Важно выбрать именно тот раздел, в котором Вы это аудио собираетесь применять. Если Вы, например, добавите его в раздел «Сценарии», в других разделах оно будет недоступно.

Просмотреть список всех аудиофайлов, а также разделы, в которые они были добавлены Вы можете в разделе «Аудио файлы» в личном кабинете.

2. Синтез речи в автообзвонах и предиктивных обзвонах

Настройка синтеза речи доступна также в автообзвонах. Если Вам нужно при обзвоне разным абонентам воспроизводить разные или частично разные аудио, Вы можете добавить номера для обзвона вместе со списком аудио (id аудио или текст для озвучки) — до 5 аудио, максимум 2 из которых могут быть синтезированы из текста или SSML. Если для номера звонка указан текст для озвучивания, аудио будет синтезировано перед началом звонка. Такие аудио не отображаются в списке аудиозаписей проекта и сохраняются 1 неделю после завершения звонка или максимум 3 месяца. Добавить номер в обзвон вместе со списком аудио можно двумя способами:

1. Через API (документация метода ADD_CALLS)

2. При добавлении номеров из файла xlsx (с колонками audio1, audio2, audio3, audio4, audio5) на странице звонков.

Синтез аудио в таком случае происходит буквально во время звонка, поэтому в случае, если произошла ошибка во время синтеза аудио, есть возможность выбрать: звонок завершится со статусом «Ошибка аудио» или будет использоваться общее аудио обзвона.

3. Синтез речи в АРІ звонках

В АРI звонках также есть возможность синтеза аудио. При инициировании АРI звонка можно указать список аудио вписав id аудио или текст, который будет озвучен. Можно выбрать до 5 аудио, максимум 2 из которых могут быть синтезированы из текста или SSML. Если указан текст для озвучивания, то аудио будет синтезироваться перед началом звонка.

Пример JSON запросау:

Пример ответа:

4. Сервисы синтеза речи

На данный момент, Вы можете воспользоваться сервисами для синтеза речи от Microsoft, Google, Yandex, Yandex, UniTalk Alfa.

Сервисы синтеза речи от Microsoft, Google, Yandex и UniTalk Alfa, имеют много общего, но также отличаются по ряду параметров, включая качество голосов, поддерживаемые языки, возможности кастомизации, и цену. 

1. Microsoft
  • Поддержка языков: Microsoft поддерживает 9 языков, таких как — Украинский, Русский, Английский (США), Английский (Великобритания), Чешский, Польский, Итальянский, Румынский, и Венгерский, предлагая как минимум несколько вариантов голосов для каждого языка.
  • Качество голосов: Использует нейронные сети для создания высококачественных и естественных голосов. Также есть возможность кастомизации голосов для конкретных задач.
  • Функциональность: Сервис предлагает функции изменения стиля произношения, скорости и громкости речи, а также изменять высоту голоса. Кроме того, есть возможность указать условия тишины при зачитывании текста.
2. Google
  • Поддержка языков: Google, так же как Microsoft поддерживает 9 языков, таких как — Украинский, Русский, Английский (США), Английский (Великобритания), Чешский, Польский, Итальянский, Румынский, и Венгерский, предлагая как минимум несколько вариантов голосов для каждого языка, но значительно больше чем Microsoft. 
  • Качество голосов: Google использует передовые нейронные сети для создания голосов высокого качества. Последние модели, такие как Tacotron 2, достигли значительного уровня естественности.
  • Функциональность: Google предлагает настройки голоса, такие как изменение скорости, высоты и громкости. Также есть возможность установить профиль звуковых эффектов, накладываемых на аудио, и отметить Частоту дискретизации (Гц).
3. Yandex
  • Поддержка языков: Yandex поддерживает только два языка включая русский и английский. Это делает его менее гибким по сравнению с другими сервисами.
  • Качество голосов: Яндекс использует нейронные сети для создания голосов, которые достаточно естественны, особенно для русского языка. Качество голосов оптимизировано для русскоязычного акцента, и произношения.
  • Функциональность: Сервис предлагает возможности для изменения скорости, и может имитировать эмоциональные оттенки.
4. UniTalk Alfa
  • Поддержка языков: UniTalk Alfa, поддерживает 31 язык, и различные акценты. Открывайте новые горизонты коммуникации с многоязычной поддержкой, которая охватывает наиболее распространенные языки мира, и акценты для каждого из них.
  • Качество голосов: Благодаря высококачественному синтезу речи, «UniTalk Alfa» достигает максимальной натуральности и естественности звучания, что трудно отличить от живого голоса. Независимо от того, нужен ли вам официальный тон для бизнеса, или эмоциональный стиль для рекламы, UniTalk Alfa обеспечит точное воспроизведение желаемого голоса. 
  • Функциональность: Сервис предлагает регулировку стабильности, интенсивности стиля, четкости и сходства произношения позволяет создавать индивидуальные решения под любые потребности. Поддержка уникальных настроек, позволяющих добиться максимальной реалистичности звучания, не уступающей живому голосу.

Синтез речи — это ключевой инструмент для современной автоматизации, экономящий ваше время и бюджет. Благодаря гибким настройкам (SSML, паузы, высота) и возможности выбора среди ведущих провайдеров (включая многоязычную и реалистичную UniTalk Alfa), вы можете создавать аудиофайлы, которые практически не отличаются от записи профессионального диктора. Используйте эту технологию для мгновенной персонализации массовых обзвонов, обновления IVR-меню и обеспечения бесперебойной и натуральной коммуникации с клиентами.

UniTalk: единое решение для управления коммуникацией с клиентами
Закажите обратный звонок или позвоните нам:
+38 (073) 332 50 13
Получить консультацию
Больше статей
Хотите узнать больше?
Бесплатная консультация
Закажите обратный звонок или позвоните нам по телефону +38 (093) 170 08 00 .