Синтез речи (Text-to-Speech, TTS) на русском в 2026 - не та же штука, что 5 лет назад. Тогда роботичные голоса в IVR-системах сразу узнавались. Сейчас лучшие модели говорят так, что обычный пользователь не отличит от живого оператора в течение первых 30 секунд диалога.

В этой статье - 6 моделей TTS, реально используемых в production в РФ 2026, их сильные и слабые стороны, цены, латентность, когда какой стек брать в SMB. С точки зрения практики, а не маркетинга.

Что важно для production-использования

Не все TTS-модели одинаково подходят для коммерческих задач. Важные критерии:

  • Качество голоса. Натуральность, эмоции, ударения. Робот это или человек на слух?
  • Латентность. Сколько миллисекунд от текста до начала аудио. Для онлайн-чата критично <500мс, для записи неважно.
  • Цена. Копейки за 1000 символов. На объёме 100 тыс. символов в день - 100 ₽ или 5000 ₽ это разные деньги.
  • Кастомизация. Можно ли использовать ваш голос (для бренда), управлять интонацией, скоростью.
  • Локализация. Поддержка русских имён, аббревиатур, чисел (5-30 говорится по-разному в зависимости от падежа).
  • Юридика. Где хостится модель, проходит ли 152-ФЗ.

Модель 1: Silero TTS (русская, open-source)

Что это. Российская open-source модель от команды Silero AI. Один из лучших движков на свободной лицензии.

Качество. Очень хорошее для open-source. Есть 6+ русских голосов (мужские/женские). Натуральность 8/10. Местами проскакивают робото-интонации в длинных предложениях.

Латентность. На обычном CPU - 1-3 секунды на абзац. На GPU - 100-300мс. Очень быстро для open-source.

Цена. Бесплатно. На своём сервере. CPU-вариант работает на VPS от 2 ГБ RAM (от 600 ₽/мес).

Кастомизация. Голоса фиксированные, можно выбирать из набора. Поднимается через pip install silero-tts. Есть параметр скорости.

Юридика. На вашем сервере - на 100% контролируете. Идеально для 152-ФЗ.

Когда брать. Сценарии без жёстких требований к качеству: внутренний ассистент в команде, экспериментальные проекты, IVR-меню для маленьких бизнесов. Когда бесплатность перевешивает разницу в качестве с платными.

Модель 2: Yandex SpeechKit TTS

Что это. TTS от Яндекса. Промышленное решение, миллионы запросов в день.

Качество. Топ для русского. 9/10 натуральность. Несколько голосов (Алиса, мужские, женские, разной эмоциональности). Хорошо ставит ударения. Понимает аббревиатуры и числа.

Латентность. 200-500мс на абзац. Быстро.

Цена (май 2026).

  • Базовый ("стандарт"): 350 ₽ за 1М символов
  • Премиум ("экспрессивный"): 770 ₽ за 1М символов
  • На 1000 символов это 0.35-0.77 ₽

Бесплатный лимит 1М символов/мес для разработки.

Кастомизация. Кастомные голоса (свой брендовый голос) доступны на enterprise-тарифе - надо обсуждать с Яндексом. Стандартно: 8-10 готовых голосов.

Юридика. Серверы Яндекса в РФ, 152-ФЗ OK.

Когда брать. Когда нужно топ-качество и есть платный бюджет. Колл-центры, голосовые ассистенты для клиентов, IVR-системы. Связанная тема - Голосовой ИИ-агент для бизнеса, там в контексте колл-центра.

Модель 3: SaluteSpeech (Сбер)

Что это. TTS от Сбера, часть SmartSpeech-семейства.

Качество. Сопоставимо с Yandex SpeechKit. 9/10. Голос Alex (мужской) и Anna (женский) - стандартные. Есть голос Виктории - "помощница" с дружелюбной интонацией.

Латентность. 250-600мс. Чуть медленнее Яндекса в среднем.

Цена (май 2026).

  • 540 ₽ за 1М символов на тарифе для разработчиков
  • Корпоративные тарифы дешевле, но через переговоры

Кастомизация. Кастомные голоса для крупных клиентов - через корпоративные продажи Сбера.

Юридика. Серверы в РФ, 152-ФЗ, договор оферты для бизнеса.

Когда брать. Если вы уже в экосистеме Сбера (GigaChat, СберCRM) или предпочитаете корпоративную связку. Качество не уступает Яндексу, выбор часто по экосистеме.

Модель 4: Coqui TTS (open-source)

Что это. Международный open-source движок TTS. Поддерживает 17 языков, включая русский.

Качество. На русском - 6/10. Слабее Silero. Чаще проскакивают неестественные интонации.

Латентность. На CPU - 2-5 секунд. На GPU - 300мс-1с.

Цена. Бесплатно. На своём сервере. Требования к железу выше Silero (нужно 4+ ГБ RAM минимум).

Когда брать. Если уже работаете с Coqui для других языков и хотите единый стек. Чисто для русского - берите Silero, она лучше.

Модель 5: Microsoft Edge TTS (бесплатный через API)

Что это. TTS от Microsoft, доступный через Edge-браузер. Технически - это API "для разработчиков, но не очень официально".

Качество. 8/10 на русском. Есть голос Светлана, есть Дмитрий. Хорошие интонации.

Латентность. 400-800мс через API.

Цена. Бесплатно через неофициальный API (библиотека edge-tts на Python). Microsoft на это смотрит сквозь пальцы.

Когда брать. Прототипы, эксперименты, низкобюджетные сценарии. Для production я бы не ставил - юридически Microsoft не даёт официальной лицензии, в любой момент могут закрыть. Используйте на свой риск.

Модель 6: ElevenLabs (международный)

Что это. Самый продвинутый коммерческий TTS на западном рынке. Топ-качество, кастомные голоса (можно "клонировать" свой голос за 30 секунд записи).

Качество. 10/10 на английском, 6/10 на русском. На русском уступает Яндексу и Silero. Это парадокс - модель технически круче, но обучена на меньшем русском корпусе.

Латентность. 600мс-1.5с (через прокси для РФ).

Цена. 5-22 $/мес за разные тарифы. Через прокси юридика сложная.

Когда брать. Если главное - английский или мультиязычный сценарий с упором на качество звуков. Для русского-первого - берите Яндекс или Сбер.

Live-тесты на одинаковых фразах

Прогнал 5 разных моделей на трёх типовых фразах. Оценки по 10-балльной шкале, мнение моё.

ФразаSileroYandexSaluteSpeechEdgeElevenLabs
"Здравствуйте! Спасибо за обращение. С вами свяжется менеджер в течение часа."79986
"Ваш заказ номер семь-два-восемь-четыре прибудет на склад 14 мая."69885
"К сожалению, в наличии нет, но можем предложить альтернативу за двенадцать тысяч триста рублей."79976

Выводы:

  • Yandex и SaluteSpeech - топ для коммерческого использования на русском
  • Silero - хороший бесплатный вариант
  • Edge TTS - неожиданно хорош, но юридика
  • ElevenLabs - на русском не блестит

Сводная таблица: что куда

СценарийРекомендую
Колл-центр, голосовой ИИ-агент клиентамYandex SpeechKit (топ-качество, низкая латентность)
Внутренний бот для команды (NPS-обзвон)SaluteSpeech или Silero (дешевле, для внутреннего OK)
IVR на 100% локально (без интернета)Silero (open-source, ставится локально)
Прототип, низкий бюджетYandex Free Tier (1М символов/мес бесплатно)
Брендовый голос (свой)Yandex Enterprise или SaluteSpeech через корп.продажи
Английский с русским вперемешкуElevenLabs или Microsoft Azure

Грабли реальных проектов

1. Ударения и числа на русском. Самая частая боль. Модель говорит "пАльто" вместо "пальтО" или "семь тысяч двести четыреста рублей" вместо "четыреста двадцать". Лечится: явная проставка ударений через SSML-разметку (поддерживают все коммерческие), или нормализация чисел до текста на вашей стороне.

2. Длинные предложения теряют интонацию. В фразе 200+ символов TTS "выдыхается", интонация плоская. Лечится: разбивать на 2-3 предложения, ставить запятые/паузы.

3. Английские термины в русском тексте. "Подключим API через REST" - "А-Пэ-И через РЭСТ" звучит криво. Лечится: SSML с явным произношением или замена на русский эквивалент.

4. Cache на повторяющиеся фразы. "Здравствуйте, ваш заказ номер..." произносится в 95% сценариев одинаково. Кэшируйте результаты в Redis - экономия 70-90% на токенах TTS при больших объёмах.

5. Юридика записи разговоров. Если ваш голосовой ассистент звонит клиентам и пишет разговоры - предупреждайте об этом в начале звонка. 152-ФЗ + 38-ФЗ "О рекламе".

Сколько стоит реальный голосовой проект

Колл-центр для SMB с 5 000 звонков в месяц (это типичный объём для среднего бизнеса):

  • Средняя длительность звонка 2-3 минуты = 5-7 тыс. символов TTS на разговор
  • Итого 25-35 млн символов TTS в месяц
ПлатформаЦена за месяц на этот объём
Yandex SpeechKit стандарт9 000 - 12 500 ₽
SaluteSpeech14 000 - 19 000 ₽
Silero на своём сервере600-1500 ₽ (только VPS)

Разница огромная. Но Silero уступает по качеству. На SMB-проекте обычно оптимум - Yandex SpeechKit, плата за качество отдачи.

Близкие темы

Голосовой ИИ-агент для бизнеса - целый колл-центр с TTS внутри. YandexGPT vs GigaChat - LLM, которая работает в паре с TTS для голосового агента. Память в ИИ-агентах - чтобы голосовой агент помнил контекст разговора.

Если планируете внедрение

Опишите ваш голосовой сценарий: входящие или исходящие звонки, какие задачи, объём в месяц. Подберу TTS и оценю общий бюджет проекта. Часто оказывается, что внутренних сценариев хватает Silero за копейки, а на клиентские уже идёт Yandex с гарантией качества.

Есть процесс, который пора отдать машине?

Опишите задачу в брифе - верну оценку с ценой и сроками за 24 часа. Бесплатно, до подписания.

Оставить заявку