TTS на русском в 2026: какие модели работают в production
Синтез речи (Text-to-Speech, TTS) на русском в 2026 - не та же штука, что 5 лет назад. Тогда роботичные голоса в IVR-системах сразу узнавались. Сейчас лучшие модели говорят так, что обычный пользователь не отличит от живого оператора в течение первых 30 секунд диалога.
В этой статье - 6 моделей TTS, реально используемых в production в РФ 2026, их сильные и слабые стороны, цены, латентность, когда какой стек брать в SMB. С точки зрения практики, а не маркетинга.
Что важно для production-использования
Не все TTS-модели одинаково подходят для коммерческих задач. Важные критерии:
- Качество голоса. Натуральность, эмоции, ударения. Робот это или человек на слух?
- Латентность. Сколько миллисекунд от текста до начала аудио. Для онлайн-чата критично <500мс, для записи неважно.
- Цена. Копейки за 1000 символов. На объёме 100 тыс. символов в день - 100 ₽ или 5000 ₽ это разные деньги.
- Кастомизация. Можно ли использовать ваш голос (для бренда), управлять интонацией, скоростью.
- Локализация. Поддержка русских имён, аббревиатур, чисел (5-30 говорится по-разному в зависимости от падежа).
- Юридика. Где хостится модель, проходит ли 152-ФЗ.
Модель 1: Silero TTS (русская, open-source)
Что это. Российская open-source модель от команды Silero AI. Один из лучших движков на свободной лицензии.
Качество. Очень хорошее для open-source. Есть 6+ русских голосов (мужские/женские). Натуральность 8/10. Местами проскакивают робото-интонации в длинных предложениях.
Латентность. На обычном CPU - 1-3 секунды на абзац. На GPU - 100-300мс. Очень быстро для open-source.
Цена. Бесплатно. На своём сервере. CPU-вариант работает на VPS от 2 ГБ RAM (от 600 ₽/мес).
Кастомизация. Голоса фиксированные, можно выбирать из набора. Поднимается через pip install silero-tts. Есть параметр скорости.
Юридика. На вашем сервере - на 100% контролируете. Идеально для 152-ФЗ.
Когда брать. Сценарии без жёстких требований к качеству: внутренний ассистент в команде, экспериментальные проекты, IVR-меню для маленьких бизнесов. Когда бесплатность перевешивает разницу в качестве с платными.
Модель 2: Yandex SpeechKit TTS
Что это. TTS от Яндекса. Промышленное решение, миллионы запросов в день.
Качество. Топ для русского. 9/10 натуральность. Несколько голосов (Алиса, мужские, женские, разной эмоциональности). Хорошо ставит ударения. Понимает аббревиатуры и числа.
Латентность. 200-500мс на абзац. Быстро.
Цена (май 2026).
- Базовый ("стандарт"): 350 ₽ за 1М символов
- Премиум ("экспрессивный"): 770 ₽ за 1М символов
- На 1000 символов это 0.35-0.77 ₽
Бесплатный лимит 1М символов/мес для разработки.
Кастомизация. Кастомные голоса (свой брендовый голос) доступны на enterprise-тарифе - надо обсуждать с Яндексом. Стандартно: 8-10 готовых голосов.
Юридика. Серверы Яндекса в РФ, 152-ФЗ OK.
Когда брать. Когда нужно топ-качество и есть платный бюджет. Колл-центры, голосовые ассистенты для клиентов, IVR-системы. Связанная тема - Голосовой ИИ-агент для бизнеса, там в контексте колл-центра.
Модель 3: SaluteSpeech (Сбер)
Что это. TTS от Сбера, часть SmartSpeech-семейства.
Качество. Сопоставимо с Yandex SpeechKit. 9/10. Голос Alex (мужской) и Anna (женский) - стандартные. Есть голос Виктории - "помощница" с дружелюбной интонацией.
Латентность. 250-600мс. Чуть медленнее Яндекса в среднем.
Цена (май 2026).
- 540 ₽ за 1М символов на тарифе для разработчиков
- Корпоративные тарифы дешевле, но через переговоры
Кастомизация. Кастомные голоса для крупных клиентов - через корпоративные продажи Сбера.
Юридика. Серверы в РФ, 152-ФЗ, договор оферты для бизнеса.
Когда брать. Если вы уже в экосистеме Сбера (GigaChat, СберCRM) или предпочитаете корпоративную связку. Качество не уступает Яндексу, выбор часто по экосистеме.
Модель 4: Coqui TTS (open-source)
Что это. Международный open-source движок TTS. Поддерживает 17 языков, включая русский.
Качество. На русском - 6/10. Слабее Silero. Чаще проскакивают неестественные интонации.
Латентность. На CPU - 2-5 секунд. На GPU - 300мс-1с.
Цена. Бесплатно. На своём сервере. Требования к железу выше Silero (нужно 4+ ГБ RAM минимум).
Когда брать. Если уже работаете с Coqui для других языков и хотите единый стек. Чисто для русского - берите Silero, она лучше.
Модель 5: Microsoft Edge TTS (бесплатный через API)
Что это. TTS от Microsoft, доступный через Edge-браузер. Технически - это API "для разработчиков, но не очень официально".
Качество. 8/10 на русском. Есть голос Светлана, есть Дмитрий. Хорошие интонации.
Латентность. 400-800мс через API.
Цена. Бесплатно через неофициальный API (библиотека edge-tts на Python). Microsoft на это смотрит сквозь пальцы.
Когда брать. Прототипы, эксперименты, низкобюджетные сценарии. Для production я бы не ставил - юридически Microsoft не даёт официальной лицензии, в любой момент могут закрыть. Используйте на свой риск.
Модель 6: ElevenLabs (международный)
Что это. Самый продвинутый коммерческий TTS на западном рынке. Топ-качество, кастомные голоса (можно "клонировать" свой голос за 30 секунд записи).
Качество. 10/10 на английском, 6/10 на русском. На русском уступает Яндексу и Silero. Это парадокс - модель технически круче, но обучена на меньшем русском корпусе.
Латентность. 600мс-1.5с (через прокси для РФ).
Цена. 5-22 $/мес за разные тарифы. Через прокси юридика сложная.
Когда брать. Если главное - английский или мультиязычный сценарий с упором на качество звуков. Для русского-первого - берите Яндекс или Сбер.
Live-тесты на одинаковых фразах
Прогнал 5 разных моделей на трёх типовых фразах. Оценки по 10-балльной шкале, мнение моё.
| Фраза | Silero | Yandex | SaluteSpeech | Edge | ElevenLabs |
|---|---|---|---|---|---|
| "Здравствуйте! Спасибо за обращение. С вами свяжется менеджер в течение часа." | 7 | 9 | 9 | 8 | 6 |
| "Ваш заказ номер семь-два-восемь-четыре прибудет на склад 14 мая." | 6 | 9 | 8 | 8 | 5 |
| "К сожалению, в наличии нет, но можем предложить альтернативу за двенадцать тысяч триста рублей." | 7 | 9 | 9 | 7 | 6 |
Выводы:
- Yandex и SaluteSpeech - топ для коммерческого использования на русском
- Silero - хороший бесплатный вариант
- Edge TTS - неожиданно хорош, но юридика
- ElevenLabs - на русском не блестит
Сводная таблица: что куда
| Сценарий | Рекомендую |
|---|---|
| Колл-центр, голосовой ИИ-агент клиентам | Yandex SpeechKit (топ-качество, низкая латентность) |
| Внутренний бот для команды (NPS-обзвон) | SaluteSpeech или Silero (дешевле, для внутреннего OK) |
| IVR на 100% локально (без интернета) | Silero (open-source, ставится локально) |
| Прототип, низкий бюджет | Yandex Free Tier (1М символов/мес бесплатно) |
| Брендовый голос (свой) | Yandex Enterprise или SaluteSpeech через корп.продажи |
| Английский с русским вперемешку | ElevenLabs или Microsoft Azure |
Грабли реальных проектов
1. Ударения и числа на русском. Самая частая боль. Модель говорит "пАльто" вместо "пальтО" или "семь тысяч двести четыреста рублей" вместо "четыреста двадцать". Лечится: явная проставка ударений через SSML-разметку (поддерживают все коммерческие), или нормализация чисел до текста на вашей стороне.
2. Длинные предложения теряют интонацию. В фразе 200+ символов TTS "выдыхается", интонация плоская. Лечится: разбивать на 2-3 предложения, ставить запятые/паузы.
3. Английские термины в русском тексте. "Подключим API через REST" - "А-Пэ-И через РЭСТ" звучит криво. Лечится: SSML с явным произношением или замена на русский эквивалент.
4. Cache на повторяющиеся фразы. "Здравствуйте, ваш заказ номер..." произносится в 95% сценариев одинаково. Кэшируйте результаты в Redis - экономия 70-90% на токенах TTS при больших объёмах.
5. Юридика записи разговоров. Если ваш голосовой ассистент звонит клиентам и пишет разговоры - предупреждайте об этом в начале звонка. 152-ФЗ + 38-ФЗ "О рекламе".
Сколько стоит реальный голосовой проект
Колл-центр для SMB с 5 000 звонков в месяц (это типичный объём для среднего бизнеса):
- Средняя длительность звонка 2-3 минуты = 5-7 тыс. символов TTS на разговор
- Итого 25-35 млн символов TTS в месяц
| Платформа | Цена за месяц на этот объём |
|---|---|
| Yandex SpeechKit стандарт | 9 000 - 12 500 ₽ |
| SaluteSpeech | 14 000 - 19 000 ₽ |
| Silero на своём сервере | 600-1500 ₽ (только VPS) |
Разница огромная. Но Silero уступает по качеству. На SMB-проекте обычно оптимум - Yandex SpeechKit, плата за качество отдачи.
Близкие темы
Голосовой ИИ-агент для бизнеса - целый колл-центр с TTS внутри. YandexGPT vs GigaChat - LLM, которая работает в паре с TTS для голосового агента. Память в ИИ-агентах - чтобы голосовой агент помнил контекст разговора.
Если планируете внедрение
Опишите ваш голосовой сценарий: входящие или исходящие звонки, какие задачи, объём в месяц. Подберу TTS и оценю общий бюджет проекта. Часто оказывается, что внутренних сценариев хватает Silero за копейки, а на клиентские уже идёт Yandex с гарантией качества.
Есть процесс, который пора отдать машине?
Опишите задачу в брифе - верну оценку с ценой и сроками за 24 часа. Бесплатно, до подписания.
Оставить заявку