STT на русском: распознавание речи для бизнеса в 2026
Если синтез речи (TTS) даёт компьютеру голос, то распознавание (STT, Speech-to-Text) даёт ему слух. Без STT любой голосовой ассистент или бот мёртв - он не понимает, что вы говорите. И на русском точность распознавания сильно отличается от модели к модели. Между лучшим и худшим STT - пропасть в 25-30% точности на одинаковом аудио.
В этой статье - 5 рабочих STT-моделей на русском в 2026, live-тесты на одинаковых записях, цены, латентность, и где какой стек брать в SMB-проектах: от внутреннего ассистента до колл-центра на 5000 звонков в день.
Что важно для production STT
- WER (Word Error Rate). Процент ошибок на слово. Хороший STT на русском студийном аудио - 3-6%. На телефонной речи - 8-15%. На уличной с шумом - 20-30%.
- Латентность. Сколько мс от аудио до текста. Для онлайн-чата критично <500мс, для записи неважно.
- Streaming vs batch. Стриминг (текст приходит по мере произнесения) или batch (отправляется готовое аудио). Streaming сложнее технически, но даёт мгновенную обратную связь.
- Поддержка диалектов и сленга. Если ваши клиенты говорят с региональным акцентом или используют профессиональный жаргон - проверьте отдельно.
- Punctuation. Расставляет ли точки и запятые. Многие STT отдают plain text без пунктуации, что усложняет post-processing.
Модель 1: OpenAI Whisper (open-source, локально)
Что это. Open-source STT от OpenAI. Лучшая бесплатная модель в мире для распознавания речи. Поддерживает 99 языков, включая русский.
Качество. WER на чистом русском студийном аудио - 4-7%. На телефонной речи - 10-15%. На речи с акцентом - 15-25%. Для open-source это топ.
Латентность. Зависит от размера модели:
tiny- 100мс на минуту аудио, но точность хужеbase- 200-400мсsmall- 500мс-1сmedium- 1-2сlarge-v3- 2-5с (топ-точность)
На CPU работает, но медленно. На GPU (NVIDIA с 6+ ГБ VRAM) - реал-тайм.
Цена. Бесплатно. Своя инфраструктура. VPS с GPU - от 8 000 ₽/мес (Selectel, Cloud.ru). На CPU - 600 ₽/мес VPS, но 5-10 секунд латентности.
Punctuation. Да, расставляет.
Кастомизация. Можно дообучать на ваших данных (fine-tuning) - сложно, требует данных и GPU.
Юридика. Полностью на вашей стороне - 152-ФЗ OK.
Когда брать. Локальные сценарии, конфиденциальное аудио (медицинские разговоры, юридические переговоры), либо когда не нужен реал-тайм. Внутренние ассистенты - идеально.
Модель 2: Vosk (open-source, лёгкий)
Что это. Open-source STT, специализированный на лёгкости и оффлайн-работе. Делают в России (команда Alpha Cephei).
Качество. WER на русском - 10-15% на стандартном корпусе. Хуже Whisper по точности.
Латентность. Самая быстрая из open-source. На обычном CPU 50-150мс на секунду аудио. Идеально для streaming.
Цена. Бесплатно. Очень лёгкий (RAM-требования - 500 МБ).
Когда брать. Когда критична скорость и работа на слабом железе. Edge-устройства (IVR на дешёвом сервере), embedded-сценарии, оффлайн-устройства. Качество хуже Whisper, но окупается скоростью.
Модель 3: Yandex SpeechKit STT
Что это. Промышленный STT от Яндекса. Российский, документация хорошая, проверен миллионами запросов.
Качество. WER на русском - 3-5% на чистом аудио, 8-12% на телефонном. Топ по всем сценариям РФ. Особенно хорош на российских именах, географии, аббревиатурах (типа "ГИБДД", "ИП", "ООО").
Латентность. Streaming - 200-400мс. Batch - 500мс-1с на минуту.
Цена (май 2026).
- Стандарт: 1000 ₽ за 1000 минут (1 ₽/мин)
- Премиум: 1500 ₽ за 1000 минут
- Бесплатный лимит для разработки
Punctuation. Да.
Кастомизация. Можно подгружать словарь (специфические термины, имена клиентов, продукты) - сильно повышает точность на вашей нише.
Юридика. Серверы в РФ.
Когда брать. Колл-центры, голосовые ассистенты для клиентов, любой production-сценарий с типичной русской речью. Самый частый выбор в коммерческих SMB-проектах.
Модель 4: SaluteSpeech STT (Сбер)
Что это. STT от Сбера. Часть стека SmartSpeech.
Качество. WER 3-6% на чистом, 8-13% на телефонном. Сопоставимо с Yandex.
Латентность. Streaming - 250-500мс.
Цена. Сопоставимо с Yandex, конкретный тариф через корп.продажи.
Punctuation. Да.
Юридика. Серверы в РФ.
Когда брать. Когда уже в экосистеме Сбера (используете GigaChat, СберCRM). Конкурент Яндексу - выбор часто по экосистеме, а не качеству.
Модель 5: Tinkoff VoiceKit
Что это. STT от Тинькофф / Т-Банк. Меньше известен, но хорошее качество.
Качество. WER 4-7% на чистом, 9-15% на телефонном.
Цена. Конкурентоспособная, есть бесплатные лимиты для тестов.
Когда брать. Если вы уже клиент Тинькофф-Бизнеса, есть скидки. Иначе - Yandex или SaluteSpeech лучше задокументированы.
Live-тесты на одинаковых аудио
Прогнал 3 типичных сценария на 4 моделях. Записи: студийная диктовка, телефонный разговор, разговор в шумной обстановке.
| Сценарий | Whisper-large | Vosk | Yandex | SaluteSpeech |
|---|---|---|---|---|
| Студийная диктовка (тренинг для отдела продаж) | 96% | 87% | 97% | 96% |
| Телефонный звонок клиента | 89% | 76% | 92% | 91% |
| Разговор в шумной обстановке (склад) | 71% | 58% | 79% | 76% |
Выводы:
- Yandex SpeechKit - лидер на коммерческих сценариях
- Whisper-large - лучшее качество на чистом аудио, но дорогая инфраструктура
- Vosk - проседает по точности, но летает на слабом железе
Сводная таблица: что куда
| Сценарий | Рекомендую |
|---|---|
| Колл-центр - распознавание звонков клиентов | Yandex SpeechKit (стримминг + словарь под нишу) |
| Голосовой ассистент с диалогом | Yandex или SaluteSpeech |
| Расшифровка длинных записей встреч | Whisper-large на своём GPU (точность + 152-ФЗ) |
| Конфиденциальное аудио (медицинские/юридические) | Whisper локально (приватность) |
| IVR на слабом железе | Vosk |
| Voice → задача в Telegram-боте руководителя | Yandex (быстро) или Whisper-small (бесплатно) |
Связка STT + LLM (типичный pipeline)
В реальном голосовом проекте STT - это первый этап. Дальше идёт LLM для понимания смысла, и часто TTS для ответа.
[Микрофон / телефон]
↓
[STT: голос → текст] ← Yandex / Whisper
↓
[LLM: текст → решение] ← GigaChat / YandexGPT
↓
[Действие: создание задачи / ответ / звонок]
↓ (если нужно ответить голосом)
[TTS: текст → голос] ← Yandex SpeechKit / Silero
Связанные темы: TTS на русском в 2026 - вторая сторона голосового стека. YandexGPT vs GigaChat - LLM для понимания распознанного текста. Голосовой ИИ-агент для бизнеса - целая система целиком.
Грабли реальных проектов
1. Точность падает на телефонном кодеке. Если аудио идёт через телефонию (8 кГц/16 кГц, mu-law/a-law), все STT теряют 5-10% точности vs студийной записи 44 кГц/24-бит. Лечится: использовать phone_call режим у Yandex, либо ресемплировать аудио до 16 кГц перед STT.
2. Имена клиентов и наименования товаров. Базовая модель не знает "Аркадий Беккер" или "Куликовский завод". Лечится: словарь (Yandex поддерживает), либо post-processing с LLM ("распознанный текст содержит имя из CRM-базы Y, исправь ошибки").
3. Длинные паузы и междометия. STT иногда добавляет "э-э-э", "ну-у", "так". Для production-сценария это шум. Лечится: пост-обработка через LLM или регэкспы.
4. Distinguishing speakers (кто говорит). Базовый STT возвращает один поток текста. Не разделяет оператора и клиента. Лечится: speaker diarization (отдельный модуль) - встроен в Yandex и в Whisper через дополнительные библиотеки.
5. Real-time vs accuracy trade-off. Для онлайн-сценариев Whisper-large слишком медленный. Используют small/medium. Точность ниже на 3-5%. Балансируется под задачу.
Цена реального проекта (колл-центр)
Под колл-центр с 5000 звонков в день (средняя длительность 3 минуты):
- 15 000 минут в день, 450 000 минут в месяц
| Платформа | Цена в месяц |
|---|---|
| Yandex SpeechKit стандарт | 450 000 ₽ |
| SaluteSpeech | ~500 000 ₽ |
| Whisper-large на 2 GPU VPS | 16 000 ₽ инфра + поддержка |
Для очень большого объёма Whisper на своём железе в десятки раз дешевле платных API. Но требует инженеров для поддержания инфраструктуры. SMB до 1000 звонков/день обычно живёт на Yandex - проще.
Близкие темы
TTS на русском - синтез речи, обратная сторона. Голосовой ИИ-агент для бизнеса - комплекс STT + LLM + TTS. Память в ИИ-агентах - чтобы голосовой ассистент помнил контекст разговора.
Если планируете внедрение
Опишите ваш сценарий: входящие/исходящие звонки, объём, шумность аудио, наличие специфической терминологии. Подберу под вас STT + LLM + TTS стек, оценю бюджет на месяц по live-объёму. Часто оказывается, что гибрид (Whisper для шумного, Yandex для чистого) даёт +5% точности при той же цене.
Есть процесс, который пора отдать машине?
Опишите задачу в брифе - верну оценку с ценой и сроками за 24 часа. Бесплатно, до подписания.
Оставить заявку