STT русский 2026: Whisper, Vosk, Yandex SpeechKit

Если синтез речи (TTS) даёт компьютеру голос, то распознавание (STT, Speech-to-Text) даёт ему слух. Без STT любой голосовой ассистент или бот мёртв - он не понимает, что вы говорите. И на русском точность распознавания сильно отличается от модели к модели. Между лучшим и худшим STT - пропасть в 25-30% точности на одинаковом аудио.

В этой статье - 5 рабочих STT-моделей на русском в 2026, live-тесты на одинаковых записях, цены, латентность, и где какой стек брать в SMB-проектах: от внутреннего ассистента до колл-центра на 5000 звонков в день.

Что важно для production STT

WER (Word Error Rate). Процент ошибок на слово. Хороший STT на русском студийном аудио - 3-6%. На телефонной речи - 8-15%. На уличной с шумом - 20-30%.
Латентность. Сколько мс от аудио до текста. Для онлайн-чата критично <500мс, для записи неважно.
Streaming vs batch. Стриминг (текст приходит по мере произнесения) или batch (отправляется готовое аудио). Streaming сложнее технически, но даёт мгновенную обратную связь.
Поддержка диалектов и сленга. Если ваши клиенты говорят с региональным акцентом или используют профессиональный жаргон - проверьте отдельно.
Punctuation. Расставляет ли точки и запятые. Многие STT отдают plain text без пунктуации, что усложняет post-processing.

Модель 1: OpenAI Whisper (open-source, локально)

Что это. Open-source STT от OpenAI. Лучшая бесплатная модель в мире для распознавания речи. Поддерживает 99 языков, включая русский.

Качество. WER на чистом русском студийном аудио - 4-7%. На телефонной речи - 10-15%. На речи с акцентом - 15-25%. Для open-source это топ.

Латентность. Зависит от размера модели:

tiny - 100мс на минуту аудио, но точность хуже
base - 200-400мс
small - 500мс-1с
medium - 1-2с
large-v3 - 2-5с (топ-точность)

На CPU работает, но медленно. На GPU (NVIDIA с 6+ ГБ VRAM) - реал-тайм.

Цена. Бесплатно. Своя инфраструктура. VPS с GPU - от 8 000 ₽/мес (Selectel, Cloud.ru). На CPU - 600 ₽/мес VPS, но 5-10 секунд латентности.

Punctuation. Да, расставляет.

Кастомизация. Можно дообучать на ваших данных (fine-tuning) - сложно, требует данных и GPU.

Юридика. Полностью на вашей стороне - 152-ФЗ OK.

Когда брать. Локальные сценарии, конфиденциальное аудио (медицинские разговоры, юридические переговоры), либо когда не нужен реал-тайм. Внутренние ассистенты - идеально.

Модель 2: Vosk (open-source, лёгкий)

Что это. Open-source STT, специализированный на лёгкости и оффлайн-работе. Делают в России (команда Alpha Cephei).

Качество. WER на русском - 10-15% на стандартном корпусе. Хуже Whisper по точности.

Латентность. Самая быстрая из open-source. На обычном CPU 50-150мс на секунду аудио. Идеально для streaming.

Цена. Бесплатно. Очень лёгкий (RAM-требования - 500 МБ).

Когда брать. Когда критична скорость и работа на слабом железе. Edge-устройства (IVR на дешёвом сервере), embedded-сценарии, оффлайн-устройства. Качество хуже Whisper, но окупается скоростью.

Модель 3: Yandex SpeechKit STT

Что это. Промышленный STT от Яндекса. Российский, документация хорошая, проверен миллионами запросов.

Качество. WER на русском - 3-5% на чистом аудио, 8-12% на телефонном. Топ по всем сценариям РФ. Особенно хорош на российских именах, географии, аббревиатурах (типа "ГИБДД", "ИП", "ООО").

Латентность. Streaming - 200-400мс. Batch - 500мс-1с на минуту.

Цена (май 2026).

Стандарт: 1000 ₽ за 1000 минут (1 ₽/мин)
Премиум: 1500 ₽ за 1000 минут
Бесплатный лимит для разработки

Punctuation. Да.

Кастомизация. Можно подгружать словарь (специфические термины, имена клиентов, продукты) - сильно повышает точность на вашей нише.

Юридика. Серверы в РФ.

Когда брать. Колл-центры, голосовые ассистенты для клиентов, любой production-сценарий с типичной русской речью. Самый частый выбор в коммерческих SMB-проектах.

Модель 4: SaluteSpeech STT (Сбер)

Что это. STT от Сбера. Часть стека SmartSpeech.

Качество. WER 3-6% на чистом, 8-13% на телефонном. Сопоставимо с Yandex.

Латентность. Streaming - 250-500мс.

Цена. Сопоставимо с Yandex, конкретный тариф через корп.продажи.

Punctuation. Да.

Юридика. Серверы в РФ.

Когда брать. Когда уже в экосистеме Сбера (используете GigaChat, СберCRM). Конкурент Яндексу - выбор часто по экосистеме, а не качеству.

Модель 5: Tinkoff VoiceKit

Что это. STT от Тинькофф / Т-Банк. Меньше известен, но хорошее качество.

Качество. WER 4-7% на чистом, 9-15% на телефонном.

Цена. Конкурентоспособная, есть бесплатные лимиты для тестов.

Когда брать. Если вы уже клиент Тинькофф-Бизнеса, есть скидки. Иначе - Yandex или SaluteSpeech лучше задокументированы.

Live-тесты на одинаковых аудио

Прогнал 3 типичных сценария на 4 моделях. Записи: студийная диктовка, телефонный разговор, разговор в шумной обстановке.

Сценарий	Whisper-large	Vosk	Yandex	SaluteSpeech
Студийная диктовка (тренинг для отдела продаж)	96%	87%	97%	96%
Телефонный звонок клиента	89%	76%	92%	91%
Разговор в шумной обстановке (склад)	71%	58%	79%	76%

Выводы:

Yandex SpeechKit - лидер на коммерческих сценариях
Whisper-large - лучшее качество на чистом аудио, но дорогая инфраструктура
Vosk - проседает по точности, но летает на слабом железе

Сводная таблица: что куда

Сценарий	Рекомендую
Колл-центр - распознавание звонков клиентов	Yandex SpeechKit (стримминг + словарь под нишу)
Голосовой ассистент с диалогом	Yandex или SaluteSpeech
Расшифровка длинных записей встреч	Whisper-large на своём GPU (точность + 152-ФЗ)
Конфиденциальное аудио (медицинские/юридические)	Whisper локально (приватность)
IVR на слабом железе	Vosk
Voice → задача в Telegram-боте руководителя	Yandex (быстро) или Whisper-small (бесплатно)

Связка STT + LLM (типичный pipeline)

В реальном голосовом проекте STT - это первый этап. Дальше идёт LLM для понимания смысла, и часто TTS для ответа.


[Микрофон / телефон]
         ↓
[STT: голос → текст]    ← Yandex / Whisper
         ↓
[LLM: текст → решение]  ← GigaChat / YandexGPT
         ↓
[Действие: создание задачи / ответ / звонок]
         ↓ (если нужно ответить голосом)
[TTS: текст → голос]    ← Yandex SpeechKit / Silero

Связанные темы: TTS на русском в 2026 - вторая сторона голосового стека. YandexGPT vs GigaChat - LLM для понимания распознанного текста. Голосовой ИИ-агент для бизнеса - целая система целиком.

Грабли реальных проектов

1. Точность падает на телефонном кодеке. Если аудио идёт через телефонию (8 кГц/16 кГц, mu-law/a-law), все STT теряют 5-10% точности vs студийной записи 44 кГц/24-бит. Лечится: использовать phone_call режим у Yandex, либо ресемплировать аудио до 16 кГц перед STT.

2. Имена клиентов и наименования товаров. Базовая модель не знает "Аркадий Беккер" или "Куликовский завод". Лечится: словарь (Yandex поддерживает), либо post-processing с LLM ("распознанный текст содержит имя из CRM-базы Y, исправь ошибки").

3. Длинные паузы и междометия. STT иногда добавляет "э-э-э", "ну-у", "так". Для production-сценария это шум. Лечится: пост-обработка через LLM или регэкспы.

4. Distinguishing speakers (кто говорит). Базовый STT возвращает один поток текста. Не разделяет оператора и клиента. Лечится: speaker diarization (отдельный модуль) - встроен в Yandex и в Whisper через дополнительные библиотеки.

5. Real-time vs accuracy trade-off. Для онлайн-сценариев Whisper-large слишком медленный. Используют small/medium. Точность ниже на 3-5%. Балансируется под задачу.

Цена реального проекта (колл-центр)

Под колл-центр с 5000 звонков в день (средняя длительность 3 минуты):

15 000 минут в день, 450 000 минут в месяц

Платформа	Цена в месяц
Yandex SpeechKit стандарт	450 000 ₽
SaluteSpeech	~500 000 ₽
Whisper-large на 2 GPU VPS	16 000 ₽ инфра + поддержка

Для очень большого объёма Whisper на своём железе в десятки раз дешевле платных API. Но требует инженеров для поддержания инфраструктуры. SMB до 1000 звонков/день обычно живёт на Yandex - проще.

Близкие темы

TTS на русском - синтез речи, обратная сторона. Голосовой ИИ-агент для бизнеса - комплекс STT + LLM + TTS. Память в ИИ-агентах - чтобы голосовой ассистент помнил контекст разговора.

Если планируете внедрение

Опишите ваш сценарий: входящие/исходящие звонки, объём, шумность аудио, наличие специфической терминологии. Подберу под вас STT + LLM + TTS стек, оценю бюджет на месяц по live-объёму. Часто оказывается, что гибрид (Whisper для шумного, Yandex для чистого) даёт +5% точности при той же цене.

Есть процесс, который пора отдать машине?

Опишите задачу в брифе - верну оценку с ценой и сроками за 24 часа. Бесплатно, до подписания.

Оставить заявку

STT на русском: распознавание речи для бизнеса в 2026