AI-расшифровка встреч и звонков: Whisper, саммари, action items
Подключаю бота к Zoom, Google Meet, Teams и Контур.Толк. Бот пишет встречу, расшифровывает через Whisper или Yandex SpeechKit, отдаёт конспект с решениями и задачами в Notion, Confluence или Telegram. Без отправки в облако — локальный Whisper для чувствительных встреч.
под расшифровкой
Whisper-large-v3
часа встречи
после встречи
Что вы получаете на выходе
Не презентация, не идея, не пилот. Работающая система, которая делает работу за людей с фиксированной точностью.
Симптомы того что встречи у вас не работают
Встреча проходит, через неделю никто не помнит что решили, задачи в Jira не появились, новый сотрудник не понимает контекст. Знакомо.
Конспекты пишет один из участников вручную
Кто-то соглашается «я запишу основное», потом полдня собирает, рассылает на следующий день. Половина деталей теряется.
Action items не доезжают до задачника
На встрече договорились что Анна сделает X, в Jira задача появилась через 2 недели или вообще никогда. Дедлайны срываются.
Решения по проекту забываются за месяц
Команда полгода спустя обсуждает заново «а почему мы отказались от ABC». Ответ был на встрече, но никто не помнит.
Новый сотрудник не может догнать контекст
Чтобы понять историю проекта, нужно расспросить 5 человек по чашке кофе. Архив встреч — это записи Zoom без расшифровки.
Записи звонков с клиентами хранятся бесполезно
Десятки часов аудио с клиентами лежат в Mango/Zoom, искать в них что обещали — невозможно. Через месяц всё забыто.
Платите за Otter.ai/Fireflies, а нужное по-русски не понимает
Зарубежные сервисы плохо разбирают русскую речь, путают спикеров, не понимают сленг. Плюс данные уходят на их серверы.
6 этапов запуска расшифровки
От подключения бота к календарю до автоматического конспекта в Notion с задачами в Jira. Поэтапно, можно остановиться на любом шаге.
Подключение к календарю
Бот подписывается на ваш Google Calendar / Яндекс 360 / Outlook. При появлении события со ссылкой на Zoom/Meet/Teams автоматически подключается как участник.
Выбор движка STT
Whisper-large-v3 (selfhosted, лучше всех по точности и приватности) или Yandex SpeechKit (быстрее, дешевле, без своего железа). Тестируем оба на ваших 10 встречах, выбираем по WER.
Диаризация и распознавание спикеров
pyannote разделяет голоса по спикерам, привязка по имени из участников встречи. В расшифровке видно кто что сказал, не размытый текст.
AI-саммари с action items
LLM (GigaChat / YandexGPT / Claude через прокси) выделяет: ключевые решения, action items с ответственными и дедлайнами, открытые вопросы, разногласия. По шаблону, который согласуем с вами.
Доставка результатов
Конспект в Notion / Confluence / Yandex Wiki / Telegram. Задачи автоматически в Jira / YouTrack / Trello с тегами и дедлайнами. Подбор канала под ваш стек.
Поиск по архиву (RAG)
Все расшифровки индексируются в pgvector. Можно спросить «когда мы решили отказаться от Дзена и почему» — система найдёт встречу, цитату, ответственного.
Что делает AI-расшифровка
Конкретные сценарии. Каждый можно включать отдельно или пакетом — гибкий подбор под ваши процессы.
Авто-подключение к Zoom/Meet/Teams
Бот тихо присоединяется к встрече по событию из календаря, ведёт запись (с уведомлением участников по 152-ФЗ), отключается по окончании. Не требует ручных действий от организатора.
STT с диаризацией спикеров
Whisper-large-v3 (selfhosted GPU) или SpeechKit. pyannote разделяет голоса по спикерам, привязка к именам из участников. WER на русском 5-7% на чистой записи.
Конспект с решениями и задачами
LLM выделяет: итоги, решения, action items с ответственными и дедлайнами, открытые вопросы. Шаблон саммари настраивается под формат вашей компании.
Notion / Confluence / Jira / Telegram
Конспект отправляется в выбранную систему знаний. Action items с тегами и дедлайнами улетают в задачник. Уведомление в Telegram с ссылками на конспект и задачи.
RAG по всем встречам
Все расшифровки в pgvector. Спрашиваете «когда мы решили взять X», система находит встречу, цитату, ответственного. Поиск по семантике, не по словам.
Локальный Whisper без отправки в облако
Для встреч с клиентами, НДА, юридических вопросов — selfhosted на вашей GPU-машине. Аудио и текст никуда не уходят. Альтернатива: SpeechKit с PD-договором.
Что уже сделано
Без имён клиентов (NDA), но цифры и стек реальные.
Расшифровка всех Zoom-встреч + конспект в Notion
Whisper-large-v3 selfhosted + GigaChat для саммари. Каждое утро в Notion появляются конспекты вчерашних встреч с задачами и тегами. PM-ы перестали тратить вечера на «давайте я подготовлю конспект».
Selfhosted-расшифровка встреч с клиентами
Whisper-large-v3 на собственной GPU-машине (RTX 4090). Конспекты юридических консультаций без отправки в облако. Удобно для архива и для биллинга — видно сколько времени потрачено на что.
Конспект звонков с клиентами в Bitrix24
SpeechKit + YandexGPT. После каждого звонка с клиентом в карточку сделки летит расшифровка, краткое саммари, что обещали клиенту, какой следующий шаг и дедлайн. Менеджеры перестали забывать.
Сколько это стоит
Фиксированная цена за фиксированный объём. Без часов разработчика и сюрпризов в счёте.
Базовая расшифровка + конспект
- Подключение к одной платформе (Zoom или Meet)
- STT через SpeechKit или Whisper в облаке
- Базовый саммари с action items
- Конспект в Notion или Telegram
- До 100 часов встреч/мес
- Обучение команды
- 60 дней гарантии
Полная интеграция + RAG
- Всё из «Старт»
- Подключение всех платформ (Zoom/Meet/Teams/Контур.Толк)
- Диаризация и привязка спикеров
- Кастомные шаблоны саммари
- Авто-задачи в Jira/YouTrack/Bitrix24
- Поиск по архиву (RAG в pgvector)
- До 500 часов встреч/мес
- 90 дней гарантии + 1 мес поддержки
Selfhosted под NDA + Enterprise
- Всё из «Средний»
- Selfhosted Whisper-large-v3 на вашей GPU
- Локальный LLM для саммари (Saiga / GigaChat-onprem)
- Без передачи данных в облако
- Кастомная классификация по проектам/темам
- Дашборды аналитики встреч (DataLens)
- Без лимита на часы
- Технический партнёр первые 3 мес
Частые вопросы
То, что чаще всего спрашивают перед стартом.
Чем отличается от Fireflies / Otter / Read / Wudpecker
Fireflies и Otter — облачные сервисы, разрабатывались под английский, по-русски работают хуже (WER 12-18% против 5-7% у Whisper-large-v3 selfhosted). Все данные уходят на их серверы в США/Европе — для российского бизнеса с клиентскими встречами это серьёзный риск 152-ФЗ. Wudpecker лучше с русским, но также облачный. Read.ai — самый продвинутый по аналитике встреч, но дорог и тоже облачный. Моё решение: контролируемая инфраструктура (selfhosted Whisper или Yandex SpeechKit), интеграция в ваш стек (Notion / Jira / Bitrix), точность лучше зарубежных аналогов на русском.
Где живёт аудио и текст — это важно для NDA
Зависит от выбранной схемы. Schema A (selfhosted Whisper): аудио пишется на вашей машине, расшифровка через Whisper-large-v3 на вашей GPU, LLM-саммари тоже локально (через ollama+Saiga2/13B) или через GigaChat-on-premise. Полный контур не покидает периметр. Schema B (SpeechKit + GigaChat): через серверы Яндекса/Сбера в РФ с подписанным договором обработки ПД. Для большинства SMB достаточно schema B, для юристов / медицины / гостайны — schema A.
Whisper-large-v3 — что это и почему именно он
Whisper — открытая модель от OpenAI, выпущенная под MIT-лицензией. Large-v3 — топовая версия с 1.5B параметров. Работает локально на GPU (минимум RTX 3090 / RTX 4090 / A100). По русскому WER около 5-7% на чистой записи и 8-12% на шумной мобильной — это лучше любого облачного сервиса включая Yandex SpeechKit. Минус — нужна своя GPU-машина (бюджет 250-500 тыс. ₽ разово на сервер) или аренда GPU в облаке (10-30 ₽/час).
Сколько стоит расшифровка одного часа встречи
Selfhosted Whisper: при загрузке GPU 30%+ выходит 3-8 ₽/час на электричество и амортизацию. Yandex SpeechKit: 0.7-1.2 ₽/мин = 40-70 ₽/час. OpenAI Whisper API: ~0.36$/час, но недоступно без иностранной карты. Плюс LLM для саммари 4-12 ₽ за часовую встречу. Итого: 8-90 ₽ за час в зависимости от схемы. Самый дорогой час — около ста рублей, для сравнения юрист тратит на ручной конспект встречи 1-2 часа своего времени = 5-15 тыс. ₽.
А что если клиент против записи
Бот по 152-ФЗ обязан уведомить всех участников о факте записи в начале встречи (вступительное сообщение или сообщение в чат). Если участник возражает — запись прекращается или встреча проходит без бота. В корпоративных правилах большинства компаний согласие на запись внутренних встреч прописано в трудовом договоре. Для встреч с клиентами добавляем пункт в оферту или согласие в начале звонка.
Как бот узнаёт что у меня плановая встреча
Подписывается на ваш календарь через API (Google Calendar / Яндекс 360 / Outlook / iCal). При появлении события со ссылкой на Zoom/Meet/Teams в описании или в локации — бот за 1-2 минуты до встречи подключается как обычный участник. Дополнительно можно вручную «пригласить» бот к незапланированной встрече, бросив ссылку в Telegram-бот.
Что с встречами в Контур.Толк / Сбер.Джаз / VK Звонки
Контур.Толк — есть бот-участник через их API, поддерживаю. Сбер.Джаз — подключаю через виртуальную камеру + захват аудио (костыль, но работает). VK Звонки — пока ручная загрузка записи после встречи. Telegram Видеозвонки — также ручная загрузка. С Zoom / Google Meet / Microsoft Teams / Webex — полная автоматизация через официальные SDK.
Можно ли искать по архиву встреч голосом
Семантический поиск по тексту: «когда мы решили запустить продукт X», «что обещали клиенту Y», «кто против перехода на Postgres». Через RAG (pgvector + embeddings) система находит релевантные фрагменты со ссылкой на встречу и тайм-кодом. Можно делать через чат-бот в Telegram, можно через веб-интерфейс. Поиск голосом технически возможен (тот же Whisper на запрос), но обычно избыточно — текстовый поиск удобнее.
Что с экономикой при больших объёмах встреч
При объёме от 200 часов встреч в месяц selfhosted Whisper окупает железо за 2-4 месяца. Если у вас 50-100 часов — выгоднее SpeechKit или GPU в облаке без капитальных затрат. Я считаю экономику под ваш объём на старте и предлагаю оптимальную схему.
Сколько хранятся расшифровки и аудио
Срок и схему хранения настраиваем под ваш регламент: типично 1-2 года полная расшифровка + 90 дней аудио для верификации. После — автоматическое удаление или анонимизация. Логи доступа к расшифровкам пишутся, можно отследить кто что смотрел.
Что если встреча на двух языках или с акцентом
Whisper-large-v3 хорошо переключается между языками и понимает русский акцент в английской речи / английский в русской. Сильный акцент или диалект ухудшают WER на 3-5 п.п. Если у вас регулярно встречи на смешанных языках — рекомендую тестовый прогон 5 записей перед запуском, считаем WER, при необходимости дотюниваем модель.
Сколько времени отнимет у моей команды на запуск
Со стороны клиента: 1 встреча 2 часа с владельцем процесса (CTO/COO/Head of PMO), доступы к календарю и системе знаний, 10-15 пробных записей для калибровки точности. Если нужен selfhosted — место под GPU-сервер и оплата железа. Всё остальное делаю я. Итого 4-6 часов на команду заказчика.
Готовы обсудить вашу задачу?
Пришлите 5 записей реальных встреч и список систем где вы хотите видеть конспект. За 5 рабочих дней верну: WER на ваших записях, пример саммари по вашему шаблону, расчёт окупаемости. Бесплатно.
Оставить заявкуСмежные решения Noltis
Задачи редко живут поодиночке - вот что чаще всего внедряют вместе с этим продуктом. Полный список - в каталоге продуктов.
- AI-ассистент руководителяПочта, календарь, сводки и контроль поручений
- AI-аналитика отчётовОтчёты сотрудников в выводы и сигналы для решений
- RAG-системы под ключИИ-поиск по вашим документам и базам знаний
- Локальные LLM на вашем сервереМодели в контуре компании, данные не уходят наружу
- Fine-tune LLM на ваших данныхМодель, обученная говорить языком вашего бизнеса
- Внедрение AI под ключКомплексное направление: аудит, внедрение, поддержка