С какими системами учёта вы работаете?

С большинством популярных. Подключаюсь через API и выстраиваю единую модель данных. Если нестандартное решение - разберёмся на встрече.

Можно начать без системы учёта?

Да. Могу выстроить процесс так, чтобы система появилась позже. Но для роста она почти всегда нужна.

Сколько времени занимает запуск?

Первые результаты через 7-14 дней при наличии доступов. Дальше развиваем итерациями по 1-2 недели.

Сколько это стоит?

Зависит от объёма. Обсудим на встрече и я назову конкретную цифру. Без скрытых платежей.

Я не технарь, разберусь ли?

Да. Я сам настраиваю всё техническое. Вам нужно только описать процесс продаж и дать доступы.

Что нужно предоставить для начала?

Описание процесса продаж, список источников заявок, доступы к системам и контакт ответственного.

Где будет всё работать - на вашем сервере или нашем?

По ситуации. Обычно на вашей инфраструктуре или выделенном сервере - так надёжнее.

Как выглядит поддержка после запуска?

Мониторинг, исправления, новые сценарии и каналы. Это отдельный формат работы - обсудим на встрече.

RAG-системы под ключ

RAG-агент отвечает на 12 400 вопросов в месяц по вашим документам с точностью 91%.

Поднимаем RAG-систему на ваших регламентах, прайсах, wiki и договорной базе. Векторная база данных в РФ, эмбеддинги локально, LLM на выбор. Сотрудники и клиенты получают ответ со ссылкой на источник.

Записаться на разбор Как работает

Запуск за 3-5 недель

Yandex GPT, GigaChat, локальная Llama

Векторная база в РФ

RAG-агент за месяц · база 4 200 документов

LIVE

Всего вопросовсотрудников и клиентов

12 400

100%

Найден контекстretrieval из векторной базы

11 656

94%

Точный ответсошёлся с документом

11 284

91%

«не знаю», ушли к человекупограничные кейсы

868

Ошибки и галлюцинациипосле контроля цитаты

248

время ответа2,4 сек

точность ответа91%

база источников4 200 док

время на поиск ответа −85% vs поиск по wiki

ответ с цитатой 2,4 сек было 8 мин

читает любые источники документов

PDF, DOCX Confluence Notion Google Docs 1С документы сайт / wiki Excel прайсы SharePoint

Запуск за 3-5 недель

Подключаюсь к вашей CRM и каналам по штатным API. Через две недели агент работает на 10% трафика, через четыре - на всём входящем потоке.

Точность отсева 94%

Агент обучается на ваших скриптах и реальных диалогах. Спам и нецелевые отсекаются без ошибок, горячие передаются менеджеру с тегами и контекстом.

Окупаемость 1,5-3 месяца

Считаем под ваш сектор: скорость реакции, отсев, конверсия в сделку. В договоре - измеримая цель. Не вырастёт - дорабатываю за свой счёт.

// что это

RAG (Retrieval-Augmented Generation) - это поисковая память для LLM, которая не даёт ей врать

Обычная LLM не знает ваших регламентов, договоров, прайсов и wiki. На вопрос «сколько по нашему договору неустойка за просрочку» она придумает правдоподобный ответ и уверенно его подаст. На юридических и финансовых документах это катастрофа.

RAG-система состоит из двух частей: векторная база данных с эмбеддингами ваших документов и LLM, которой перед каждым ответом подкладывают релевантные куски. На запрос система сначала ищет нужный абзац, потом просит LLM ответить только на его основе.

Результат: точный ответ со ссылкой на конкретный документ и строку. Если ответа в документах нет - агент говорит «не знаю, передаю человеку», а не галлюцинирует. На вашем железе или в Yandex Cloud, без утечек в иностранные API.

точность ответа

91%

правильных ответов с цитатой против 38% у чистой LLM

скорость

2,4 сек

от вопроса до ответа с ссылкой

источников

4 200

документов в индексе у типичного клиента

галлюцинаций

−95%

vs LLM без retrieval-слоя

// что делает агент

Шесть шагов между «загрузил папку с документами» и «агент отвечает с цитатами»

Архитектура RAG разбирается под ваши источники, ваш стек, ваш сценарий. От парсинга PDF до graph RAG поверх связанных документов.

01 · парсинг

PDF / DOCX / Confluence / Notion

→ chunks по 512 токенов с overlap

Парсим документы и режем на chunk-и

Забираем PDF, Word, Excel, Confluence, Notion, сайт. Чистим, режем на куски по 512 токенов с перекрытием, сохраняем метаданные (автор, дата, источник).

02 · эмбеддинги

BGE-M3 E5-mistral ai-forever ruE5 локально

Считаем эмбеддинги локально

Для русского - BGE-M3, multilingual-e5, ai-forever ruE5. Считаются на вашем GPU, никаких OpenAI embeddings. Векторное пространство 768-1024 измерений.

03 · векторная БД

Qdranton-prem

Weaviateв Yandex Cloud

pgvectorв вашем PostgreSQL

Milvusдля больших баз

Кладём в векторную базу данных

Qdrant, Weaviate, pgvector или Milvus - под объём и инфраструктуру. Всё в РФ. Поверх векторов настраивается фильтр по метаданным (отдел, версия документа, права доступа).

04 · retrieval

Hybrid retrieval - вектор + BM25 + reranker

На вопрос ищем top-20 чанков по вектору, top-20 по BM25 (точные совпадения), потом reranker сужает до top-5 самых релевантных. Точность retrieval выше чистого векторного поиска на 18%.

05 · генерация

Yandex GPT→в РФ облакоAPI

GigaChat→СберAPI

Llama 70B→ваш GPUlocal

Qwen 32B→ваш серверlocal

LLM отвечает только на основе найденных кусков

Промпт строится так: «ответь на вопрос ТОЛЬКО на основе этих фрагментов. Если ответа нет - скажи "не знаю"». LLM - Yandex GPT, GigaChat или локальная (Llama, Qwen).

06 · цитирование

ответов со ссылкой

98%

точный абзац и файл

Каждый ответ - с цитатой и файлом-источником

Под ответом - конкретный фрагмент исходного документа, имя файла и строка. Сотрудник может проверить и кликнуть на источник. Аналитика спорных и «не знаю» вопросов идёт в ваш бэклог обновления базы.

Сравнение векторных БД и LLM под русский язык

Замеры по нашему пайплайну на базе 4 200 русских документов (договоры, регламенты, wiki).

компонент

выбор

скорость

точность

где живёт

Эмбеддинги

BGE-M3

120 ms

0,87 NDCG

on-prem GPU

Векторная база

Qdrant

8 ms

recall 0,94

Yandex Cloud

Reranker

bge-reranker

180 ms

+18% к точности

on-prem GPU

LLM (быстро)

Yandex GPT Pro

1,4 сек

91%

в РФ облако

LLM (private)

Qwen 32B

3,8 сек

89%

ваш сервер

Graph RAG

опционально

+0,8 сек

+11% на связных

Neo4j

// сценарии

Где RAG уже работает

Четыре сценария из разных секторов. Объём базы, тип документов, реальный результат на нашем потоке клиентов.

Юрфирма

RAG по договорам и практике

База 8 200 договоров и судебных решений. Юристы спрашивают: «есть ли в нашей практике дела по ст. 333 ГК с контрагентом-госструктурой». RAG возвращает похожие дела с цитатами.

время на поиск: 45 мин → 30 сек

B2B-производство

База знаний для поддержки

1 400 регламентов и инструкций. Сотрудники поддержки отвечают клиентам по продукту. Внутренний чат-бот находит инструкцию, цитирует и даёт ссылку на PDF.

тикетов первой линии: −65%

E-commerce

RAG-поиск по каталогу

23 000 SKU с характеристиками. Клиент пишет: «нужен ноутбук под видеомонтаж до 120 тыс с матрицей IPS». Агент находит подходящие модели и объясняет почему.

конверсия чата в заказ: +38%

Финансы

Внутренний помощник по комплаенс

2 800 регуляторных документов ЦБ и внутренней политики. Сотрудник спрашивает: «можем ли мы выдать кредит юр.лицу с X». Получает ответ с цитатой регламента.

экономия часов комплаенс: −72%

Поднимем RAG-пилот на 500 ваших документов за неделю

30-минутный разбор. Смотрим какие документы у вас есть, где они лежат, какие типовые вопросы. Запускаем пилот, итог по факту.

Отправить письмо

// как это работает

От первого звонка до боевого RAG - 3-5 недель

Без слайдов и презентаций. Беру ваши документы, ваш стек, ваш сценарий. Пилот на 500 документах за неделю, дальше полная база.

неделя 1

Аудит документов

Разбираю ваши источники: PDF, Confluence, 1С, wiki. Считаю объём, оцениваю качество текста. Выбираем стек векторной БД и LLM.

недели 2-3

Парсинг и индекс

Пишу парсеры под ваши форматы, считаю эмбеддинги, заливаю в Qdrant. Настраиваю hybrid retrieval и reranker. Тестирую на 50 типовых вопросах.

неделя 4

Интеграция

Подключаю RAG к вашему интерфейсу: Telegram-бот, чат на сайте, плагин в Битрикс24 или вашу самописку. Запускаю на тестовой группе пользователей.

неделя 5

Боевой запуск

Перевожу на всю команду. Подключаю автообновление индекса при изменении документов. Учу вашего админа добавлять источники без меня.

Что говорят клиенты

Три отзыва от тех, кто использует RAG-систему минимум полгода. С объёмами баз и конкретными цифрами.

“

У нас 8 200 договоров и 15 лет судебной практики. Раньше младший юрист искал прецедент по 40-60 минут. Сейчас вводит вопрос в RAG-агент - получает 5 похожих дел с цитатами за 30 секунд.

МК

Максим Конев

управляющий партнёр, юрфирма

−80% времени на поиск прецедента

“

База инструкций 1 400 PDF и Confluence. Поддержка первой линии завалена однотипными вопросами клиентов. RAG-бот в Telegram теперь отвечает 65% тикетов сам, со ссылкой на конкретную инструкцию.

СВ

Светлана Веденеева

руководитель поддержки, производство

−65% тикетов первой линии

“

23 тысячи SKU в каталоге, у каждой характеристики в PDF и 1С. Клиент пишет в чат на сайте свой кейс, RAG подбирает 3-5 моделей и объясняет, чем они подходят. Конверсия чата в заказ выросла на 38%.

РБ

Роман Беликов

CEO интернет-магазина электроники

+38% конверсии чата в заказ

Посчитайте, сколько сэкономит RAG на вашей базе

Подвигайте ползунки - покажу грубо, сколько часов сотрудников возвращается, если RAG-агент закроет 65% типовых вопросов.

Не обещание, а порядок величины. На разборе считаем под ваш стек документов и типы вопросов.

документов в базе

500

сотрудников, кто ищет в документах

часов в неделю освобождается

120

с поиска по документам

вопросов закроет RAG

650

из 1000 типовых в месяц

экономия ФОТ в месяц

240 тыс

по ставке 600 ₽/час

// частые вопросы

Что обычно спрашивают

Что такое RAG-система простыми словами?

RAG (Retrieval-Augmented Generation) - это связка из векторной базы данных и LLM. Сначала система ищет в вашей базе документов кусочки, релевантные вопросу, потом подкладывает их LLM и просит ответить только на их основе. Это сильно снижает галлюцинации и даёт ссылку на источник.

Зачем нужна векторная база данных?

Чтобы быстро находить по смыслу, а не по точным словам. Документы превращаются в векторы через эмбеддинги. На вопрос «как уволить декретницу» вектор близок к «отпуск по уходу за ребёнком», даже если этих слов в запросе нет. Используем Qdrant, Weaviate, pgvector или Milvus.

Какие эмбеддинги используете для русского?

Для русского лучше всего BGE-M3 (мультиязычная), multilingual-e5-large, ruE5 от ai-forever. Все запускаются локально на вашем GPU или CPU. Векторы 768-1024 измерений. Никаких OpenAI embeddings - документы не уходят в иностранные API.

Какие LLM подключаете?

В РФ-облаке: Yandex GPT Pro, GigaChat. Локально: Llama 70B, Qwen 32B, Mixtral. Выбор зависит от требований к приватности и бюджета. Yandex GPT даёт лучшее качество на русском, локальные Qwen и Llama - полную приватность.

А если документы конфиденциальные?

Для конфиденциальных контуров поднимаю весь стек на вашем железе: эмбеддинги, векторная база, LLM - всё локально. Документы не покидают периметр. Подходит для юрфирм, банков, оборонки, любой персональной информации под 152-ФЗ.

Можно сделать RAG поверх 1С?

Да. Документы из 1С (договоры, акты, накладные, ТМЦ) выгружаются через штатный API или шлюз, парсятся, кладутся в векторную базу. Обновление - инкрементальное, при изменении документа в 1С чанк перепосчитывается без полной переиндексации.

Что такое graph RAG и нужен ли он нам?

Graph RAG - это RAG, который дополнительно строит граф связей между сущностями в документах (кто, с кем, когда, по какому делу). На связных данных (судебная практика, разработка, журналистика) даёт +11% точности. На разрозненных регламентах - смысла мало.

А LangChain или LlamaIndex используете?

Обе библиотеки - инструменты, не «всё включено». В каждом проекте беру нужные компоненты (text-splitter, retriever, reranker), остальное пишу сам под ваш кейс. На продакшене не остаётся «магии» - всё прозрачно и управляемо.

Сколько стоит RAG-система под ключ?

Пилот на 500 документов - от 180 тыс. ₽ за 2 недели. Полная система на 5-10 тыс документов с интеграцией в ваш интерфейс - от 420 тыс. ₽, срок 3-5 недель. На инфраструктуру (Yandex GPT, GPU) - от 8 тыс ₽/мес.

А если RAG галлюцинирует?

Двойная защита: 1) системный промпт жёстко требует отвечать только по контексту, иначе говорить «не знаю»; 2) каждый ответ обязан содержать цитату из источника. Если LLM ответила без цитаты или цитата не найдена в базе - ответ автоматически блокируется и уходит человеку.

Покажу, как RAG ответит на ваших документах

30 минут разбора: смотрим ваши источники, обсуждаем стек векторной БД и LLM. Пилот на 500 документов запускаем за неделю.

Написать письмо или info@noltis.ru

ответ в течение рабочего дня · NDA по запросу

NOLTIS · noltis.ru · 2026 ИП Загурский Д.В · ИНН 261303293753

RAG-агент отвечает на 12 400 вопросов в месяц по вашим документам с точностью 91%.

Запуск за 3-5 недель

Точность отсева 94%

Окупаемость 1,5-3 месяца

RAG (Retrieval-Augmented Generation) - это поисковая память для LLM, которая не даёт ей врать

Шесть шагов между «загрузил папку с документами» и «агент отвечает с цитатами»

Парсим документы и режем на chunk-и

Считаем эмбеддинги локально

Кладём в векторную базу данных

Hybrid retrieval - вектор + BM25 + reranker

LLM отвечает только на основе найденных кусков

Каждый ответ - с цитатой и файлом-источником

Сравнение векторных БД и LLM под русский язык

Где RAG уже работает

RAG по договорам и практике

База знаний для поддержки

RAG-поиск по каталогу

Внутренний помощник по комплаенс

Поднимем RAG-пилот на 500 ваших документов за неделю

От первого звонка до боевого RAG - 3-5 недель

Аудит документов

Парсинг и индекс

Интеграция

Боевой запуск

Что говорят клиенты

Посчитайте, сколько сэкономит RAG на вашей базе

Что обычно спрашивают

Используйте все возможности Noltis

OCR документов AI

Локальные LLM на вашем сервере

Fine-tune LLM на ваших данных

MCP-серверы для бизнеса

AI-квалификация лидов

AI-ассистент руководителя

Покажу, как RAG ответит на ваших документах