С какими системами учёта вы работаете?

С большинством популярных. Подключаюсь через API и выстраиваю единую модель данных. Если нестандартное решение - разберёмся на встрече.

Можно начать без системы учёта?

Да. Могу выстроить процесс так, чтобы система появилась позже. Но для роста она почти всегда нужна.

Сколько времени занимает запуск?

Первые результаты через 7-14 дней при наличии доступов. Дальше развиваем итерациями по 1-2 недели.

Сколько это стоит?

Зависит от объёма. Обсудим на встрече и я назову конкретную цифру. Без скрытых платежей.

Я не технарь, разберусь ли?

Да. Я сам настраиваю всё техническое. Вам нужно только описать процесс продаж и дать доступы.

Что нужно предоставить для начала?

Описание процесса продаж, список источников заявок, доступы к системам и контакт ответственного.

Где будет всё работать - на вашем сервере или нашем?

По ситуации. Обычно на вашей инфраструктуре или выделенном сервере - так надёжнее.

Как выглядит поддержка после запуска?

Мониторинг, исправления, новые сценарии и каналы. Это отдельный формат работы - обсудим на встрече.

Локальные LLM на вашем сервере

Своя локальная нейросеть на вашем железе. Ни один токен не уходит в OpenAI или GigaChat.

Разворачиваю Llama 3, Qwen 2.5, Yandex YaLM или GigaChat-аналог на вашем сервере. Полная изоляция данных, без абонентки за API, без лимитов RPS. Подходит для банковской тайны, ПДн, медицинских данных и любых случаев, где нельзя в облако.

Записаться на разбор Как работает

Запуск за 3-6 недель

Llama 3, Qwen, YaLM, GigaChat OSS

Изоляция от интернета

локальная нейросеть · нагрузка за месяц, банк b2b-сегмент

LIVE

Запросов к LLMза месяц

8,4 млн

100%

Обслужено локальноне пошло в интернет

8,4 млн

100%

Cреднее время ответаp50 latency

320 мс

p50

p95 latencyхвост распределения

1,2 сек

p95

Стоимость API в OpenAIсэкономлено за месяц

2,1 млн ₽

саженный

данные в контуре100%

uptime месяца99,87%

токены/сек92 т/с

экономия vs OpenAI API −92% только электричество и железо

данные в интернете 0 байт полная изоляция контура

модели и стек, с которыми работаем

Llama 3.3 70B Qwen 2.5 72B Yandex YaLM GigaChat OSS vLLM / Ollama LangChain RAG + Qdrant NVIDIA A100/H100

Данные не уходят за контур

Локальная нейросеть на вашем железе - ни один токен не идёт в OpenAI, GigaChat API, YandexGPT. Подходит для банковской тайны, медицинских данных, ПДн, гостайны, кейсов где NDA с контрагентом запрещает облако.

Без абонентки за API

На объёмах 100к+ запросов/мес GigaChat API стоит 300-800 тыс. ₽/мес, OpenAI - 600 тыс. - 2 млн. Локальная LLM окупает железо за 5-9 месяцев при высокой нагрузке. Потом - только электричество.

Дообучение на ваших данных

LLM обучение fine-tuning на ваших регламентах, документации, истории диалогов. Модель становится экспертом по вашему домену, не знает чужого. Без утечки данных через API облачных моделей.

// что это

Локальная нейросеть - это ваша инфраструктура, а не подписка на чужое облако

Облачные LLM (OpenAI, GigaChat API, YandexGPT) удобны на старте: подключаешься через REST API, платишь за токены, не думаешь о железе. Но на объёмах и в чувствительных доменах это упирается в три стены: данные уходят к вендору, цена растёт с нагрузкой, лимит RPS режет масштабирование.

Локальная LLM это модель уровня GigaChat / GPT-4 (Llama 3.3 70B, Qwen 2.5 72B), развёрнутая на вашем сервере. Никаких внешних API, никаких токен-лимитов, никакой телеметрии. Полный контроль над весами модели, версиями, dataset'ом для дообучения.

На типичных задачах (RAG, классификация, суммаризация, диалог) модель 32-70B параметров на NVIDIA A100/H100 даёт качество на уровне GigaChat-2 Max или GPT-4o-mini. На узких доменах после fine-tune часто превосходит облачные за счёт глубокого знания вашей специфики.

скорость генерации

92 т/с

токенов в секунду на A100 80GB

размер модели

8-70 B

подбираем под задачу и железо

контекст

128k

токенов на вход без нарезки

окупаемость железа

5-9 мес

vs OpenAI API при нагрузке 100к+ rpm

// что делает агент

Шесть шагов между «нам нужна LLM на своём железе» и «запущено, работает»

Каждый шаг - под вашу задачу, ваше железо и ваш контур безопасности. Никаких "коробок за 3 млн с неподдерживаемыми обновлениями".

01 · задача

RAG по регламентам банка, 14 тыс. документов

Подбираю модель и конфигурацию железа

Определяем кейс и нагрузку

RAG-поиск по корпоративной базе / классификация писем / суммаризация / диалоговый агент / генерация кода. От кейса зависит размер модели (8B / 32B / 70B) и нужное железо.

02 · модель

Llama 3.3 Qwen 2.5 YaLM GigaChat OSS

Выбираем модель под русский язык

Llama 3.3 70B - флагман по универсальности. Qwen 2.5 - лучшая по коду и логике. YaLM 100B - чисто русская модель. GigaChat-OpenSource - аналог в стиле Сбера. Бенчмарки на вашей задаче.

03 · железо

NVIDIA H100 80GBflagship

NVIDIA A100 80GBоптимум

NVIDIA L40S 48GBэкономный

RTX 4090 24GBдля PoC

Подбираем GPU под бюджет и нагрузку

Для модели 70B - A100/H100 80GB или связка 2×L40S 48GB. Для модели 8-13B - L40S или RTX 4090. Аренда у Selectel / Cloud4Y / Yandex Cloud, либо закупка под себя - сравниваем TCO.

04 · разворот

vLLM / Ollama + REST-обёртка

Разворот через vLLM (production-grade, batched inference) или Ollama (PoC и dev). REST API в стиле OpenAI - чтобы ваш существующий код мигрировал заменой URL. Аутентификация и rate-limiting на уровне gateway.

05 · fine-tune

Ваши данные→QLoRALLM обучение

Регламенты→ЭмбеддингиRAG

Промпты→LangChainагенты

Дообучение на вашем домене

QLoRA fine-tuning на ваших корпусах: документация, диалоги, регламенты. Через LangChain или LlamaIndex - агенты с инструментами (RAG, поиск, вызов внутренних API). Модель знает вашу специфику.

06 · мониторинг

uptime + latency, месяц

99,87%

p50 320мс, p95 1,2с

Prometheus + Grafana, алерты в Telegram

Мониторим latency, RPS, GPU-utilization, температуру карт, OOM. Алерты в Telegram админа на падения и аномалии. SLA 99,5% по договору, типично выходим на 99,8-99,9%.

Локальная LLM vs облачные API на типовых задачах

Замер по клиенту - корпоративный банк, RAG-поиск по 14 тыс. внутренних регламентов, второй квартал эксплуатации.

задача

OpenAI

локальная

скорость

данные

RAG-поиск по документам

180 тыс/мес

эл-во

120 т/с

внутри

Классификация писем

95 тыс/мес

эл-во

280 т/с

внутри

Суммаризация звонков

220 тыс/мес

эл-во

82 т/с

внутри

Диалоговый агент

420 тыс/мес

эл-во

92 т/с

внутри

Генерация кода

340 тыс/мес

эл-во

88 т/с

внутри

Перевод и нормализация

110 тыс/мес

эл-во

340 т/с

внутри

// сценарии

Где локальные LLM уже стоят на серверах

Четыре сценария из разных секторов. Конфигурация модели, размер железа, какие задачи закрывает.

Корпоративный банк

RAG по регламентам

14 тыс. внутренних регламентов, инструкций, методичек. Сотрудник спрашивает "как открыть счёт нерезиденту-юрлицу" - получает ответ с цитатами и ссылками. OpenAI/GigaChat нельзя - банковская тайна.

Llama 70B на A100×2, 180 запросов/мин

Медицина

Суммаризация осмотров

Расшифровка диктофонной записи приёма врача + краткая сводка в карточку пациента (МИС). Персональные данные не могут уходить в облако - стоит локально на серверах клиники.

Whisper + Qwen 32B, 3 мин запись = 2 сек резюме

Производство

Внутренний AI-ассистент

База знаний по оборудованию, инструкциям, регламентам безопасности. Мастер цеха в Telegram спрашивает "как восстановить параметр X на линии Y" - получает ответ с разделом из руководства.

Qwen 32B на L40S, 2 400 сотрудников

Юрфирма

Анализ договоров

Загружает договор, ИИ ищет нестандартные пункты, риски, отсутствующие гарантии. NDA с клиентами не позволяет отправлять тексты в облако.

Llama 70B на H100, 200 стр / 38 сек

Подберу железо и модель под вашу задачу

30-минутный разбор. Смотрю задачу, объёмы, требования по безопасности. На выходе - спецификация железа и модели + расчёт TCO vs облачные API.

Отправить письмо

// как это работает

От первого звонка до боевой локальной LLM - 3-6 недель

Без слайдов и презентаций. Беру вашу задачу, ваше железо или арендованный GPU, ваши данные. Делаю систему, которая работает без меня.

неделя 1

Бенчмарк моделей

Тестирую 3-4 модели (Llama, Qwen, YaLM, GigaChat OSS) на вашей задаче. Замеряю качество, скорость, требования к железу. Подбираю оптимальную под бюджет.

недели 2-3

Развёртывание

Арендую или настраиваю ваше железо. Разворачиваю модель через vLLM с REST API в стиле OpenAI. Безопасность: VPN, аутентификация, rate-limiting.

недели 4-5

Fine-tune + интеграции

QLoRA-дообучение на ваших данных. RAG через Qdrant / Weaviate. Интеграция с вашими сервисами (CRM, MIS, ERP, телефония) через LangChain.

неделя 6

Передача + SLA

Мониторинг (Prometheus + Grafana + алерты в Telegram). Документация по эксплуатации. Обучение вашего DevOps. Договор поддержки с SLA 99,5%.

Что говорят клиенты

Три отзыва от CIO/CTO компаний, которые эксплуатируют локальные LLM минимум полгода. С цифрами и контекстом.

“

Мы банк, регламенты в облако отправить не можем. Поставили локальную Llama 70B на две A100, дообучили на 14 тыс. внутренних документов. Сотрудники колл-центра вопросов задают в 3 раза меньше старшим - ИИ быстрее и точнее.

АС

Алексей Степаненков

CIO регионального банка

−68% эскалаций к экспертам

“

До локалки тратили на OpenAI 240 тыс. ₽/мес и ещё боялись утечки коммерческих данных. Железо A100 окупилось за 7 месяцев, дальше плачу только за электричество. Качество модели Qwen 72B на наших задачах не хуже GPT-4o-mini.

ДЗ

Денис Зимин

CTO B2B-SaaS компании

окупаемость железа: 7 мес

“

Юрфирма, договоры клиентов - тайна. Нельзя их показывать ни OpenAI, ни GigaChat. Поставили локальную Llama 70B на H100, дообучили на нашей библиотеке договоров за 15 лет. Сейчас типовой анализ договора - 38 секунд, юрист тратит время на спорные пункты.

КГ

Кирилл Гладков

партнёр юридической фирмы

скорость анализа: ×42

Посчитайте, окупится ли локальная LLM против OpenAI / GigaChat

Подвигайте ползунки - покажу грубо, сколько стоит ваша задача в OpenAI API за месяц и за сколько окупится локальное железо.

Не обещание, а порядок величины. На разборе берём вашу реальную задачу и считаем под выбранную модель и железо.

запросов в месяц, тыс

500

средняя длина ответа, токенов

500

расход на OpenAI в месяц

180 тыс

по тарифам GPT-4o-mini

локальная LLM, ₽/мес

28 тыс

электричество + амортизация

окупаемость A100

7 мес

при покупке железа

// частые вопросы

Что обычно спрашивают

Какая нейросеть для локалки лучше: Llama, Qwen, YaLM, GigaChat?

Для русского языка топ-3: Llama 3.3 70B (универсальная), Qwen 2.5 72B (лучшая по коду и логике), YaLM 100B (чисто РФ). GigaChat в OpenSource-варианте - неплохой выбор для госсектора. Под конкретную задачу делаю бенчмарк - не все модели одинаково хороши на всём.

А GigaChat от Сбера можно поставить локально?

Сбер выпустил GigaChat-7B и GigaChat-20B в Open Source - их можно поставить на своё железо. Большие версии (GigaChat 2 Max) - только через GigaChat API в облаке Сбера. Для полностью изолированной локалки рекомендую Llama 3.3 или Qwen 2.5 - они стабильнее и лучше документированы.

Какое железо нужно?

Минимум для модели 8B - RTX 4090 24GB (~250 тыс. ₽). Для 32B - NVIDIA L40S 48GB или A100 80GB (~1,1-2,2 млн). Для 70B - A100 80GB или H100 80GB (2,2-4,5 млн). Можно арендовать в Selectel, Cloud4Y, Yandex Cloud - 80-180 тыс. ₽/мес за A100.

Качество хуже OpenAI или GigaChat?

На универсальных задачах Llama 70B / Qwen 72B сопоставимы с GPT-4o-mini и GigaChat-2 Max. На узких доменах после fine-tune на ваших данных - часто лучше облачных моделей (модель знает вашу специфику, не знает чужого "шума"). На сложных задачах вроде анализа изображений или креативного письма - облачные пока впереди.

Что с санкциями на железо NVIDIA?

A100/H100 поставляются в РФ через параллельный импорт (Казахстан, ОАЭ, Армения). Гарантия от дистрибьютора, не от NVIDIA - на 1-2 года. Альтернатива - аренда в Selectel или Cloud4Y, у них флот есть, проблема снята.

Как происходит LLM обучение / дообучение?

QLoRA - метод эффективного дообучения, требует в 4-8 раз меньше памяти. На вашем dataset'е (5-50 тыс. примеров) дообучение модели 70B занимает 2-4 дня на A100. После - сохраняем дообученную модель, разворачиваем как основную. Дообучаем раз в квартал по новым данным.

Что такое llm агенты?

LLM агент - модель, которая может вызывать инструменты (поиск в базе, вызов вашего API, запуск SQL-запроса, чтение файла). Через LangChain или LlamaIndex настраиваем набор tools, агент сам решает, какой использовать в каком шаге. Подходит для сложных диалоговых сценариев.

Сколько стоит развёртывание под ключ?

Зависит от модели и интеграций. Развёртывание Llama/Qwen с REST API + RAG - 380-580 тыс. ₽. С fine-tune на вашем dataset и агентами LangChain - 580-980 тыс. Поддержка с дообучением раз в квартал - 45-85 тыс. ₽/мес. Железо/аренда GPU - отдельно.

SLA и надёжность?

Типовое SLA - 99,5% uptime в месяц (~3,5 часа простоя). На нашем флоте обычно выходим на 99,8-99,9%. При критичности - делаем кластер из 2-3 GPU с балансировкой, тогда SLA можно гарантировать 99,95%.

Что с апдейтами моделей - выйдет Llama 4, нужно ли всё переделывать?

Llama / Qwen / YaLM выходят раз в 6-12 месяцев в новых версиях. Если новая существенно лучше - обновляемся (это плановая работа, обычно 1-2 недели на миграцию + fine-tune). REST API на вашей стороне не меняется, ваш код не трогаем.

Подберу железо и модель под вашу задачу

30 минут разбора: смотрим задачу, объёмы, требования по безопасности и бюджет. На выходе - спецификация и TCO. Без презентаций.

Написать письмо или info@noltis.ru

ответ в течение рабочего дня · NDA по запросу

NOLTIS · noltis.ru · 2026 ИП Загурский Д.В · ИНН 261303293753

Своя локальная нейросеть на вашем железе. Ни один токен не уходит в OpenAI или GigaChat.

Данные не уходят за контур

Без абонентки за API

Дообучение на ваших данных

Локальная нейросеть - это ваша инфраструктура, а не подписка на чужое облако

Шесть шагов между «нам нужна LLM на своём железе» и «запущено, работает»

Определяем кейс и нагрузку

Выбираем модель под русский язык

Подбираем GPU под бюджет и нагрузку

vLLM / Ollama + REST-обёртка

Дообучение на вашем домене

Prometheus + Grafana, алерты в Telegram

Локальная LLM vs облачные API на типовых задачах

Где локальные LLM уже стоят на серверах

RAG по регламентам

Суммаризация осмотров

Внутренний AI-ассистент

Анализ договоров

Подберу железо и модель под вашу задачу

От первого звонка до боевой локальной LLM - 3-6 недель

Бенчмарк моделей

Развёртывание

Fine-tune + интеграции

Передача + SLA

Что говорят клиенты

Посчитайте, окупится ли локальная LLM против OpenAI / GigaChat

Что обычно спрашивают

Используйте все возможности Noltis

RAG-системы для бизнеса под ключ

AI-ассистент руководителя

WhatsApp Business API

Автоматизация Авито

AI-ассистент руководителя

RAG-система базы знаний

Подберу железо и модель под вашу задачу