Noltis · 2026 · работаю в РФ

Локальные LLM на вашем сервере

Разворачиваю open-source LLM (Qwen, Llama, Saiga, Mistral) на ваших серверах с GPU. Без передачи данных в OpenAI и Сбер, без зависимости от внешних провайдеров и квот. Подбираю модель, железо и квантизацию под ваш сценарий и бюджет.

0
данных уходит
за периметр
0
модели
на 1×A100/H100
0
throughput
на vLLM
0
окупаемость
vs OpenAI
· визуально

Что вы получаете на выходе

Не презентация, не идея, не пилот. Работающая система, которая делает работу за людей с фиксированной точностью.

root@gpu-01:~$ nvidia-smi | head -20 NVIDIA A100-SXM4-80GB · CUDA 12.4 · driver 550.90 · 79 GiB free of 80 GiB root@gpu-01:~$ vllm serve Qwen/Qwen2.5-72B-Instruct --quantization awq --max-model-len 32768 → loading shards: 100% (37/37) · KV cache: 12.4 GiB · max concurrent: 16 reqs INFO 2026-05-29 10:42:18 vllm: server started on 0.0.0.0:8000 (OpenAI-compatible) user@app:~$ curl POST /v1/chat/completions «составь сводку по договору №2847» [stream] первый токен: 142ms · throughput: 48 tok/s · итого: 312 токенов за 6.5с → контур: изолирован, без интернета · логи only-internal · audit: enabled cost vs облако: ~14 ₽ за этот запрос в OpenAI · ~0.4 ₽ амортизация on-prem → TCO break-even: 4.2 месяца на текущем объёме 80к запросов/мес
· когда нужно

Почему облачные LLM вам уже не подходят

OpenAI заблокирован для прямых платежей, GigaChat и YandexGPT накладывают квоты и стоят денег с каждым токеном, а данные клиентов нельзя передавать в принципе. Локальная LLM закрывает все три проблемы.

01

Данные клиентов нельзя передавать в облако

152-ФЗ, медицинская тайна, банковская тайна, NDA с корпоративными клиентами, госконтракт с грифом. Любая отправка в OpenAI/GigaChat — это юридический риск.

02

Облачные LLM стоят больно при больших объёмах

При 100к+ запросов в месяц на GigaChat-Pro или YandexGPT-Pro выходит 80-200 тыс. ₽/мес. Свой сервер с A100 окупается за 4-8 месяцев.

03

OpenAI и Anthropic недоступны напрямую из РФ

Платежи только через посредников, риск отключения, квоты, периодические сбои. Production-сервис на этом строить нельзя.

04

Скрипты и pipeline уперлись в rate limit

Парсинг 50 тыс. документов через API GigaChat — это неделя ожидания из-за RPS-лимитов. На своём vLLM — 6-12 часов.

05

Хотим тонкую настройку под свою задачу

LoRA-адаптеры под ваш стиль ответов, доменный словарь, специфические инструкции. На облачных API это либо невозможно, либо стоит как космос.

06

Нужна гарантия что модель не изменится

OpenAI без предупреждения деградирует версии моделей. Вы построили продукт на gpt-4-0613 — через 6 месяцев его уже нет. Selfhost — это вечная стабильная версия.

· какие модели

Open-source LLM для русского языка в 2026

Подбираю модель под задачу: для FAQ хватает 7B, для сложного reasoning нужно 70B, для агентов — Qwen 2.5 72B. Привожу актуальные на сегодня варианты с моими отметками по сильным и слабым сторонам.

Qwen 2.5 72B

Универсальный фаворит 2026

Лучший open-source LLM для русского по моему опыту. Сильный reasoning, длинный контекст 128k, отличный tool-use. Запускается на 1×H100 (AWQ Q4) или 2×A100 (FP16). 48-65 tok/s на vLLM.

Llama 3.3 70B

Самая популярная база

Релиз Meta декабря 2024, конкурент Qwen 2.5 70B. Чуть слабее в reasoning на русском, но лучше для англо-русских смешанных задач. Огромная экосистема LoRA и fine-tune. 2×A100 FP16 или 1×H100 Q4.

Saiga Llama-3 8B

Бюджетный русскоязычный

Дообученная на русском Llama-3-8B от IlyaGusev. Не для сложных задач, но отлично работает на FAQ, классификации, разметке. Помещается на 1×RTX 4090 (24 GB) с большим контекстом. 80-120 tok/s.

Mistral Large 2

Европейский тяжеловес

Mistral Large 2 (123B параметров) хорош на reasoning и коде. Лицензия research-only для коммерции, но есть legal-варианты. Требует 2×H100 или 4×A100. Меньше популярен в РФ из-за лицензии.

Qwen 2.5 7B

Лёгкий и быстрый

Для простых задач: классификация, извлечение полей, короткие ответы. Помещается на 1×RTX 3090/4090 (16-24 GB) или даже на CPU с llama.cpp. 100-200 tok/s на GPU.

GigaChat-Lite

Гибридный вариант

Сбер выпустил open-weights GigaChat-7B-Instruct. Хорош для русского, легко эксплуатировать, но слабее Qwen/Llama на сложных задачах. Подходит для FAQ и поддержки.

· как разворачиваем

Стек развёртывания и эксплуатации

От подбора железа до production-мониторинга. Конкретные инструменты которыми пользуюсь сам.

Inference

vLLM — production по умолчанию

PagedAttention, continuous batching, OpenAI-совместимый API. Самый высокий throughput для multi-user сценариев. 5-10× быстрее huggingface transformers на параллельной нагрузке.

vLLMPagedAttentionOpenAI API
Альтернативы

TGI, Ollama, llama.cpp

TGI (HuggingFace) — для редкого использования с большими моделями. Ollama — для прототипов и одиночного пользователя. llama.cpp — для CPU-only и Mac (GGUF-кванты), а также для embedded-устройств.

TGIOllamallama.cppGGUF
Квантизация

AWQ, GPTQ, GGUF

AWQ Q4 — стандарт для GPU (минимальная потеря качества, 4× экономия памяти). GPTQ — старый аналог. GGUF Q4_K_M/Q8 — для CPU/Mac. Подбираем квант под GPU memory и требования к качеству.

AWQGPTQGGUFQ4/Q8
Контейнеры

Docker + nvidia-container-toolkit

Каждая модель — отдельный контейнер с прибитой версией vLLM, CUDA и весов. Воспроизводимо, можно откатить за минуту. Compose-стек: vLLM + Qdrant + reverse-proxy + monitoring.

Dockernvidia-toolkitCompose
Мониторинг

Prometheus + Grafana + GPU-метрики

GPU utilization, GPU memory, KV-cache hit rate, throughput tok/s, latency p50/p95/p99, queue depth, ошибки OOM. Алёрты в Telegram на падение throughput и переполнение KV-cache.

PrometheusGrafanaDCGM
Безопасность

Закрытый контур + аудит

API за reverse-proxy с mTLS или ключами, изоляция в отдельный VLAN, без интернета на GPU-нодах, логирование всех запросов и ответов в SIEM для аудита. Подготовка к проверкам ФСТЭК/ФСБ при необходимости.

mTLSVLANSIEMаудит
GigaChat YandexGPT Claude 4.7 GPT-5 n8n Диадок Битрикс24 AmoCRM PostgreSQL pgvector RAG Telegram API WABA Yandex SpeechKit RPA ChatWoot Selectel Yandex Cloud 152-ФЗ GigaChat YandexGPT Claude 4.7 GPT-5 n8n Диадок
· кейсы

Что уже сделано

Без имён клиентов (NDA), но цифры и стек реальные.

Частная клиника · Москва

Qwen 2.5 72B для расшифровки приёмов

0
утечек ПДн
−6 мин
на оформление приёма
52 tok/s
throughput
5 мес
окупаемость

Сервер с 2×A100 80GB в стойке клиники. Whisper-large-v3 расшифровывает диктофон врача, Qwen 2.5 72B AWQ Q4 структурирует в карту приёма (жалобы, анамнез, диагноз, назначения). Всё в защищённом контуре, никаких внешних API.

Банк второй сотни · регион

Llama 3.3 70B для внутренней поддержки

0
передачи в облако
−38%
тикетов в IT
40 tok/s
throughput
6 мес
окупаемость

Два сервера с 2×A100 80GB в защищённом сегменте банка. Llama 3.3 70B + RAG по 18 000 внутренних регламентов и инструкций. Сотрудники задают вопросы в корпоративном Mattermost-боте, получают ответ с цитатами.

Юридическая компания · СПб

Saiga Mistral для черновиков документов

−40%
времени на драфт
0
данных в OpenAI
90 tok/s
throughput
3 мес
окупаемость

Один сервер с 1×A100 40GB. Saiga-Mistral дообучена на 5000 эталонных документов клиента (LoRA). Юристы получают черновики договоров, претензий, исков в фирменном стиле и с правильной терминологией.

· цены и пакеты

Сколько это стоит

Фиксированная цена за фиксированный объём. Без часов разработчика и сюрпризов в счёте.

Старт

Малая модель на одной GPU

200-400 тыс. ₽ / единоразово (без железа)
Срок 3-4 недели
  • Подбор и аренда/закупка железа (1×4090 или A100 40GB)
  • Развёртывание Qwen 7B / Saiga / GigaChat-Lite
  • vLLM или Ollama в Docker
  • OpenAI-совместимый API
  • Базовый мониторинг GPU
  • Бенчмарк качества на ваших задачах
  • 60 дней гарантии
Запросить смету
Полный

On-premise кластер для регулируемой отрасли

1-2 млн ₽ / единоразово (без железа)
Срок 10-14 недель
  • Всё из «Средний»
  • Кластер 2-4 GPU-ноды с балансировщиком
  • Мульти-модельный роутинг (7B + 32B + 70B)
  • Полная изоляция контура, mTLS, аудит-логи
  • Подготовка к ФСТЭК/152-ФЗ проверкам
  • LoRA fine-tune под вашу терминологию
  • Content-filter и faithfulness-проверка
  • Технический партнёр первые 3 мес
Запросить смету
· FAQ

Частые вопросы

То, что чаще всего спрашивают перед стартом.

Q01

Какое железо нужно для модели 70B

Минимум: 1×NVIDIA H100 80GB (FP8 или AWQ Q4) или 2×A100 80GB (FP16). Бюджетный вариант: 2×RTX A6000 48GB или 4×RTX 4090 24GB (с тензорным параллелизмом, медленнее). Сервер от 1.8-3.5 млн ₽ в зависимости от GPU. Память системы 256+ GB RAM, NVMe от 4TB для весов и кэша. Питание 2-3 kW, охлаждение серверной стойки обязательно. Можно арендовать у Selectel, Cloud.ru, immers.cloud — от 80-200 тыс. ₽/мес за хост с A100.

Q02

Какое железо нужно для модели 7-8B

1×RTX 4090 (24 GB) комфортно держит 7-8B модели в FP16 с контекстом до 8k, или с квантизацией Q4 — до 32k. Бюджет железа: 350-500 тыс. ₽. Для production с несколькими параллельными пользователями лучше A100 40GB. Для CPU-only варианта подойдёт сервер с 64+ GB RAM, llama.cpp Q4_K_M даёт 5-15 tok/s — приемлемо для batch-задач, медленно для интерактива.

Q03

vLLM или Ollama — что выбрать

Ollama — для прототипов, одиночного использования, разработки на ноутбуке. Простой запуск (одна команда), но throughput низкий и нет batching. vLLM — для production с несколькими пользователями: PagedAttention, continuous batching, OpenAI-совместимый API. На одной A100 vLLM выдаёт в 5-10 раз больше токенов в секунду чем Ollama при той же модели. Любой коммерческий сервис — это vLLM. Ollama — для R&D и пилотов.

Q04

Что такое квантизация и теряет ли модель в качестве

Квантизация снижает точность весов с FP16 (16 бит на параметр) до Q4 (4 бита) — модель занимает в 4 раза меньше памяти и работает быстрее. Современные методы (AWQ, GPTQ) теряют примерно 1-3% качества на бенчмарках — на практике незаметно. Q8 теряет меньше 1%, Q4 теряет 1-3%, Q3 уже заметно деградирует. Стандарт production — AWQ Q4 для GPU и GGUF Q4_K_M / Q8 для CPU. Для критичных задач (медицина, юр-документы) можно держать FP16 ценой большего железа.

Q05

Сколько по деньгам окупается vs OpenAI/GigaChat

Зависит от объёма. При 50-100k запросов в месяц облачные API стоят 80-200 тыс. ₽/мес. Свой сервер с 1×A100 (аренда 100 тыс. ₽/мес) обслуживает 200-500k запросов в месяц с запасом. Break-even — обычно 4-8 месяцев. При собственном железе (CAPEX 2-3 млн ₽) окупается за 12-18 месяцев против OpenAI. Плюс снимаются риски утечек и зависимости от провайдера, которые сложно перевести в деньги до инцидента.

Q06

Можно ли дообучить модель на наших данных (fine-tune)

Да. Делаем LoRA-адаптеры (Low-Rank Adaptation) — это в 100-1000 раз дешевле и быстрее полного fine-tune. Нужно 500-5000 пар вопрос-ответ в нужном стиле. Тренировка LoRA для 7B модели — несколько часов на 1×A100, для 70B — 12-48 часов. Адаптер весит 50-500 MB, грузится поверх базовой модели за секунды. Можно держать несколько LoRA под разные задачи на одной базе.

Q07

Что если нужна модель для конкретного домена (медицина, юр)

Сначала пробуем базовую модель (Qwen 2.5 72B, Llama 3.3 70B) + RAG по доменным документам — в 80% случаев этого хватает с лихвой. Если нужна специфическая терминология и стиль — добавляем LoRA на 1-5к доменных примеров. Полный fine-tune базовой модели на домене — дорого (от 500 тыс. ₽ за прогон) и нужен только в редких случаях. Для медицины есть готовые домен-модели типа BioMistral, для русского права — есть LoRA-адаптеры в open-source.

Q08

Можно ли запустить на CPU без видеокарты

Технически да — llama.cpp с GGUF-квантами работает на любом x86 сервере с AVX2. Реально: 7B Q4 даёт 5-15 tok/s на хорошем сервере (Xeon Gold, Epyc) — приемлемо для batch-задач (классификация, разметка ночью), не годится для интерактивного чата. 70B на CPU даёт 0.5-2 tok/s — практически непригодно. Если бюджет на GPU отсутствует — лучше арендовать GPU в Selectel/Cloud.ru за 80-150 тыс. ₽/мес чем мучаться с CPU.

Q09

Как обновляться когда выйдет новая версия модели

В Docker-стеке заменяем тег образа и pull новых весов с HuggingFace (или зеркала). Прогоняем регресс-тесты на наборе из 200-500 эталонных запросов, сравниваем по метрикам (точность ответов, latency, throughput). Если всё ок — переключаем production трафик через reverse-proxy. Откат за минуту если что-то пошло не так. Делаем такие обновления раз в квартал, либо когда выходит заметно более сильная модель.

Q10

Что насчёт мульти-моделей и роутинга

Часто оптимально держать 2-3 модели разного размера: маленькая (7B) для простых задач (классификация, извлечение полей, короткие ответы), средняя (Qwen 2.5 32B) для большинства, большая (70B) для сложного reasoning. Роутер на входе классифицирует запрос и направляет на нужную модель. Экономия 60-80% железа vs «всё гоняем на 70B».

Q11

Есть ли риск что модель сгенерирует что-то опасное

Open-source модели проходят safety-тюнинг от производителей (Meta, Alibaba), но он слабее чем у OpenAI. Дополнительно ставим content-filter (Llama Guard, Saiga Moderator или собственные правила) на входе и выходе. Для критичных применений (саппорт клиентам, медицина) добавляем faithfulness-проверку: вторая модель проверяет что ответ опирается на контекст и не противоречит фактам.

Q12

Сколько времени отнимет у моей команды на запуск

Со стороны клиента: 1 встреча 2 часа с IT (требования, контур, доступы), сборка/закупка/аренда железа (2-6 недель, лидтайм A100 в РФ может быть длинным), 1 встреча с владельцем процесса по бизнес-требованиям. Дальше мы разворачиваем стек, бенчмаркаем модели, настраиваем мониторинг. Сетевая часть и интеграция в ваш контур — параллельно с IT. Итого 5-10 часов на команду заказчика, остальное на нас.

Готовы обсудить вашу задачу?

Опишите задачу (для чего нужна локальная LLM), оценочный объём запросов в месяц и есть ли у вас уже GPU-железо. За 3-5 рабочих дней верну: рекомендованную модель, требования к железу, расчёт CAPEX/OPEX и сравнение с облачными API на вашем объёме.

Оставить заявку

Смежные решения Noltis

Задачи редко живут поодиночке - вот что чаще всего внедряют вместе с этим продуктом. Полный список - в каталоге продуктов.

Обсудить задачу →