С какими системами учёта вы работаете?

С большинством популярных. Подключаюсь через API и выстраиваю единую модель данных. Если нестандартное решение - разберёмся на встрече.

Можно начать без системы учёта?

Да. Могу выстроить процесс так, чтобы система появилась позже. Но для роста она почти всегда нужна.

Сколько времени занимает запуск?

Первые результаты через 7-14 дней при наличии доступов. Дальше развиваем итерациями по 1-2 недели.

Сколько это стоит?

Зависит от объёма. Обсудим на встрече и я назову конкретную цифру. Без скрытых платежей.

Я не технарь, разберусь ли?

Да. Я сам настраиваю всё техническое. Вам нужно только описать процесс продаж и дать доступы.

Что нужно предоставить для начала?

Описание процесса продаж, список источников заявок, доступы к системам и контакт ответственного.

Где будет всё работать - на вашем сервере или нашем?

По ситуации. Обычно на вашей инфраструктуре или выделенном сервере - так надёжнее.

Как выглядит поддержка после запуска?

Мониторинг, исправления, новые сценарии и каналы. Это отдельный формат работы - обсудим на встрече.

Fine-tune LLM на ваших данных

Дообучение LLM на ваших данных: точность +34%, скорость ×4 vs GPT-4 на узких задачах.

LoRA fine-tuning и дообучение LLM моделей на своих данных: Llama 3, Qwen 2.5, YandexGPT, GigaChat, Mistral. Обучение нейросети на ваших регламентах, переписках, документации. On-premise или в вашем приватном Yandex Cloud.

Записаться на разбор Как работает

Цикл 3-6 недель

Llama, Qwen, YandexGPT, GigaChat

On-premise, ваше железо

обучение нейросети · 3 эпохи на 1.2k примеров

LIVE

База примеровпосле разметки

1 284

100%

Train80% на обучение

1 027

80%

Validation10% для валидации

128

10%

Test10% для финальной оценки

129

10%

Точность на test+34 п.п. к baseline

92%

модельLlama 3 8B

методLoRA r=16

обучение4 ч на A100

vs GPT-4 ×4 быстрее на вашей задаче

стоимость инференса −87% on-premise vs API

дообучаем все основные LLM на русском

Llama 3.1 / 3.2 Qwen 2.5 YandexGPT 5 GigaChat Pro Mistral 7B / Mixtral Saiga / Vikhr T-Lite RuGPT-3.5

+34 п.п. точности

На узких задачах (классификация документов, диалоги поддержки, генерация по корпоративному тону) дообученная Llama 3 8B обгоняет GPT-4 на 34 п.п. и стоит в 10 раз дешевле.

Данные не уходят наружу

Обучение нейросети на своих данных идёт на вашем сервере или в вашем приватном Yandex Cloud. Корпоративная переписка, регламенты, переписки клиентов - не покидают ваш периметр.

Экономия 87% vs API

Один раз дообучить + развернуть on-premise дешевле, чем годами платить за токены OpenAI. Окупаемость 4-9 месяцев на потоках от 500 тыс. запросов в месяц.

// что это

Fine-tune - это маленькая модель, которая на вашей задаче бьёт большие

GPT-4 и Claude умеют всё, но на любую узкую задачу - дороже, медленнее и иногда хуже специализированной модели. На типовой запрос вы платите 0,03 $ за токен, ждёте 4-8 секунд ответа, и корпоративные данные идут в OpenAI/Anthropic.

Дообучение LLM моделей на своих данных меняет картину: Llama 3 8B или Qwen 2.5 7B после LoRA fine-tuning на 1-5 тыс. размеченных примеров вашей задачи бьют GPT-4 по точности на узкой нише. При этом крутятся на одной A100 или даже на RTX 4090.

Подходит для: классификации документов и тикетов, корпоративного ассистента в вашем тоне, RAG по вашей базе знаний, генерации отчётов по шаблону, разметки текстов, извлечения сущностей. Любая задача, где нужна узкая экспертиза + конфиденциальность данных.

точность

+34 п.п.

к baseline GPT-4 на вашей узкой задаче

скорость

×4

быстрее, чем GPT-4 через API

стоимость инференса

−87%

on-premise vs OpenAI API на средних объёмах

размер модели

7-8 B

помещается на одной A100 или 4090

// что делает агент

Шесть шагов от «у нас есть сырые данные» до «модель в продакшене»

Каждый шаг настраивается под вашу задачу: классификация, ассистент, генерация, разметка. Полный цикл вместе с вашим in-house ML-инженером или под ключ.

01 · задача

Нужен бот по нашей внутренней wiki в тоне компании

Понял. Считаем: 2 тыс примеров, Saiga + LoRA

Уточняем, нужен ли вам fine-tune вообще

Иногда хватает RAG или промпт-инжиниринга. Дообучение нужно когда есть стиль/доменная лексика, узкие форматы ответа.

02 · датасет

JSONL 1-5k примеров валидация размечено

Готовим обучающую выборку

Парсим ваши данные (логи, переписки, документы), размечаем в JSONL формате instruction/input/output. 80/10/10 на train/val/test.

03 · модель

Llama 3 8Bрусский OK

Qwen 2.5 7Bлучше код

Saiga 7BRU SFT

Vikhr 7Bдолго

Выбираем базовую модель

Под русский домен: Llama 3, Qwen 2.5, Saiga, Vikhr, T-Lite. Под код: DeepSeek-Coder. Размер 7-13B - оптимум по цена/качество.

04 · LoRA

LoRA fine-tuning на A100

3-5 эпох на 1-5к примеров, rank 8-32. Loss падает, точность на val растёт. 4-12 часов обучения на одной A100.

05 · оценка

BLEU/ROUGE→0,72good

Accuracy→92%test

Hum.eval→4,3/5люди

Бенчмарк vs GPT-4 и базовая модель

Считаем метрики на тестовой выборке: accuracy, F1, BLEU/ROUGE. Параллельно люди оценивают качество слепо: ваша модель vs GPT-4.

06 · деплой

vLLM, токенов/сек

batch=8, RTX 4090

Деплой на ваше железо

vLLM или Ollama для инференса. REST API совместимый с OpenAI. На RTX 4090 - до 100 токенов/сек, на A100 - до 300.

Точность по разным задачам после fine-tune

Замер по нашим проектам: классификация документов, помощник по коду, RAG, разметка. Метрика - accuracy на hold-out test.

задача

baseline

после fine-tune

vs GPT-4

экономика

Классификация тикетов

58%

92%

+8 п.п.

−84% inference

RAG-ассистент wiki

64%

87%

+12 п.п.

on-prem

Извлечение сущностей

71%

94%

+6 п.п.

×3,2 быстрее

Генерация в тоне бренда

3,1/5

4,4/5

+0,7

human eval

Помощник по коду

42%

78%

+4 п.п.

локально

Суммаризация документов

0,61

0,82

паритет

ROUGE-L

// сценарии

Где Fine-tune уже работает

Четыре сценария из разных отраслей. Конкретные модели, метрики, экономика по нашему потоку проектов.

Финтех

Классификация обращений в поддержку

Банк, 14 тыс. обращений в день. GPT-4 через API стоил бы 8-12 млн ₽/мес. Дообучили Llama 3 8B на 14 тыс. исторических обращений с разметкой по 24 категориям.

accuracy 92%, on-premise, −87% затрат

Промышленность

RAG-ассистент по регламентам

Завод, 2 800 регламентов и ТУ. Saiga 7B + LoRA на 1 700 пар «вопрос-ответ» из истории обращений в техотдел. Бот в Telegram у мастеров смены.

точность ответов: 87%

Юридическая компания

Извлечение сущностей из договоров

Стороны, суммы, сроки, гарантии, штрафные санкции из договоров любого формата. Qwen 2.5 7B + LoRA на 3 200 размеченных договоров.

F1 на test: 0,94

Маркетинг агентство

Генерация в тоне бренда

Контент-команда писала посты в 3 разных стилях для разных клиентов. Дообучили T-Lite на 5 500 примерах постов каждого бренда. Сейчас драфты автомат, копирайтер только редактирует.

скорость подготовки: ×4,2

Подберём модель и стратегию fine-tune под вашу задачу

30-минутный разбор. Смотрю ваши данные, домен, требования. На выходе - выбор базовой модели, оценка размера датасета и экономика проекта.

Отправить письмо

// как это работает

От первого звонка до модели в продакшене - 3-6 недель

Без академических презентаций. Беру ваши сырые данные, договариваемся об объёме разметки, обучаю и деплою. Не абстрактный «AI», а конкретная модель под конкретную задачу.

неделя 1

Постановка задачи

Смотрю ваши данные, домен, инфраструктуру. Решаем: fine-tune или хватит RAG/промптов. Подбираем базовую модель.

недели 2-3

Датасет и разметка

Собираем 1-5 тыс. примеров в JSONL. Если разметки нет - привлекаем разметчиков или генерим синтетику + ваша валидация.

недели 4-5

Обучение и валидация

LoRA fine-tuning на A100, hyperparam sweep. Метрики на val, человеческая оценка vs GPT-4. Итерируем до нужной точности.

неделя 6

Деплой и передача

vLLM/Ollama на ваше железо, REST API. Передаю Jupyter-ноутбуки, чек-листы, скрипты переобучения. Поддержка по запросу.

Что говорят клиенты

Три отзыва от CTO и ML-руководителей, у которых дообученные модели работают в продакшене минимум полгода.

“

Платили за OpenAI почти 11 млн ₽ в месяц на классификации тикетов. Дима подсчитал, что Llama 3 8B + LoRA на нашем датасете даст ту же точность. Через 6 недель развернули on-premise, счёт OpenAI упал в 8 раз. Окупилось за 7 недель.

РК

Роман Корчагин

CTO финтех-стартапа

−87% затрат на LLM

“

У нас режимные требования - ничего наружу. RAG-ассистент по регламентам на Saiga 7B крутится на собственной A100. Мастера спрашивают «как поступить если течёт фланец на участке 3», бот отвечает с цитатой регламента и номером ТУ.

АС

Алексей Самохин

руководитель ИТ-отдела, химия

on-premise, 0 байт наружу

“

Юристы тратили по 90 минут на первичный анализ нового договора - выписать стороны, сроки, суммы, гарантии. Qwen 2.5 7B после дообучения на 3 200 наших договоров делает это за 7 секунд с F1=0,94. Юрист сразу к комментариям.

МК

Михаил Кузмин

партнёр юридической фирмы

−92% времени на первичку

Посчитайте, сколько экономит fine-tune vs API

Подвигайте ползунки - покажу грубо, сколько вы платите OpenAI в месяц и сколько сэкономит дообученная модель на вашем сервере.

Не обещание, а порядок величины. На разборе берём ваши реальные объёмы запросов и структуру нагрузки.

запросов к LLM в месяц, тыс

500

средняя длина запроса+ответа, токенов

сейчас платите OpenAI

1,2 млн

₽/мес по текущему курсу GPT-4

on-premise после fine-tune

156

тыс. ₽/мес: аренда A100 + поддержка

окупаемость проекта

3 мес

после запуска модели

// частые вопросы

Что обычно спрашивают

Когда нужен fine-tune, а когда хватит RAG?

RAG (поиск + LLM) подходит, когда нужно отвечать по вашей базе знаний фактически. Fine-tune нужен, когда модель должна писать в вашем тоне, в узком формате, использовать доменную лексику, или работать с нетекстовыми форматами (код, JSON, специфический язык). Часто работают вместе: fine-tune для стиля + RAG для фактов.

Сколько данных нужно для LoRA fine-tuning?

Минимум 200-500 размеченных примеров для узкой классификации, 1-3 тыс. для инструкций и диалогов, 5-10 тыс. для генерации в стиле/тоне. Качество разметки важнее количества: 500 хорошо размеченных побеждают 5 тыс. шумных. Если разметки нет - помогаем с генерацией синтетики и валидацией.

Какие модели чаще всего дообучаете?

Для русского: Llama 3.1/3.2 (8B), Qwen 2.5 (7B), Saiga (7B), Vikhr (7B), T-Lite (7B), YandexGPT 5 Lite (через их API). Для англоязычных задач: Llama 3.1, Qwen, Mistral. Для кода: DeepSeek-Coder, Qwen-Coder. GigaChat - через API Сбера, fine-tune ограничен. Подбор - под бюджет и инфраструктуру.

Сколько стоит обучение нейросети?

Базовый цикл fine-tune (датасет 1-3 тыс., 1 модель, LoRA): 480-720 тыс. ₽. Сложный кейс (5+ тыс. примеров, синтетика, мультиэпоха, бенчмарки vs GPT-4): 800-1400 тыс. ₽. Аренда A100 на цикл обучения: 15-40 тыс. ₽. Окупаемость для объёмов 200 тыс.+ запросов в месяц - 3-6 месяцев.

На каком железе крутится модель после fine-tune?

Llama 3 8B / Qwen 2.5 7B после квантизации (Q4-Q5): RTX 4090 24 ГБ ($1800), скорость 50-100 ток/сек. Без квантизации: A100 40 ГБ или 2× RTX 4090. Аренда A100 в Yandex Cloud / Selectel: 110-160 тыс. ₽/мес. Для 13B модели нужно больше железа, обсуждаем под задачу.

Можно ли дообучить YandexGPT или GigaChat?

YandexGPT 5 поддерживает fine-tune через API Yandex Cloud Foundation Models - быстро, но вы привязаны к их облаку. GigaChat - ограниченный fine-tune через Сбер AI Studio. Если нужна полная независимость и on-premise - идём через open-source модели (Llama, Qwen). Под каждый случай советуем оптимальный вариант.

Что с конфиденциальностью данных?

Полностью on-premise: данные не покидают ваш периметр, аренда GPU - на ваших мощностях или Selectel с NDA. Если используем Yandex Cloud / Selectel Cloud - подписываем DPA, данные в РФ, выделенный namespace. Для банков и ВПК - обучение на вашем железе, мы даже не имеем удалённого доступа.

Как сравниваете с GPT-4 или Claude?

На test-set из ваших данных (никогда не видели в обучении) гоняем три модели: GPT-4 через API, Claude через API, наша fine-tuned. Метрики: accuracy/F1 для классификации, BLEU/ROUGE для генерации, human eval для стиля. На узких задачах часто бьём GPT-4 по точности и всегда - по скорости и стоимости.

Кто будет переобучать модель потом?

Можем мы - контракт на квартальные обновления (45-90 тыс. ₽). Можете вы - передаём датасет, скрипты обучения, Jupyter-ноутбуки, инструкцию в markdown. ML-инженер уровня middle справится сам. Часто берут на поддержку первые 6-12 месяцев, потом переводят in-house.

Что если модель после fine-tune работает хуже GPT-4?

В договоре фиксируется измеримая цель: точность на ваших данных не хуже GPT-4 на X%. Если не удалось - дорабатываю за свой счёт (другая модель, дополнительный датасет, иные гиперпараметры). Деньги возвращаются, если расхождение больше 30% и причина в реализации.

Подберём модель и посчитаем экономику fine-tune

30 минут разбора: смотрим ваши данные, домен, инфраструктуру. Считаем экономику vs API и выбираем базовую модель. Без академических лекций.

Написать письмо или info@noltis.ru

ответ в течение рабочего дня · NDA по запросу

NOLTIS · noltis.ru · 2026 ИП Загурский Д.В · ИНН 261303293753

Дообучение LLM на ваших данных: точность +34%, скорость ×4 vs GPT-4 на узких задачах.

+34 п.п. точности

Данные не уходят наружу

Экономия 87% vs API

Fine-tune - это маленькая модель, которая на вашей задаче бьёт большие

Шесть шагов от «у нас есть сырые данные» до «модель в продакшене»

Уточняем, нужен ли вам fine-tune вообще

Готовим обучающую выборку

Выбираем базовую модель

LoRA fine-tuning на A100

Бенчмарк vs GPT-4 и базовая модель

Деплой на ваше железо

Точность по разным задачам после fine-tune

Где Fine-tune уже работает

Классификация обращений в поддержку

RAG-ассистент по регламентам

Извлечение сущностей из договоров

Генерация в тоне бренда

Подберём модель и стратегию fine-tune под вашу задачу

От первого звонка до модели в продакшене - 3-6 недель

Постановка задачи

Датасет и разметка

Обучение и валидация

Деплой и передача

Что говорят клиенты

Посчитайте, сколько экономит fine-tune vs API

Что обычно спрашивают

Используйте все возможности Noltis

RAG-системы поверх дообученной LLM

MCP-серверы для вашей модели

Квалификация лидов на вашей модели

AI-ассистент на вашей модели

Автоматизация процессов с LLM

Голосовой бот с вашим тоном

Подберём модель и посчитаем экономику fine-tune