Noltis · 2026 · работаю в РФ

Fine-tune LLM на ваших данных

Дообучаю открытые модели (Qwen, Llama, Mistral, YandexGPT-Lite) на ваших датасетах через LoRA, QLoRA и full fine-tune. Если RAG не вытягивает стиль или доменный язык — нужен fine-tune. Если хватает RAG — честно скажу.

0
примеров
для LoRA на 7B
0
один раунд
обучения
0
A100/4090
хватает на 7B
0
от датасета
до проды
· визуально

Что вы получаете на выходе

Не презентация, не идея, не пилот. Работающая система, которая делает работу за людей с фиксированной точностью.

dataset@prepare:~$ jsonl: 1842 примера · split 90/5/5 · средняя длина 612 токенов → формат: ChatML · system + user + assistant · domain: юридический отдел B2B-логистики [ok] токенизация прошла · max_len 2048 · padding right · truncation enabled axolotl@train:~$ qlora · base: Qwen2.5-7B-Instruct · r=32 · alpha=64 · 4-bit [epoch 1/3] loss 1.84 → 1.21 · lr 2e-4 · GPU A100 40GB · 47 мин [epoch 2/3] loss 1.21 → 0.78 · валидация: 0.83 · переобучения нет [epoch 3/3] loss 0.78 → 0.52 · final eval BLEU 0.71 · human eval 8.4/10 → адаптер сохранён 168MB · базовая модель остаётся неизменной · деплой через vLLM
· когда нужно

Симптомы что вам нужен fine-tune, а не очередной prompt

RAG и prompt engineering закрывают 80% задач. Остальные 20% решаются только дообучением — и вы их узнаете.

01

Модель не держит ваш tone of voice

Базовый GPT/Claude/GigaChat пишет "благодарим за обращение" а ваш бренд говорит "слушайте, тут такое дело". Никакой системный промпт не вытягивает на 100 примеров подряд.

02

Доменная терминология ломает ответы

Модель не отличает "оферту" от "акцепта", путает УПД с УКД, считает что "паллетирование" это про IT. В вашей нише слов больше чем понимает базовая модель.

03

Узкая задача с повторяющимся форматом

Нужно из 5-страничного договора вытащить 12 структурированных полей в JSON. Промпт работает на 70% случаев — этого мало для прода.

04

Дорого гонять каждый запрос через GPT-4

Объём 50-500 тыс. запросов в день. На GPT-4 это 500 тыс. - 5 млн ₽/мес, на дообученной 7B локально — стоимость только электричества и GPU.

05

Данные не должны уходить наружу

Медицина, банк, юриспруденция, гостайна. API LLM-вендоров отпадают сразу, остаются только локальные модели — и часто их нужно дообучить под вашу специфику.

06

RAG-цикл собрали но качество плавает

Retrieval работает, контекст подтягивается, но модель то соглашается с источником, то начинает фантазировать. На вашем домене это лечится дообучением, а не очередным re-ranker.

· как делается

6 этапов проекта по дообучению

От бесплатного аудита данных до выкатки адаптера в прод через vLLM/TGI/Ollama. Без скрытых шагов и магии.

01 · 2-3 дня

Аудит данных и выбор подхода

Смотрю ваш корпус, оцениваю качество и объём. Решаю: достаточно ли RAG, или нужен LoRA, или сразу full fine-tune. Если данных мало - не уговариваю на проект.

02 · 3-7 дней

Подготовка датасета

Чистка, дедупликация, разметка. Перевод в ChatML/Alpaca/Vicuna формат. Минимум 500-1000 примеров для LoRA, 5-10 тыс. для full fine-tune. Train/val/test split.

03 · 1-2 дня

Выбор базовой модели

Qwen2.5 (7B/14B/72B) для русского, Llama 3.1 для английского, Mistral для скорости, YandexGPT-Lite для интеграции с экосистемой Yandex. Замер baseline на ваших задачах.

04 · 1-3 дня

Обучение

axolotl или unsloth, LoRA или QLoRA на 1 GPU (24-80GB), full fine-tune на кластере для 70B+. Подбор lr, r, alpha, batch_size. Мониторинг через wandb.

05 · 2-3 дня

Evaluation

Holdout test set + human eval вашей командой по чек-листу. BLEU/ROUGE/perplexity для метрик, но решающее слово - живые оценки от ваших экспертов.

06 · 2-4 дня

Деплой в прод

vLLM или TGI на вашем GPU-сервере, Ollama для лёгких сценариев, мерж адаптера с базой или горячее переключение LoRA. REST/OpenAI-совместимое API.

· что закрывается

Сценарии под которые делается fine-tune

Каждый — отдельный пайплайн со своим датасетом и метрикой качества. Не путаю один с другим.

Стиль бренда

Чат-бот говорит языком вашей компании

Дообучение на 1-2 тыс. лучших ответов вашей поддержки. Бот перенимает интонацию, лексику, типовые приёмы. Сравнение blind с базовой моделью — клиенты различают.

LoRAQwen2.5-7BChatML
Классификация

Сортировка документов и обращений

Юрдокументы по типу (договор/допсоглашение/претензия), обращения по категориям, лиды по приоритету. Точность 92-97% на специализированной модели против 78-85% у промпта с GPT-4.

QLoRALLM-as-classifierF1
Извлечение

Парсинг полей из документов в JSON

Из договора, накладной, КП - структурированный JSON с 10-30 полями. Модель учится на ваших шаблонах, ловит даже криво отсканированные документы и нестандартные формулировки.

constrained genJSON schemaguidance
Генерация

Производство контента по шаблонам

Генератор УПД, описаний товаров для маркетплейсов, ответов на отзывы, draft статей в блог. Качество стабильное между запусками — то что генератор должен уметь по определению.

full fine-tuneinstructionrubric
Reasoning

Цепочки рассуждений на вашей логике

Если у вас есть собственная методология (юридический анализ риска, расчёт коммерческого предложения, медицинская триажная логика) — модель учится воспроизводить её шаги, а не угадывать ответ.

CoTSFTreasoning
Безопасность

Локальная модель без утечки данных

Дообученная Qwen или Llama крутится на вашем сервере, данные никуда не уходят. Подходит для медицины, банков, юриспруденции, оборонки, гостайны не выше ДСП.

on-premvLLMair-gap
GigaChat YandexGPT Claude 4.7 GPT-5 n8n Диадок Битрикс24 AmoCRM PostgreSQL pgvector RAG Telegram API WABA Yandex SpeechKit RPA ChatWoot Selectel Yandex Cloud 152-ФЗ GigaChat YandexGPT Claude 4.7 GPT-5 n8n Диадок
· кейсы

Что уже сделано

Без имён клиентов (NDA), но цифры и стек реальные.

B2B-логистика · Москва

LoRA на Qwen2.5-7B для юротдела

92%
точность парсинга
×14
дешевле GPT-4
1842
примеров в датасете
3 нед
от старта до прода

Дообучили Qwen2.5-7B на 1842 размеченных договорах. Извлечение 18 полей в JSON, точность 92% (против 78% у промпта с GPT-4). Локально на 1×A100, экономия 380 тыс. ₽/мес на токенах.

Маркетплейс электроники · СПб

Full fine-tune для генератора карточек

8.4/10
human eval
12 000
карточек/сутки
−65%
правок копирайтеров
4 нед
обучение + деплой

Mistral 7B дообучен на 8500 карточках товаров, написанных опытными копирайтерами. Генератор пишет title/bullets/description в едином стиле бренда, копирайтеры теперь только финальная редактура.

Юрбюро · Казань

QLoRA для классификатора обращений

96%
F1-score
11 классов
категорий обращений
650
примеров на класс
2 нед
до прода

QLoRA на 4-битной Qwen2.5-14B, классификация входящих обращений по 11 типам. Точность 96%, обработка 4 тыс. писем в день на одной 4090. Окупилось за 2 месяца на экономии времени юристов.

· цены и пакеты

Сколько это стоит

Фиксированная цена за фиксированный объём. Без часов разработчика и сюрпризов в счёте.

Старт

LoRA на одной 7B модели

100-200 тыс. ₽ / единоразово
Срок 2-3 недели
  • Аудит данных и выбор подхода
  • Подготовка датасета до 2000 примеров
  • LoRA на Qwen2.5-7B или Llama 3.1-8B
  • 1 раунд обучения + 1 итерация
  • Holdout-тест + базовая human eval
  • Деплой через Ollama или vLLM
  • 60 дней гарантии
Запросить смету
Полный

Full fine-tune + MLOps под ключ

600 тыс — 1.5 млн ₽ / единоразово
Срок 8-12 недель
  • Всё из «Средний»
  • Full fine-tune на 7B-13B или эксперименты с 70B
  • Сбор и разметка датасета 20-50 тыс. примеров
  • A/B-тесты в проде между версиями адаптера
  • MLOps: автотренировка, регрессия, canary-деплой
  • RAG + fine-tune связка с edge-кейсами
  • Hardware-консалтинг по своим GPU
  • Технический партнёр первые 3 мес
Запросить смету
· FAQ

Частые вопросы

То, что чаще всего спрашивают перед стартом.

Q01

Чем fine-tune отличается от RAG и в каких случаях нужен

RAG (retrieval-augmented generation) даёт модели в контекст найденные куски документов — это работает когда нужно отвечать по фактам из вашей базы знаний. Fine-tune меняет саму модель, прививая ей стиль, формат ответов, доменный язык или специфическую логику рассуждения. Часто оба подхода работают вместе: дообученная модель плюс RAG для актуальных данных. Если задача "ответь по моим документам" — начинайте с RAG. Если "пиши в моём стиле / по моему формату / на моём языке" — нужен fine-tune.

Q02

Сколько данных нужно для дообучения

Для LoRA на 7B модели — минимум 500-1000 качественно размеченных примеров, оптимально 2-5 тыс. Для full fine-tune — от 5-10 тыс. примеров, лучше 50 тыс.+. Качество важнее количества: 800 чистых примеров дадут результат лучше чем 5 тыс. шума. На аудите смотрю ваш корпус и честно говорю, хватит ли его или сначала нужно собрать больше.

Q03

Что такое LoRA, QLoRA, PEFT, full fine-tune простыми словами

Full fine-tune — переобучаем все 7-70 миллиардов параметров модели, требует много GPU и времени. LoRA (Low-Rank Adaptation) — обучаем маленький "адаптер" размером 100-500 МБ, который добавляется к замороженной базовой модели. QLoRA — то же что LoRA, но базовая модель сжата до 4-бит, помещается на одну GPU 24GB даже для 13B-моделей. PEFT — общий термин для всех методов parameter-efficient fine-tuning, куда входят LoRA, QLoRA, prefix-tuning и другие. Для 95% задач достаточно LoRA или QLoRA.

Q04

Какие требования к GPU и можно ли обойтись арендой

LoRA на 7B модели — одна GPU 24GB (RTX 4090, A10, A100 40GB), стоимость аренды у Selectel/Cloud.ru от 100 ₽/час, обучение 4-12 часов. LoRA на 70B — нужна A100/H100 80GB или две по 40GB. Full fine-tune на 7B — 4-8 GPU A100 на день-два, аренда обойдётся в 30-80 тыс. ₽ за раунд. Full fine-tune на 70B — кластер из 32-64 GPU, это уже 500 тыс. - 2 млн ₽ за раунд. Своя GPU окупается на 3-5 раундах обучения.

Q05

Какой стек используете для обучения

HuggingFace Transformers — база. axolotl (yaml-конфиг, готовые рецепты, поддержка большинства моделей) или unsloth (в 2 раза быстрее axolotl, ниже потребление VRAM, но поддержка модельных архитектур уже). PyTorch + accelerate под капотом. Мониторинг через wandb или tensorboard. Для деплоя — vLLM, TGI или Ollama в зависимости от нагрузки и бюджета.

Q06

Как понять что дообучение получилось хорошо

Три уровня проверки. Автоматические метрики (loss, perplexity, BLEU, ROUGE, F1) — необходимы, но недостаточны. Holdout test set — 5-10% от датасета, которые модель не видела при обучении: смотрим как отвечает. Human eval — ваши доменные эксперты слепо оценивают 50-100 ответов дообученной модели против базовой по чек-листу. Решающее слово за людьми, метрики — для контроля что не сломалось.

Q07

Сколько стоит один раунд обучения

Сильно зависит от размера модели и подхода. LoRA на 7B — 30-80 тыс. ₽ за раунд (1 GPU на день + работа). QLoRA на 14-34B — 50-150 тыс. ₽. LoRA на 70B — 150-300 тыс. ₽. Full fine-tune на 7B — 200-400 тыс. ₽ (кластер на сутки-двое). Full fine-tune на 70B — 500 тыс. - 1.5 млн ₽. Раундов обычно нужно 2-4: первый эксперимент, корректировка, финальный. Бюджет проекта закладывайте на 3 раунда.

Q08

Можно ли дообучать GPT-4 или Claude

GPT-4 — да, через OpenAI fine-tuning API (доступен для GPT-4o и GPT-4o-mini). Claude — нет, Anthropic fine-tune API не открывают. GigaChat и YandexGPT — да, через их платформы Cloud. Это удобно если не хочется возиться с инфраструктурой, но дороже на 1-2 порядка чем self-hosted LoRA на открытой модели и данные уходят на сервера вендора. Если данные чувствительные или объёмы большие — берите Qwen/Llama/Mistral и обучайте у себя.

Q09

А что если переобучится и начнёт галлюцинировать ещё больше

Переобучение (overfitting) ловится на валидационной выборке: если train-loss падает, а val-loss растёт — стоп. Решается уменьшением lr, увеличением dropout, ранней остановкой, регуляризацией. Также используем early stopping, валидируемся каждые N шагов. На моей практике из 30+ проектов случаев "стало хуже чем было" — не было ни одного, потому что я не выкатываю в прод модели которые в evaluation проигрывают базовой.

Q10

Какие открытые модели на русском работают лучше всего

Для русского сейчас лучший выбор Qwen2.5 (7B/14B/32B/72B) — китайская модель, но русский тянет уверенно, лучше Llama по большинству бенчмарков на RU. Для специфических задач — YandexGPT-Lite если нужна интеграция с Yandex Cloud. GigaChat-Lite дообучается через API Сбера. Llama 3.1 — рабочая лошадка для смешанного русско-английского. Mistral — для скорости и низких ресурсов.

Q11

Сколько ждать от старта проекта до модели в проде

При готовом датасете — 1-2 недели. Если датасет нужно собирать и размечать — добавляйте 2-4 недели в зависимости от объёма и сложности разметки. Деплой и интеграция с вашими сервисами — ещё 3-7 дней. Итого средний срок проекта end-to-end — 3-6 недель. Самое долгое обычно не обучение (это часы), а подготовка качественного датасета.

Q12

Что насчёт обновлений модели после запуска

Раз в 2-3 месяца я рекомендую переобучать на расширенном датасете: за это время накапливаются новые примеры, исправления ошибок модели, новая терминология. Этот процесс автоматизируется (continuous learning pipeline) — раз в N дней пересборка адаптера на актуальных данных, регрессионное тестирование, и если метрики не упали — деплой нового адаптера без остановки сервиса.

Готовы обсудить вашу задачу?

Опишите задачу и пришлите 50-100 примеров желаемых пар "вход — ответ". За 3-5 рабочих дней верну: подходит ли вам fine-tune, какой подход и модель, реальная стоимость и сроки. Бесплатно.

Оставить заявку

Смежные решения Noltis

Задачи редко живут поодиночке - вот что чаще всего внедряют вместе с этим продуктом. Полный список - в каталоге продуктов.

Обсудить задачу →