Fine-tune LLM на ваших данных
Дообучаю открытые модели (Qwen, Llama, Mistral, YandexGPT-Lite) на ваших датасетах через LoRA, QLoRA и full fine-tune. Если RAG не вытягивает стиль или доменный язык — нужен fine-tune. Если хватает RAG — честно скажу.
для LoRA на 7B
обучения
хватает на 7B
до проды
Что вы получаете на выходе
Не презентация, не идея, не пилот. Работающая система, которая делает работу за людей с фиксированной точностью.
Симптомы что вам нужен fine-tune, а не очередной prompt
RAG и prompt engineering закрывают 80% задач. Остальные 20% решаются только дообучением — и вы их узнаете.
Модель не держит ваш tone of voice
Базовый GPT/Claude/GigaChat пишет "благодарим за обращение" а ваш бренд говорит "слушайте, тут такое дело". Никакой системный промпт не вытягивает на 100 примеров подряд.
Доменная терминология ломает ответы
Модель не отличает "оферту" от "акцепта", путает УПД с УКД, считает что "паллетирование" это про IT. В вашей нише слов больше чем понимает базовая модель.
Узкая задача с повторяющимся форматом
Нужно из 5-страничного договора вытащить 12 структурированных полей в JSON. Промпт работает на 70% случаев — этого мало для прода.
Дорого гонять каждый запрос через GPT-4
Объём 50-500 тыс. запросов в день. На GPT-4 это 500 тыс. - 5 млн ₽/мес, на дообученной 7B локально — стоимость только электричества и GPU.
Данные не должны уходить наружу
Медицина, банк, юриспруденция, гостайна. API LLM-вендоров отпадают сразу, остаются только локальные модели — и часто их нужно дообучить под вашу специфику.
RAG-цикл собрали но качество плавает
Retrieval работает, контекст подтягивается, но модель то соглашается с источником, то начинает фантазировать. На вашем домене это лечится дообучением, а не очередным re-ranker.
6 этапов проекта по дообучению
От бесплатного аудита данных до выкатки адаптера в прод через vLLM/TGI/Ollama. Без скрытых шагов и магии.
Аудит данных и выбор подхода
Смотрю ваш корпус, оцениваю качество и объём. Решаю: достаточно ли RAG, или нужен LoRA, или сразу full fine-tune. Если данных мало - не уговариваю на проект.
Подготовка датасета
Чистка, дедупликация, разметка. Перевод в ChatML/Alpaca/Vicuna формат. Минимум 500-1000 примеров для LoRA, 5-10 тыс. для full fine-tune. Train/val/test split.
Выбор базовой модели
Qwen2.5 (7B/14B/72B) для русского, Llama 3.1 для английского, Mistral для скорости, YandexGPT-Lite для интеграции с экосистемой Yandex. Замер baseline на ваших задачах.
Обучение
axolotl или unsloth, LoRA или QLoRA на 1 GPU (24-80GB), full fine-tune на кластере для 70B+. Подбор lr, r, alpha, batch_size. Мониторинг через wandb.
Evaluation
Holdout test set + human eval вашей командой по чек-листу. BLEU/ROUGE/perplexity для метрик, но решающее слово - живые оценки от ваших экспертов.
Деплой в прод
vLLM или TGI на вашем GPU-сервере, Ollama для лёгких сценариев, мерж адаптера с базой или горячее переключение LoRA. REST/OpenAI-совместимое API.
Сценарии под которые делается fine-tune
Каждый — отдельный пайплайн со своим датасетом и метрикой качества. Не путаю один с другим.
Чат-бот говорит языком вашей компании
Дообучение на 1-2 тыс. лучших ответов вашей поддержки. Бот перенимает интонацию, лексику, типовые приёмы. Сравнение blind с базовой моделью — клиенты различают.
Сортировка документов и обращений
Юрдокументы по типу (договор/допсоглашение/претензия), обращения по категориям, лиды по приоритету. Точность 92-97% на специализированной модели против 78-85% у промпта с GPT-4.
Парсинг полей из документов в JSON
Из договора, накладной, КП - структурированный JSON с 10-30 полями. Модель учится на ваших шаблонах, ловит даже криво отсканированные документы и нестандартные формулировки.
Производство контента по шаблонам
Генератор УПД, описаний товаров для маркетплейсов, ответов на отзывы, draft статей в блог. Качество стабильное между запусками — то что генератор должен уметь по определению.
Цепочки рассуждений на вашей логике
Если у вас есть собственная методология (юридический анализ риска, расчёт коммерческого предложения, медицинская триажная логика) — модель учится воспроизводить её шаги, а не угадывать ответ.
Локальная модель без утечки данных
Дообученная Qwen или Llama крутится на вашем сервере, данные никуда не уходят. Подходит для медицины, банков, юриспруденции, оборонки, гостайны не выше ДСП.
Что уже сделано
Без имён клиентов (NDA), но цифры и стек реальные.
LoRA на Qwen2.5-7B для юротдела
Дообучили Qwen2.5-7B на 1842 размеченных договорах. Извлечение 18 полей в JSON, точность 92% (против 78% у промпта с GPT-4). Локально на 1×A100, экономия 380 тыс. ₽/мес на токенах.
Full fine-tune для генератора карточек
Mistral 7B дообучен на 8500 карточках товаров, написанных опытными копирайтерами. Генератор пишет title/bullets/description в едином стиле бренда, копирайтеры теперь только финальная редактура.
QLoRA для классификатора обращений
QLoRA на 4-битной Qwen2.5-14B, классификация входящих обращений по 11 типам. Точность 96%, обработка 4 тыс. писем в день на одной 4090. Окупилось за 2 месяца на экономии времени юристов.
Сколько это стоит
Фиксированная цена за фиксированный объём. Без часов разработчика и сюрпризов в счёте.
LoRA на одной 7B модели
- Аудит данных и выбор подхода
- Подготовка датасета до 2000 примеров
- LoRA на Qwen2.5-7B или Llama 3.1-8B
- 1 раунд обучения + 1 итерация
- Holdout-тест + базовая human eval
- Деплой через Ollama или vLLM
- 60 дней гарантии
QLoRA + классификация + production
- Всё из «Старт»
- Подготовка датасета до 10 000 примеров
- QLoRA на 14B-34B или LoRA на 70B
- 3 раунда обучения с подбором гиперпараметров
- Human eval вашими экспертами по чек-листу
- Production-деплой на vLLM/TGI с REST API
- Continuous learning pipeline
- 90 дней гарантии + 1 мес поддержки
Full fine-tune + MLOps под ключ
- Всё из «Средний»
- Full fine-tune на 7B-13B или эксперименты с 70B
- Сбор и разметка датасета 20-50 тыс. примеров
- A/B-тесты в проде между версиями адаптера
- MLOps: автотренировка, регрессия, canary-деплой
- RAG + fine-tune связка с edge-кейсами
- Hardware-консалтинг по своим GPU
- Технический партнёр первые 3 мес
Частые вопросы
То, что чаще всего спрашивают перед стартом.
Чем fine-tune отличается от RAG и в каких случаях нужен
RAG (retrieval-augmented generation) даёт модели в контекст найденные куски документов — это работает когда нужно отвечать по фактам из вашей базы знаний. Fine-tune меняет саму модель, прививая ей стиль, формат ответов, доменный язык или специфическую логику рассуждения. Часто оба подхода работают вместе: дообученная модель плюс RAG для актуальных данных. Если задача "ответь по моим документам" — начинайте с RAG. Если "пиши в моём стиле / по моему формату / на моём языке" — нужен fine-tune.
Сколько данных нужно для дообучения
Для LoRA на 7B модели — минимум 500-1000 качественно размеченных примеров, оптимально 2-5 тыс. Для full fine-tune — от 5-10 тыс. примеров, лучше 50 тыс.+. Качество важнее количества: 800 чистых примеров дадут результат лучше чем 5 тыс. шума. На аудите смотрю ваш корпус и честно говорю, хватит ли его или сначала нужно собрать больше.
Что такое LoRA, QLoRA, PEFT, full fine-tune простыми словами
Full fine-tune — переобучаем все 7-70 миллиардов параметров модели, требует много GPU и времени. LoRA (Low-Rank Adaptation) — обучаем маленький "адаптер" размером 100-500 МБ, который добавляется к замороженной базовой модели. QLoRA — то же что LoRA, но базовая модель сжата до 4-бит, помещается на одну GPU 24GB даже для 13B-моделей. PEFT — общий термин для всех методов parameter-efficient fine-tuning, куда входят LoRA, QLoRA, prefix-tuning и другие. Для 95% задач достаточно LoRA или QLoRA.
Какие требования к GPU и можно ли обойтись арендой
LoRA на 7B модели — одна GPU 24GB (RTX 4090, A10, A100 40GB), стоимость аренды у Selectel/Cloud.ru от 100 ₽/час, обучение 4-12 часов. LoRA на 70B — нужна A100/H100 80GB или две по 40GB. Full fine-tune на 7B — 4-8 GPU A100 на день-два, аренда обойдётся в 30-80 тыс. ₽ за раунд. Full fine-tune на 70B — кластер из 32-64 GPU, это уже 500 тыс. - 2 млн ₽ за раунд. Своя GPU окупается на 3-5 раундах обучения.
Какой стек используете для обучения
HuggingFace Transformers — база. axolotl (yaml-конфиг, готовые рецепты, поддержка большинства моделей) или unsloth (в 2 раза быстрее axolotl, ниже потребление VRAM, но поддержка модельных архитектур уже). PyTorch + accelerate под капотом. Мониторинг через wandb или tensorboard. Для деплоя — vLLM, TGI или Ollama в зависимости от нагрузки и бюджета.
Как понять что дообучение получилось хорошо
Три уровня проверки. Автоматические метрики (loss, perplexity, BLEU, ROUGE, F1) — необходимы, но недостаточны. Holdout test set — 5-10% от датасета, которые модель не видела при обучении: смотрим как отвечает. Human eval — ваши доменные эксперты слепо оценивают 50-100 ответов дообученной модели против базовой по чек-листу. Решающее слово за людьми, метрики — для контроля что не сломалось.
Сколько стоит один раунд обучения
Сильно зависит от размера модели и подхода. LoRA на 7B — 30-80 тыс. ₽ за раунд (1 GPU на день + работа). QLoRA на 14-34B — 50-150 тыс. ₽. LoRA на 70B — 150-300 тыс. ₽. Full fine-tune на 7B — 200-400 тыс. ₽ (кластер на сутки-двое). Full fine-tune на 70B — 500 тыс. - 1.5 млн ₽. Раундов обычно нужно 2-4: первый эксперимент, корректировка, финальный. Бюджет проекта закладывайте на 3 раунда.
Можно ли дообучать GPT-4 или Claude
GPT-4 — да, через OpenAI fine-tuning API (доступен для GPT-4o и GPT-4o-mini). Claude — нет, Anthropic fine-tune API не открывают. GigaChat и YandexGPT — да, через их платформы Cloud. Это удобно если не хочется возиться с инфраструктурой, но дороже на 1-2 порядка чем self-hosted LoRA на открытой модели и данные уходят на сервера вендора. Если данные чувствительные или объёмы большие — берите Qwen/Llama/Mistral и обучайте у себя.
А что если переобучится и начнёт галлюцинировать ещё больше
Переобучение (overfitting) ловится на валидационной выборке: если train-loss падает, а val-loss растёт — стоп. Решается уменьшением lr, увеличением dropout, ранней остановкой, регуляризацией. Также используем early stopping, валидируемся каждые N шагов. На моей практике из 30+ проектов случаев "стало хуже чем было" — не было ни одного, потому что я не выкатываю в прод модели которые в evaluation проигрывают базовой.
Какие открытые модели на русском работают лучше всего
Для русского сейчас лучший выбор Qwen2.5 (7B/14B/32B/72B) — китайская модель, но русский тянет уверенно, лучше Llama по большинству бенчмарков на RU. Для специфических задач — YandexGPT-Lite если нужна интеграция с Yandex Cloud. GigaChat-Lite дообучается через API Сбера. Llama 3.1 — рабочая лошадка для смешанного русско-английского. Mistral — для скорости и низких ресурсов.
Сколько ждать от старта проекта до модели в проде
При готовом датасете — 1-2 недели. Если датасет нужно собирать и размечать — добавляйте 2-4 недели в зависимости от объёма и сложности разметки. Деплой и интеграция с вашими сервисами — ещё 3-7 дней. Итого средний срок проекта end-to-end — 3-6 недель. Самое долгое обычно не обучение (это часы), а подготовка качественного датасета.
Что насчёт обновлений модели после запуска
Раз в 2-3 месяца я рекомендую переобучать на расширенном датасете: за это время накапливаются новые примеры, исправления ошибок модели, новая терминология. Этот процесс автоматизируется (continuous learning pipeline) — раз в N дней пересборка адаптера на актуальных данных, регрессионное тестирование, и если метрики не упали — деплой нового адаптера без остановки сервиса.
Готовы обсудить вашу задачу?
Опишите задачу и пришлите 50-100 примеров желаемых пар "вход — ответ". За 3-5 рабочих дней верну: подходит ли вам fine-tune, какой подход и модель, реальная стоимость и сроки. Бесплатно.
Оставить заявкуСмежные решения Noltis
Задачи редко живут поодиночке - вот что чаще всего внедряют вместе с этим продуктом. Полный список - в каталоге продуктов.
- MCP-серверы для бизнесаПодключение ИИ к вашим системам через инструменты
- Распознавание документов с ИИСканы, счета, накладные в структурированные данные
- AI-расшифровка встречТранскрипты, саммари и задачи из каждого созвона
- AI-ассистент руководителяПочта, календарь, сводки и контроль поручений
- AI-аналитика отчётовОтчёты сотрудников в выводы и сигналы для решений
- Внедрение AI под ключКомплексное направление: аудит, внедрение, поддержка