Дообучение, RAG и reasoning — слои, а не варианты выбора

Спросили в одной из лент: почему ваш подход — дообучение собственных открытых моделей под домен — лучше RAG и reasoning?

Короткий ответ: он не «лучше» — он живёт ниже них в стеке.

Дообученная модель — это фундамент. RAG — сантехника, которая подвозит свежую информацию из документов клиента. Reasoning — электрика, которая зажигает многошаговое рассуждение, когда задача требует. Спорить «что лучше — фундамент, сантехника или электрика?» в доме, который должен работать, — странный спор.

Где какой слой работает, а где ломается

RAG хорош там, где нужна свежая, специфичная для клиента информация — внутренние документы, регламенты, прайс-листы, последние данные лабораторий. Он вытаскивает релевантные куски на ходу и подсовывает модели в момент ответа. Где ломается: модель сама по себе домена не «понимает». Если нужный кусок не нашёлся, или вопрос требует не факта, а методологии, — ответ получается уверенный, но неверный. Качество эмбеддингов и стратегия чанкинга становятся бутылочным горлышком. И ещё: если RAG лежит поверх ChatGPT-API, на каждый запрос платится API-ставка — это не уходит.

Reasoning-модели (o1, R1, Gemini Thinking) хороши там, где нужно многошаговое рассуждение — олимпиадная математика, отладка кода, разбор сценария. Проблема для российского рынка: почти все они доступны только через зарубежные API. Это жёсткая стена 152-ФЗ для любых данных, которые нельзя выводить за пределы РФ. И даже там, где можно, — рассуждают они в общем, без знания методологии вашего домена. РУСАДА, ФССП, ВНИИФК — для них это не словарь. Стоимость инференса при этом на порядок выше, чем у дообученной 27B-31B модели на собственном инстансе.

Дообучение под домен и развёртывание в российском контуре — то, чем я занимаюсь. Модель действительно «понимает» домен: методологию, лексику, регуляторный контекст. Не вытаскивает на ходу — носит в весах.

Один пример из последней работы

Накануне пересобрал базовую модель для всех русскоязычных моделей в линейке ЛИИ (семь из восьми — Mobile уже на Gemma-3n) — с Qwen 3.6 на Gemma 4. Решение пока предварительное, проверим на бенчмарке 13 мая. Причина — токенизатор. На русском Qwen 3 тратит ~3,12 токена на слово (по данным бенчмарка Occiglot и статьи Т-банка про T-pro 2.0). Gemma 4 — около 2,0. Разница в районе 50%, и она складывается: дешевле CPT, шире эффективный контекст, примерно в 8 раз дешевле инференс на OpenRouter. Т-банк под T-pro 2.0 специально перерисовал кириллический токенизатор Qwen — 34 тысячи редких токенов заменили на частые кириллические мерджи из RuAdapt, cl100k_base и mGPT. Это много инженерной работы, чтобы починить ровно эту проблему.

Контекст, который делает разговор менее академическим

На прошлой неделе аренда H100 / H200 / B200 на западных облаках перевалила за $1000 в час, в устойчивом режиме. Тред на r/LocalLLaMA, 172 апвоута. Один из комментаторов — инженер крупного гиперскейлера: «спрос больше, чем мы можем обеспечить». Стартап серии C нашёл 20 A100 только в Италии. Эпоха субсидируемого compute закончилась.

Что это значит для российского заказчика: RAG поверх ChatGPT-API — это не только юридическая, но всё больше и экономическая проблема. ~30B российская модель, дообученная под домен, на спот-инстансе RTX 6000 Pro в Селектеле — становится более защитимой каждый месяц.

Что на самом деле в коробке у клиента

Когда я разворачиваю интеграцию, все три слоя идут вместе:

→ дообученная под домен модель ЛИИ-Спорт / ЛИИ-Право / ЛИИ-Мед / ЛИИ-Образование — это фундамент → RAG поверх живой документной базы клиента — свежая фактура → CoT-промптинг для тех классов задач, где задача действительно сложная и латентность окупается

Плюс собственный бенчмарк под домен, чтобы регрессии ловить. Плюс аудит безопасности и PII-памяти. Плюс развёртывание в 152-ФЗ-контуре или на железе клиента.

Что дальше

15 июля — жёсткий гейт первого открытого релиза в линейке: ЛИИ-Спорт-27B Preview. Со скоринг-картой на собственном бенчмарке (200+ вопросов по 8 категориям, от правил и регламентов до спортивной медицины и анти-допинга), с открытыми весами на HuggingFace, со статьёй на Хабре. Это будет первый российский открытый LLM в спортивном домене. Дальше — Право, Мед, Школа, ВУЗ.

Возвращаясь к исходному вопросу. RAG и reasoning никуда не денутся — и не должны. Это правильные инструменты для правильных слоёв. Просто прежде, чем класть на них чей-то общий API, стоит положить под них фундамент, который знает ваш домен и стоит в вашей юрисдикции.

Дообучение, RAG и reasoning — слои, а не варианты выбора

Где какой слой работает, а где ломается

Один пример из последней работы

Контекст, который делает разговор менее академическим

Что на самом деле в коробке у клиента

Что дальше

Читать по теме

655 вопросов за вечер. Бенчмарк для своей же модели.

Это не камера

Выложил страницу LLM-интеграции — начинаем с образования