Дообучил модель на уровне GPT-5.4 за 30 000₽

Выложил вторую статью на Хабр — как и за сколько я дообучил модель для российских учителей.

Короткая версия: 30 000₽, шестнадцать часов на H200, 30 000 синтетических пар данных — и Qwen3.5-27B с моим LoRA-адаптером занимает 9 место из 30 на EduBench-RU. Выше GigaChat-2 Max, YandexGPT 5.1 Pro, Grok, GLM, Qwen3 235B. На том же уровне, что GPT-5.4 — разница 0,01 балла, в пределах погрешности.

«На том же уровне» — не «обогнал». 0,01 как флаг победы я бы не трогал. Разница в другом: моя модель работает локально, на серверах в российском контуре. GPT-5.4 — нет. Для школ по 152-ФЗ это решающий фактор.

Самое интересное в истории — не то, что получилось, а что нет.

Параллельно тренировал 32B-версию. Параметров больше. GPU-времени в три раза больше — 45 часов против 17. Training loss ниже — 0,47 против 0,51, формально лучше.

Итоговый скор — на полбалла хуже.

→ Архитектура важнее размера. Qwen3.5 — более новая архитектура, чем Qwen3. Даже при меньшем числе параметров справилась лучше — и с русским языком, и со структурой задач. → Training loss и качество на бенчмарке — не одно и то же. Модель научилась предсказывать следующий токен точнее, а решать учительские задачи — хуже. → Сутки потерянного GPU-времени иногда дороже полезной модели. Не спрашивайте почему я тренировал обе версии параллельно, а не последовательно.

Полный разбор — с таблицами стоимости, конфигом QLoRA, историей про то как max_tokens: 512 убил первый прогон по Gemini, и разбросом судей ±0,3 балла на одной и той же работе — на Хабре →

Дообучил модель на уровне GPT-5.4 за 30 000₽

Читать по теме

Как мы провалили обучение LLM чувашскому

Выложил страницу LLM-интеграции — начинаем с образования

AI-учитель для чувашского языка