Дообучил модель на уровне GPT-5.4 за 30 000₽
Выложил вторую статью на Хабр — как и за сколько я дообучил модель для российских учителей.
Короткая версия: 30 000₽, шестнадцать часов на H200, 30 000 синтетических пар данных — и Qwen3.5-27B с моим LoRA-адаптером занимает 9 место из 30 на EduBench-RU. Выше GigaChat-2 Max, YandexGPT 5.1 Pro, Grok, GLM, Qwen3 235B. На том же уровне, что GPT-5.4 — разница 0,01 балла, в пределах погрешности.
«На том же уровне» — не «обогнал». 0,01 как флаг победы я бы не трогал. Разница в другом: моя модель работает локально, на серверах в российском контуре. GPT-5.4 — нет. Для школ по 152-ФЗ это решающий фактор.
Самое интересное в истории — не то, что получилось, а что нет.
Параллельно тренировал 32B-версию. Параметров больше. GPU-времени в три раза больше — 45 часов против 17. Training loss ниже — 0,47 против 0,51, формально лучше.
Итоговый скор — на полбалла хуже.
→ Архитектура важнее размера. Qwen3.5 — более новая архитектура, чем Qwen3. Даже при меньшем числе параметров справилась лучше — и с русским языком, и со структурой задач. → Training loss и качество на бенчмарке — не одно и то же. Модель научилась предсказывать следующий токен точнее, а решать учительские задачи — хуже. → Сутки потерянного GPU-времени иногда дороже полезной модели. Не спрашивайте почему я тренировал обе версии параллельно, а не последовательно.
Полный разбор — с таблицами стоимости, конфигом QLoRA, историей про то как max_tokens: 512 убил первый прогон по Gemini, и разбросом судей ±0,3 балла на одной и той же работе — на Хабре →