Семь LLM против русского спортивного домена
Две недели назад я собрал ЛИИ-Спорт-Bench-RU — открытый бенчмарк из 655 экспертных вопросов по 35 видам спорта на русском.
Изначально задача была узкая: выбрать базовую модель для ЛИИ-Спорт. Сравнить Gemma 4 31B и Qwen 3.6 27B, посмотреть кто лучше держит русский спортивный домен, и на этом закрыть вопрос.
Но после первого прогона стало понятно, что сравнение двух открытых моделей отвечает только на половину вопроса. Вторая половина жёстче: если closed-frontier модели впереди на полтора-два балла, имеет ли смысл вообще строить доменную модель на открытых весах?
Пришлось прогнать всех.
Что прогнали
Взял 200 вопросов из бенчмарка стратифицированной выборкой: разные виды спорта, разные уровни сложности, разные аудитории — тренер, спортсмен, функционер, ВУЗ, СШОР, аналитик, спортивный медик.
Семь моделей:
→ Claude Opus 4.7
→ Gemini 3.1 Pro Preview
→ GPT-5.5
→ DeepSeek V4 Flash
→ Qwen 3.5 27B
→ Gemma 4 31B Instruct
→ Qwen 3.6 27B
Каждый ответ оценивал ансамбль из трёх независимых LLM-судей: Claude, Gemini и GPT. Оценка шла по четырём измерениям — точность, полнота, экспертный бонус и русский язык. Всего получилось 1400 ответов кандидатов и 4200 оценок судей.
Полный прогон обошёлся примерно в $150 через OpenRouter. Для такой проверки это нормальная цена. Дешевле, чем неделю спорить по ощущениям.
Сырой лидерборд
Результат сверху вниз:
→ Claude Opus 4.7 — 9.10
→ Gemini 3.1 Pro Preview — 8.88
→ GPT-5.5 — 8.53
→ DeepSeek V4 Flash — 8.03
→ Qwen 3.5 27B — 7.52
→ Gemma 4 31B Instruct — 7.45
→ Qwen 3.6 27B — 6.67
То есть да: закрытые frontier-модели впереди. Claude / Gemini / GPT занимают первые три места. Разрыв с Gemma — примерно 1.5-1.7 балла.
Если смотреть только на эту таблицу, выбор кажется очевидным: бери Opus или Gemini и не мучайся.
Но в реальном российском доменном проекте таблица — это не вся задача.
Почему всё равно Gemma
Первая причина — дообучаемость. Opus, Gemini и GPT-5.5 — это API, не модель в наших руках. Их нельзя взять, дообучить на корпусе российских регламентов, методик, антидопинговых материалов, протоколов федераций и спортивной медицины. Можно только отправлять запросы наружу.
Gemma 4 31B можно дообучать. Это открытые веса, Apache 2.0, нормальная база для доменного SFT. Если разрыв с frontier живёт не в общем интеллекте, а в регистре и предметной плотности, его можно закрывать корпусом.
Вторая причина — хостинг. Для клиентов, которые работают с персональными данными, 152-ФЗ и внутренними документами, история «давайте отправим всё в зарубежный API» заканчивается быстро. Не потому что кто-то против хороших моделей. Потому что боевой контур должен жить в РФ.
Gemma можно посадить на Selectel. Закрытый frontier — нельзя.
Третья причина — экономика. DeepSeek V4 Flash оказался лучшей открытой моделью в этом прогоне: 8.03, MIT-лицензия, сильный результат. Но это MoE 284B/13B-active. В памяти приходится держать не 13B, а всю большую конструкцию. Для нормального хостинга в РФ это уже кластерный бюджет, а не одна машина.
Gemma 4 31B — плотная модель. Её можно обслуживать проще, дешевле и единым стеком для всей линейки. Когда строишь не один эксперимент, а семь русскоязычных доменных моделей, это становится решающим.
Где живёт разрыв
Самая важная часть оказалась не в общем счёте.
В разрезе аудиторий Gemma особенно проигрывает на ВУЗ, СШОР и формальном функционерском регистре. То есть там, где ответу нужны академический стиль, нормативная плотность и правильная терминология.
Зато на аналитическом срезе Gemma выглядит лучше. Она не разваливается как рассуждающая модель, ей не хватает именно доменного слоя.
Это хорошая новость. Если модель слаба в общем мышлении, дообучение не спасает. Если модель мыслит нормально, но не знает регистр — это ровно задача корпуса.
В моём случае это подтверждает исходную гипотезу: сначала открытый бенчмарк, потом выбор базы, потом дообучение. Не наоборот.
Что теперь публично
Вынес наружу три артефакта:
→ Хабр-статья с полной методологией, багами прогона, таблицами по сложности и аудиториям: habr.com/ru/articles/1036448
→ Репозиторий с кодом, вопросами, ответами и оценками: github.com/csylabs-org/lii-sport-bench-ru
→ Публичный лидерборд: bench.csylabs.com
На bench.csylabs.com сейчас два живых трека: спорт и образование. Спорт берёт зафиксированный JSON из публичного репозитория ЛИИ-Спорт-Bench-RU. Образование — нормализованный снимок EduBench-RU. Сайт не ходит в GitHub при каждом запросе, чтобы страница не зависела от сети и лимитов.
Это не финальная витрина. Это первая открытая поверхность методологии.
Что дальше
Следующий шаг — ЛИИ-Спорт-Gemma-4-31B-Preview. Цель — 15 июня. До этого нужно собрать корпус, провести SFT, прогнать базовую Gemma и Preview через тот же бенчмарк и показать разницу уже не на вере, а на той же таблице.
Если Preview не догонит — будет видно. Если догонит — тоже будет видно.
Именно поэтому бенчмарк выходит раньше модели. Иначе легко начать защищать любимую архитектуру вместо того, чтобы мерить результат.