Семь LLM против русского спортивного домена

Две недели назад я собрал ЛИИ-Спорт-Bench-RU — открытый бенчмарк из 655 экспертных вопросов по 35 видам спорта на русском.

Изначально задача была узкая: выбрать базовую модель для ЛИИ-Спорт. Сравнить Gemma 4 31B и Qwen 3.6 27B, посмотреть кто лучше держит русский спортивный домен, и на этом закрыть вопрос.

Но после первого прогона стало понятно, что сравнение двух открытых моделей отвечает только на половину вопроса. Вторая половина жёстче: если closed-frontier модели впереди на полтора-два балла, имеет ли смысл вообще строить доменную модель на открытых весах?

Пришлось прогнать всех.

Что прогнали

Взял 200 вопросов из бенчмарка стратифицированной выборкой: разные виды спорта, разные уровни сложности, разные аудитории — тренер, спортсмен, функционер, ВУЗ, СШОР, аналитик, спортивный медик.

Семь моделей:

→ Claude Opus 4.7
→ Gemini 3.1 Pro Preview
→ GPT-5.5
→ DeepSeek V4 Flash
→ Qwen 3.5 27B
→ Gemma 4 31B Instruct
→ Qwen 3.6 27B

Каждый ответ оценивал ансамбль из трёх независимых LLM-судей: Claude, Gemini и GPT. Оценка шла по четырём измерениям — точность, полнота, экспертный бонус и русский язык. Всего получилось 1400 ответов кандидатов и 4200 оценок судей.

Полный прогон обошёлся примерно в $150 через OpenRouter. Для такой проверки это нормальная цена. Дешевле, чем неделю спорить по ощущениям.

Сырой лидерборд

Результат сверху вниз:

→ Claude Opus 4.7 — 9.10
→ Gemini 3.1 Pro Preview — 8.88
→ GPT-5.5 — 8.53
→ DeepSeek V4 Flash — 8.03
→ Qwen 3.5 27B — 7.52
→ Gemma 4 31B Instruct — 7.45
→ Qwen 3.6 27B — 6.67

То есть да: закрытые frontier-модели впереди. Claude / Gemini / GPT занимают первые три места. Разрыв с Gemma — примерно 1.5-1.7 балла.

Если смотреть только на эту таблицу, выбор кажется очевидным: бери Opus или Gemini и не мучайся.

Но в реальном российском доменном проекте таблица — это не вся задача.

Почему всё равно Gemma

Первая причина — дообучаемость. Opus, Gemini и GPT-5.5 — это API, не модель в наших руках. Их нельзя взять, дообучить на корпусе российских регламентов, методик, антидопинговых материалов, протоколов федераций и спортивной медицины. Можно только отправлять запросы наружу.

Gemma 4 31B можно дообучать. Это открытые веса, Apache 2.0, нормальная база для доменного SFT. Если разрыв с frontier живёт не в общем интеллекте, а в регистре и предметной плотности, его можно закрывать корпусом.

Вторая причина — хостинг. Для клиентов, которые работают с персональными данными, 152-ФЗ и внутренними документами, история «давайте отправим всё в зарубежный API» заканчивается быстро. Не потому что кто-то против хороших моделей. Потому что боевой контур должен жить в РФ.

Gemma можно посадить на Selectel. Закрытый frontier — нельзя.

Третья причина — экономика. DeepSeek V4 Flash оказался лучшей открытой моделью в этом прогоне: 8.03, MIT-лицензия, сильный результат. Но это MoE 284B/13B-active. В памяти приходится держать не 13B, а всю большую конструкцию. Для нормального хостинга в РФ это уже кластерный бюджет, а не одна машина.

Gemma 4 31B — плотная модель. Её можно обслуживать проще, дешевле и единым стеком для всей линейки. Когда строишь не один эксперимент, а семь русскоязычных доменных моделей, это становится решающим.

Где живёт разрыв

Самая важная часть оказалась не в общем счёте.

В разрезе аудиторий Gemma особенно проигрывает на ВУЗ, СШОР и формальном функционерском регистре. То есть там, где ответу нужны академический стиль, нормативная плотность и правильная терминология.

Зато на аналитическом срезе Gemma выглядит лучше. Она не разваливается как рассуждающая модель, ей не хватает именно доменного слоя.

Это хорошая новость. Если модель слаба в общем мышлении, дообучение не спасает. Если модель мыслит нормально, но не знает регистр — это ровно задача корпуса.

В моём случае это подтверждает исходную гипотезу: сначала открытый бенчмарк, потом выбор базы, потом дообучение. Не наоборот.

Что теперь публично

Вынес наружу три артефакта:

→ Хабр-статья с полной методологией, багами прогона, таблицами по сложности и аудиториям: habr.com/ru/articles/1036448
→ Репозиторий с кодом, вопросами, ответами и оценками: github.com/csylabs-org/lii-sport-bench-ru
→ Публичный лидерборд: bench.csylabs.com

На bench.csylabs.com сейчас два живых трека: спорт и образование. Спорт берёт зафиксированный JSON из публичного репозитория ЛИИ-Спорт-Bench-RU. Образование — нормализованный снимок EduBench-RU. Сайт не ходит в GitHub при каждом запросе, чтобы страница не зависела от сети и лимитов.

Это не финальная витрина. Это первая открытая поверхность методологии.

Что дальше

Следующий шаг — ЛИИ-Спорт-Gemma-4-31B-Preview. Цель — 15 июня. До этого нужно собрать корпус, провести SFT, прогнать базовую Gemma и Preview через тот же бенчмарк и показать разницу уже не на вере, а на той же таблице.

Если Preview не догонит — будет видно. Если догонит — тоже будет видно.

Именно поэтому бенчмарк выходит раньше модели. Иначе легко начать защищать любимую архитектуру вместо того, чтобы мерить результат.

Семь LLM против русского спортивного домена

Что прогнали

Сырой лидерборд

Почему всё равно Gemma

Где живёт разрыв

Что теперь публично

Что дальше

Читать по теме

Ставка на скучный ИИ: фронтир пришёл к тому, что я строю

Полный разворот: модель — это вызов API

Выбрал модель под железо, которое есть