4 мин чтения#ии#спорт#бенчмарк#llm

Семь LLM против русского спортивного домена

Две недели назад я собрал ЛИИ-Спорт-Bench-RU — открытый бенчмарк из 655 экспертных вопросов по 35 видам спорта на русском.

Изначально задача была узкая: выбрать базовую модель для ЛИИ-Спорт. Сравнить Gemma 4 31B и Qwen 3.6 27B, посмотреть кто лучше держит русский спортивный домен, и на этом закрыть вопрос.

Но после первого прогона стало понятно, что сравнение двух открытых моделей отвечает только на половину вопроса. Вторая половина жёстче: если closed-frontier модели впереди на полтора-два балла, имеет ли смысл вообще строить доменную модель на открытых весах?

Пришлось прогнать всех.

Что прогнали

Взял 200 вопросов из бенчмарка стратифицированной выборкой: разные виды спорта, разные уровни сложности, разные аудитории — тренер, спортсмен, функционер, ВУЗ, СШОР, аналитик, спортивный медик.

Семь моделей:

→ Claude Opus 4.7
→ Gemini 3.1 Pro Preview
→ GPT-5.5
→ DeepSeek V4 Flash
→ Qwen 3.5 27B
→ Gemma 4 31B Instruct
→ Qwen 3.6 27B

Каждый ответ оценивал ансамбль из трёх независимых LLM-судей: Claude, Gemini и GPT. Оценка шла по четырём измерениям — точность, полнота, экспертный бонус и русский язык. Всего получилось 1400 ответов кандидатов и 4200 оценок судей.

Полный прогон обошёлся примерно в $150 через OpenRouter. Для такой проверки это нормальная цена. Дешевле, чем неделю спорить по ощущениям.

Сырой лидерборд

Результат сверху вниз:

→ Claude Opus 4.7 — 9.10
→ Gemini 3.1 Pro Preview — 8.88
→ GPT-5.5 — 8.53
→ DeepSeek V4 Flash — 8.03
→ Qwen 3.5 27B — 7.52
→ Gemma 4 31B Instruct — 7.45
→ Qwen 3.6 27B — 6.67

То есть да: закрытые frontier-модели впереди. Claude / Gemini / GPT занимают первые три места. Разрыв с Gemma — примерно 1.5-1.7 балла.

Если смотреть только на эту таблицу, выбор кажется очевидным: бери Opus или Gemini и не мучайся.

Но в реальном российском доменном проекте таблица — это не вся задача.

Почему всё равно Gemma

Первая причина — дообучаемость. Opus, Gemini и GPT-5.5 — это API, не модель в наших руках. Их нельзя взять, дообучить на корпусе российских регламентов, методик, антидопинговых материалов, протоколов федераций и спортивной медицины. Можно только отправлять запросы наружу.

Gemma 4 31B можно дообучать. Это открытые веса, Apache 2.0, нормальная база для доменного SFT. Если разрыв с frontier живёт не в общем интеллекте, а в регистре и предметной плотности, его можно закрывать корпусом.

Вторая причина — хостинг. Для клиентов, которые работают с персональными данными, 152-ФЗ и внутренними документами, история «давайте отправим всё в зарубежный API» заканчивается быстро. Не потому что кто-то против хороших моделей. Потому что боевой контур должен жить в РФ.

Gemma можно посадить на Selectel. Закрытый frontier — нельзя.

Третья причина — экономика. DeepSeek V4 Flash оказался лучшей открытой моделью в этом прогоне: 8.03, MIT-лицензия, сильный результат. Но это MoE 284B/13B-active. В памяти приходится держать не 13B, а всю большую конструкцию. Для нормального хостинга в РФ это уже кластерный бюджет, а не одна машина.

Gemma 4 31B — плотная модель. Её можно обслуживать проще, дешевле и единым стеком для всей линейки. Когда строишь не один эксперимент, а семь русскоязычных доменных моделей, это становится решающим.

Где живёт разрыв

Самая важная часть оказалась не в общем счёте.

В разрезе аудиторий Gemma особенно проигрывает на ВУЗ, СШОР и формальном функционерском регистре. То есть там, где ответу нужны академический стиль, нормативная плотность и правильная терминология.

Зато на аналитическом срезе Gemma выглядит лучше. Она не разваливается как рассуждающая модель, ей не хватает именно доменного слоя.

Это хорошая новость. Если модель слаба в общем мышлении, дообучение не спасает. Если модель мыслит нормально, но не знает регистр — это ровно задача корпуса.

В моём случае это подтверждает исходную гипотезу: сначала открытый бенчмарк, потом выбор базы, потом дообучение. Не наоборот.

Что теперь публично

Вынес наружу три артефакта:

→ Хабр-статья с полной методологией, багами прогона, таблицами по сложности и аудиториям: habr.com/ru/articles/1036448
→ Репозиторий с кодом, вопросами, ответами и оценками: github.com/csylabs-org/lii-sport-bench-ru
→ Публичный лидерборд: bench.csylabs.com

На bench.csylabs.com сейчас два живых трека: спорт и образование. Спорт берёт зафиксированный JSON из публичного репозитория ЛИИ-Спорт-Bench-RU. Образование — нормализованный снимок EduBench-RU. Сайт не ходит в GitHub при каждом запросе, чтобы страница не зависела от сети и лимитов.

Это не финальная витрина. Это первая открытая поверхность методологии.

Что дальше

Следующий шаг — ЛИИ-Спорт-Gemma-4-31B-Preview. Цель — 15 июня. До этого нужно собрать корпус, провести SFT, прогнать базовую Gemma и Preview через тот же бенчмарк и показать разницу уже не на вере, а на той же таблице.

Если Preview не догонит — будет видно. Если догонит — тоже будет видно.

Именно поэтому бенчмарк выходит раньше модели. Иначе легко начать защищать любимую архитектуру вместо того, чтобы мерить результат.

Читать по теме