655 вопросов за вечер. Бенчмарк для своей же модели.

Сегодня вечером сел собирать бенчмарк для ЛИИ-Спорт. Языковая модель под российский спортивный домен — у меня в работе, до публичного релиза 15 июня нужен инструмент проверки. Чтобы понимать, насколько глубоко модель знает виды спорта, правила, методики, регуляторику. Без проверки ни клиенту показать, ни на HuggingFace выложить.

Закрыл к часу ночи. ЛИИ-Спорт-Bench-RU v0.1 — 655 экспертных вопросов по 35 видам спорта. Восемь категорий на каждый: правила и регламент, методология тренировок, биомеханика и физиология, спортивная психология, федерации и регуляторика, история, допинг и РУСАДА, сценарное мышление. К каждому — эталонный ответ со ссылкой на источник и три критерия для машинного судьи.

Главное здесь не скорость. Главное — как я это собрал и что с этим делаю дальше.

Я был не один

Со мной работали одиннадцать ИИ-агентов параллельно. Каждый отвечал за свою долю — один за баскетбол, другой за волейбол, третий за зимние виды, и так далее. Я направлял оркестровку: выбор видов спорта, распределение по категориям, тон и формат вопросов, разбор отказов и повторные запуски (один агент завис, другой упёрся в лимит — норма для масштабной параллели).

Это методология, не магия. SportQA, академический эталон NAACL 2024, собирали похожим образом — синтетическая генерация плюс экспертная проверка. Делать 655 экспертных вопросов рукой в одиночку — три-четыре месяца. С агентами в параллель — один вечер на черновик.

Что собрано — но это черновик

Восемь видов спорта проработаны глубоко (по 50 вопросов): баскетбол, волейбол, футбол, хоккей, лёгкая атлетика, борьба, гимнастика, плавание. Это виды, по которым программа работает с федерациями и спортивными ВУЗами.

Двенадцать видов — широкое покрытие (по 15): бокс, дзюдо, биатлон, теннис, настольный теннис, стрельба, лыжные гонки, тяжёлая атлетика, фехтование, сноуборд, пляжный волейбол, самбо.

Пятнадцать видов — на распознавание (по 5): шахматы, кёрлинг, триатлон, регби, спортивный туризм и другие. Здесь проверяю, что модель не теряется на менее популярных дисциплинах.

К каждому вопросу — эталонный ответ со ссылкой на источник: правило федерации, статья ФССП, модуль РУСАДА. И три критерия оценки — что считать правильным, что неполным, что бонусным.

Что машина написала — кандидат, не финал

Следующая фаза — экспертная проверка. Между сегодняшним вечером и 13 мая прохожу вопросы один за одним: формулировки, фактология, кросс-проверка по официальным документам РФБ, ВФВ, РУСАДА, Минспорта.

После проверки — первый прогон. Через бенчмарк прохожу две языковые модели-кандидата на основу для ЛИИ-Спорт. Решение по базовой модели — 13 мая. Публичный релиз ЛИИ-Спорт Preview с этими оценками — 15 июня, на HuggingFace и Хабре.

Зачем это мне

Бенчмарк — инструмент. Перед каждым релизом ЛИИ-Спорт прогоняю модель через эти 655 вопросов и смотрю где она проседает — по регуляторике, по сценариям, по биомеханике. Это карта, по которой понимаю где работать дальше с корпусом и обучением.

Откроется ли он публично — решу к 15 июня. Если да, будет первым русскоязычным спортивным ориентиром в нише. Не главная цель — главная цель построить модель.

→ Ручная проверка — до 13 мая → Первый прогон через кандидаты — на этой неделе → Публичный релиз модели и бенчмарка — 15 июня

655 вопросов за вечер. Бенчмарк для своей же модели.

Читать по теме

Дообучение, RAG и reasoning — слои, а не варианты выбора

Это не камера

Дообучил модель на уровне GPT-5.4 за 30 000₽