EduBench-RU: 30 моделей на задачах российских учителей

Вчера за один вечер протестировал 22 нейросети на задачах для российских учителей.

Claude, GPT-5.4, Gemini, Qwen, GigaChat, DeepSeek — все. 50 промптов: планы уроков по ФГОС, объяснения для учеников, анализ ОГЭ, чувашский язык.

Оказалось: → Бенчмарка для российского образования не существовало. Сделал. → Gemini 3.1 Pro — неожиданный лидер. Не Claude, не GPT. → Ни одна из 22 моделей не знает чувашский язык. Ноль из двадцати двух.

Чувашский — язык 1.1 млн человек. На нём учат в школах. ЮНЕСКО говорит: под угрозой. Данные для обучения есть (3 млн предложений, CC0). Просто никто не делал.

Теперь делаем. ChuvashLM — первая модель для чувашского. Обучим, развернём в школе.

Весь бенчмарк — открытый: github.com/csylabs-org/edubench-ru Статья на Хабре: habr.com/ru/sandbox/277256

Стоимость эксперимента: 1500₽.

EduBench-RU: 30 моделей на задачах российских учителей

Читать по теме

Выложил страницу LLM-интеграции — начинаем с образования

Дообучил модель на уровне GPT-5.4 за 30 000₽

Как мы провалили обучение LLM чувашскому