EduBench-RU: 30 моделей на задачах российских учителей
Вчера за один вечер протестировал 22 нейросети на задачах для российских учителей.
Claude, GPT-5.4, Gemini, Qwen, GigaChat, DeepSeek — все. 50 промптов: планы уроков по ФГОС, объяснения для учеников, анализ ОГЭ, чувашский язык.
Оказалось: → Бенчмарка для российского образования не существовало. Сделал. → Gemini 3.1 Pro — неожиданный лидер. Не Claude, не GPT. → Ни одна из 22 моделей не знает чувашский язык. Ноль из двадцати двух.
Чувашский — язык 1.1 млн человек. На нём учат в школах. ЮНЕСКО говорит: под угрозой. Данные для обучения есть (3 млн предложений, CC0). Просто никто не делал.
Теперь делаем. ChuvashLM — первая модель для чувашского. Обучим, развернём в школе.
Весь бенчмарк — открытый: github.com/csylabs-org/edubench-ru Статья на Хабре: habr.com/ru/sandbox/277256
Стоимость эксперимента: 1500₽.