Как мы провалили обучение LLM чувашскому

Обучили 27-миллиардную языковую модель (Qwen3.5-27B) для российского школьного образования. На бенчмарке EduBench-RU она показала 94 % качества Gemini 3.1 Pro. Попытались добавить чувашский язык — и получили катастрофу: модель забыла русский, не выучила чувашский, а то, что выдавала за чувашский текст, оказалось семантической галлюцинацией. Ниже — что произошло, что такое катастрофическая интерференция и как правильно обучать LLM малоресурсным языкам.

1. Контекст: зачем нам чувашский в LLM

Чувашский язык — государственный язык Чувашской Республики. В школах его преподают с 1 по 9 класс. Цифровых инструментов для изучения почти нет. В программе Абрамовой 2008 года прямо написано: «внедрение инновационных методов и компьютерных технологий». Прошло 18 лет — цифровых учебников так и не появилось.

Мы строим ИИ-ассистента для учителей: помощь в составлении уроков, объяснении материала, работе с учениками. Базовая версия (EduLLM-RU) уже работает для русского. Следующий шаг — добавить чувашский.

2. Что мы сделали

Базовая модель: Qwen3.5-27B (Dense, 27 млрд параметров) Метод: QLoRA / LoRA fine-tuning Данные: 28 000 образовательных примеров (русский) + 9 500 чувашских примеров

Эксперимент	Архитектура	Данные	Параметры LoRA	Результат EduRU	Результат ChuvBench
Базовая (только образование)	Dense 27B	28K edu	r=64, все слои	3.32	2.00*
Комбинированная MoE (attention-only)	MoE 35B-A3B	38K (67/33)	r=64, q/k/v/o	3.11	1.47
Комбинированная Dense (все слои)	Dense 27B	38K (67/33)	r=64, все слои	2.07	1.52

*С исправленным системным промптом. Подробнее — ниже.

3. Первый сюрприз: системный промпт ломал бенчмарк

В системном промпте было: «Отвечай на русском языке». Для модулей A-C (образование) — правильно. Для модуля D (чувашский) — катастрофа. Модель получала задание «переведи на чувашский» и одновременно инструкцию «отвечай по-русски».

Мы создали отдельный промпт для чувашского модуля: «Ты педагог чувашского языка. Выполняй задания точно по инструкции.» Это изменило поведение: модель стала пытаться отвечать на чувашском. Но...

4. Второй сюрприз: «чувашский» оказался галлюцинацией

Мы попросили Gemini 2.5 Pro проанализировать чувашский текст, который генерирует наша модель. Результат шокировал.

Задание	Наша модель	Правильный ответ (Gemini 3.1 Pro)	Что не так
«Доброе утро!»	Саран, ӗнер!	Ырă ир!	«Саран» = скупой, «ӗнер» = вчера
«Меня зовут Маша»	Мана Маша темеççĕ	Манăн ят Маша	«темеççĕ» = НЕ называют (отрицание!)
«Мальчики»	Ҫулсем	Арçын ачасем	«Ҫулсем» = годы/дороги
Считалка про зайчика	Тĕрĕм шыраттăм	Тухрӗ мулкач уҫӑлма	«Искал булку» вместо «зайчик вышел гулять»

Модель научилась использовать чувашские символы (ĕ, ă, ç, ÿ) и строить предложения, которые выглядят как чувашский текст. Семантически это набор случайных слов с правильной орфографией.

5. Третий сюрприз: комбинированное обучение уничтожило всё

Когда мы добавили 33 % чувашских данных к образовательным:

→ MoE (attention-only): образование сохранилось (3.11), но чувашский не выучился (1.47). Attention-only LoRA не может изменить знания модели — они хранятся в MLP-слоях. → Dense (все слои): катастрофа. Образование: 3.32 → 2.07. Чувашский: 1.52. Модель стала выдавать случайные русские тексты вместо ответов. Спрашиваешь про дроби — получаешь описание села Речица.

Причина: r=64 + полные MLP + 33 % ratio + lr=2e-4 — слишком агрессивно. Простые паттерны чувашских данных перехватили веса, отвечавшие за сложное педагогическое мышление.

6. А что Gemini 3.1 Pro?

Для сравнения: Gemini 3.1 Pro на тех же задачах выдаёт корректный, грамотный чувашский текст. Он правильно переводит, знает грамматику, сохраняет ритм при переводе считалки.

Модель	EduRU (образование)	ChuvBench (чувашский)
Gemini 3.1 Pro	3.52	2.96
EduLLM-RU 27B	3.31	2.00
Комбинированная Dense	2.07	1.52

На образовании мы в 6% от фронтира. На чувашском — пропасть.

7. Выводы и план

→ Не смешивайте языки в обучении при высоком learning rate и rank. 33 % малоресурсного языка при r=64 и lr=2e-4 — рецепт катастрофы. → Проверяйте системный промпт. «Отвечай на русском» в контексте чувашского перевода — тихая бомба, которая портит бенчмарк неделями. → Не доверяйте визуальному сходству. Модель может генерировать текст с правильными символами и структурой, но полностью неверным значением. Нужна лингвистическая экспертиза, а не формальные метрики. → Для малоресурсных языков нужны верифицированные данные. Мы извлекли 996 слов из учебной программы Абрамовой (1–4 класс), грамматические правила и тематические блоки. Следующий эксперимент — обучение на этих данных с безопасными параметрами (r=16, lr=5e-5, ratio 90/10). → Отдельные модели для отдельных задач. EduLLM-RU для образования — работает. ChuvashLM для чувашского — отдельный проект, отдельные данные, отдельная оценка.

Бенчмарк EduBench-RU (50 промптов, 4 модуля, 3-judge scoring) открыт. Чувашский цикл — следующий, на безопасных параметрах и верифицированных данных.

Как мы провалили обучение LLM чувашскому

Читать по теме

Дообучил модель на уровне GPT-5.4 за 30 000₽

Дообучение, RAG и reasoning — слои, а не варианты выбора

655 вопросов за вечер. Бенчмарк для своей же модели.