Как мы провалили обучение LLM чувашскому
Обучили 27-миллиардную языковую модель (Qwen3.5-27B) для российского школьного образования. На бенчмарке EduBench-RU она показала 94 % качества Gemini 3.1 Pro. Попытались добавить чувашский язык — и получили катастрофу: модель забыла русский, не выучила чувашский, а то, что выдавала за чувашский текст, оказалось семантической галлюцинацией. Ниже — что произошло, что такое катастрофическая интерференция и как правильно обучать LLM малоресурсным языкам.
1. Контекст: зачем нам чувашский в LLM
Чувашский язык — государственный язык Чувашской Республики. В школах его преподают с 1 по 9 класс. Цифровых инструментов для изучения почти нет. В программе Абрамовой 2008 года прямо написано: «внедрение инновационных методов и компьютерных технологий». Прошло 18 лет — цифровых учебников так и не появилось.
Мы строим ИИ-ассистента для учителей: помощь в составлении уроков, объяснении материала, работе с учениками. Базовая версия (EduLLM-RU) уже работает для русского. Следующий шаг — добавить чувашский.
2. Что мы сделали
Базовая модель: Qwen3.5-27B (Dense, 27 млрд параметров) Метод: QLoRA / LoRA fine-tuning Данные: 28 000 образовательных примеров (русский) + 9 500 чувашских примеров
| Эксперимент | Архитектура | Данные | Параметры LoRA | Результат EduRU | Результат ChuvBench |
|---|---|---|---|---|---|
| Базовая (только образование) | Dense 27B | 28K edu | r=64, все слои | 3.32 | 2.00* |
| Комбинированная MoE (attention-only) | MoE 35B-A3B | 38K (67/33) | r=64, q/k/v/o | 3.11 | 1.47 |
| Комбинированная Dense (все слои) | Dense 27B | 38K (67/33) | r=64, все слои | 2.07 | 1.52 |
*С исправленным системным промптом. Подробнее — ниже.
3. Первый сюрприз: системный промпт ломал бенчмарк
В системном промпте было: «Отвечай на русском языке». Для модулей A-C (образование) — правильно. Для модуля D (чувашский) — катастрофа. Модель получала задание «переведи на чувашский» и одновременно инструкцию «отвечай по-русски».
Мы создали отдельный промпт для чувашского модуля: «Ты педагог чувашского языка. Выполняй задания точно по инструкции.» Это изменило поведение: модель стала пытаться отвечать на чувашском. Но...
4. Второй сюрприз: «чувашский» оказался галлюцинацией
Мы попросили Gemini 2.5 Pro проанализировать чувашский текст, который генерирует наша модель. Результат шокировал.
| Задание | Наша модель | Правильный ответ (Gemini 3.1 Pro) | Что не так |
|---|---|---|---|
| «Доброе утро!» | Саран, ӗнер! | Ырă ир! | «Саран» = скупой, «ӗнер» = вчера |
| «Меня зовут Маша» | Мана Маша темеççĕ | Манăн ят Маша | «темеççĕ» = НЕ называют (отрицание!) |
| «Мальчики» | Ҫулсем | Арçын ачасем | «Ҫулсем» = годы/дороги |
| Считалка про зайчика | Тĕрĕм шыраттăм | Тухрӗ мулкач уҫӑлма | «Искал булку» вместо «зайчик вышел гулять» |
Модель научилась использовать чувашские символы (ĕ, ă, ç, ÿ) и строить предложения, которые выглядят как чувашский текст. Семантически это набор случайных слов с правильной орфографией.
5. Третий сюрприз: комбинированное обучение уничтожило всё
Когда мы добавили 33 % чувашских данных к образовательным:
→ MoE (attention-only): образование сохранилось (3.11), но чувашский не выучился (1.47). Attention-only LoRA не может изменить знания модели — они хранятся в MLP-слоях. → Dense (все слои): катастрофа. Образование: 3.32 → 2.07. Чувашский: 1.52. Модель стала выдавать случайные русские тексты вместо ответов. Спрашиваешь про дроби — получаешь описание села Речица.
Причина: r=64 + полные MLP + 33 % ratio + lr=2e-4 — слишком агрессивно. Простые паттерны чувашских данных перехватили веса, отвечавшие за сложное педагогическое мышление.
6. А что Gemini 3.1 Pro?
Для сравнения: Gemini 3.1 Pro на тех же задачах выдаёт корректный, грамотный чувашский текст. Он правильно переводит, знает грамматику, сохраняет ритм при переводе считалки.
| Модель | EduRU (образование) | ChuvBench (чувашский) |
|---|---|---|
| Gemini 3.1 Pro | 3.52 | 2.96 |
| EduLLM-RU 27B | 3.31 | 2.00 |
| Комбинированная Dense | 2.07 | 1.52 |
На образовании мы в 6% от фронтира. На чувашском — пропасть.
7. Выводы и план
→ Не смешивайте языки в обучении при высоком learning rate и rank. 33 % малоресурсного языка при r=64 и lr=2e-4 — рецепт катастрофы. → Проверяйте системный промпт. «Отвечай на русском» в контексте чувашского перевода — тихая бомба, которая портит бенчмарк неделями. → Не доверяйте визуальному сходству. Модель может генерировать текст с правильными символами и структурой, но полностью неверным значением. Нужна лингвистическая экспертиза, а не формальные метрики. → Для малоресурсных языков нужны верифицированные данные. Мы извлекли 996 слов из учебной программы Абрамовой (1–4 класс), грамматические правила и тематические блоки. Следующий эксперимент — обучение на этих данных с безопасными параметрами (r=16, lr=5e-5, ratio 90/10). → Отдельные модели для отдельных задач. EduLLM-RU для образования — работает. ChuvashLM для чувашского — отдельный проект, отдельные данные, отдельная оценка.
Бенчмарк EduBench-RU (50 промптов, 4 модуля, 3-judge scoring) открыт. Чувашский цикл — следующий, на безопасных параметрах и верифицированных данных.