Как мы провалили обучение LLM чувашскому
Аннотация. Мы обучили 27-миллиардную языковую модель (Qwen3.5-27B) для российского школьного образования. На бенчмарке EduBench-RU она показала 94% качества Gemini 3.1 Pro. Затем мы попытались добавить чувашский язык — и получили катастрофу: модель забыла русский, не выучила чувашский, а то, что выдавала за чувашский текст, оказалось семантической галлюцинацией. В статье разбираем: почему это произошло, что такое «катастрофическая интерференция», и как правильно обучать LLM малоресурсным языкам.
Содержание
1. Контекст: зачем нам чувашский в LLM
Чувашский язык — государственный язык Чувашской Республики. В школах его преподают с 1 по 9 класс. Но цифровых инструментов для изучения чувашского практически не существует. В программе Абрамовой 2008 года прямо написано: «внедрение инновационных методов и компьютерных технологий». Прошло 18 лет — никто не внедрил.
Мы строим AI-ассистента для учителей: помощь в составлении уроков, объяснении материала, работе с учениками. Базовая версия (EduLLM-RU) уже работает для русского языка. Следующий шаг — добавить чувашский.
2. Что мы сделали
Базовая модель: Qwen3.5-27B (Dense, 27 млрд параметров) Метод: QLoRA / LoRA fine-tuning Данные: 28 000 образовательных примеров (русский) + 9 500 чувашских примеров
| Эксперимент | Архитектура | Данные | Параметры LoRA | Результат EduRU | Результат ChuvBench |
|---|---|---|---|---|---|
| Базовая (только образование) | Dense 27B | 28K edu | r=64, все слои | 3.32 | 2.00* |
| Комбинированная MoE (attention-only) | MoE 35B-A3B | 38K (67/33) | r=64, q/k/v/o | 3.11 | 1.47 |
| Комбинированная Dense (все слои) | Dense 27B | 38K (67/33) | r=64, все слои | 2.07 | 1.52 |
*С исправленным системным промптом. Подробнее — ниже.
3. Первый сюрприз: системный промпт ломал бенчмарк
В системном промпте было: «Отвечай на русском языке». Для модулей A-C (образование) — правильно. Для модуля D (чувашский) — катастрофа. Модель получала задание «переведи на чувашский» и одновременно инструкцию «отвечай по-русски».
Мы создали отдельный промпт для чувашского модуля: «Ты педагог чувашского языка. Выполняй задания точно по инструкции.» Это изменило поведение: модель стала пытаться отвечать на чувашском. Но...
4. Второй сюрприз: «чувашский» оказался галлюцинацией
Мы попросили Gemini 2.5 Pro проанализировать чувашский текст, который генерирует наша модель. Результат шокировал.
| Задание | Наша модель | Правильный ответ (Gemini 3.1 Pro) | Что не так |
|---|---|---|---|
| «Доброе утро!» | Саран, ӗнер! | Ырă ир! | «Саран» = скупой, «ӗнер» = вчера |
| «Меня зовут Маша» | Мана Маша темеççĕ | Манăн ят Маша | «темеççĕ» = НЕ называют (отрицание!) |
| «Мальчики» | Ҫулсем | Арçын ачасем | «Ҫулсем» = годы/дороги |
| Считалка про зайчика | Тĕрĕм шыраттăм | Тухрӗ мулкач уҫӑлма | «Искал булку» вместо «зайчик вышел гулять» |
Модель научилась использовать чувашские символы (ĕ, ă, ç, ÿ) и строить предложения, которые ВЫГЛЯДЯТ как чувашский текст. Но семантически это набор случайных слов с правильной орфографией.
5. Третий сюрприз: комбинированное обучение уничтожило всё
Когда мы добавили 33% чувашских данных к образовательным:
-
MoE (attention-only): образование сохранилось (3.11), но чувашский не выучился (1.47). Attention-only LoRA не может изменить знания модели — они хранятся в MLP-слоях.
-
Dense (все слои): КАТАСТРОФА. Образование: 3.32 → 2.07. Чувашский: 1.52. Модель стала выдавать случайные русские тексты вместо ответов на вопросы. Спрашиваешь про дроби — получаешь описание села Речица.
Причина: r=64 + полные MLP + 33% ratio + lr=2e-4 = слишком агрессивно. Простые паттерны чувашских данных «перехватили» веса, которые отвечали за сложное педагогическое мышление.
6. А что Gemini 3.1 Pro?
Для сравнения: Gemini 3.1 Pro на тех же задачах выдаёт корректный, грамотный чувашский текст. Он правильно переводит, знает грамматику, сохраняет ритм при переводе считалки.
| Модель | EduRU (образование) | ChuvBench (чувашский) |
|---|---|---|
| Gemini 3.1 Pro | 3.52 | 2.96 |
| EduLLM-RU 27B | 3.31 | 2.00 |
| Комбинированная Dense | 2.07 | 1.52 |
На образовании мы в 6% от фронтира. На чувашском — пропасть.
7. Выводы и план
-
Не смешивайте языки в обучении при высоком learning rate и rank. 33% малоресурсного языка при r=64 и lr=2e-4 = рецепт катастрофы.
-
Проверяйте системный промпт. «Отвечай на русском» в контексте чувашского перевода — тихая бомба, которая портит бенчмарк неделями.
-
Не доверяйте визуальному сходству. Модель может генерировать текст с правильными символами и структурой, но полностью неверным значением. Нужна ЛИНГВИСТИЧЕСКАЯ экспертиза, а не формальные метрики.
-
Для малоресурсных языков нужны ВЕРИФИЦИРОВАННЫЕ данные. Мы извлекли 996 слов из учебной программы Абрамовой (1-4 класс), грамматические правила и тематические блоки. Следующий эксперимент: обучение на ЭТИХ данных с безопасными параметрами (r=16, lr=5e-5, 90/10 ratio).
-
Отдельные модели для отдельных задач. EduLLM-RU для образования — работает. ChuvashLM для чувашского — отдельный проект, отдельные данные, отдельная оценка.
Бенчмарк EduBench-RU (50 промптов, 4 модуля, 3-judge scoring) доступен как open source.