4 мин чтения#ai#исследование#education

Как мы провалили обучение LLM чувашскому

Аннотация. Мы обучили 27-миллиардную языковую модель (Qwen3.5-27B) для российского школьного образования. На бенчмарке EduBench-RU она показала 94% качества Gemini 3.1 Pro. Затем мы попытались добавить чувашский язык — и получили катастрофу: модель забыла русский, не выучила чувашский, а то, что выдавала за чувашский текст, оказалось семантической галлюцинацией. В статье разбираем: почему это произошло, что такое «катастрофическая интерференция», и как правильно обучать LLM малоресурсным языкам.

Содержание

1. Контекст: зачем нам чувашский в LLM

Чувашский язык — государственный язык Чувашской Республики. В школах его преподают с 1 по 9 класс. Но цифровых инструментов для изучения чувашского практически не существует. В программе Абрамовой 2008 года прямо написано: «внедрение инновационных методов и компьютерных технологий». Прошло 18 лет — никто не внедрил.

Мы строим AI-ассистента для учителей: помощь в составлении уроков, объяснении материала, работе с учениками. Базовая версия (EduLLM-RU) уже работает для русского языка. Следующий шаг — добавить чувашский.

2. Что мы сделали

Базовая модель: Qwen3.5-27B (Dense, 27 млрд параметров) Метод: QLoRA / LoRA fine-tuning Данные: 28 000 образовательных примеров (русский) + 9 500 чувашских примеров

ЭкспериментАрхитектураДанныеПараметры LoRAРезультат EduRUРезультат ChuvBench
Базовая (только образование)Dense 27B28K edur=64, все слои3.322.00*
Комбинированная MoE (attention-only)MoE 35B-A3B38K (67/33)r=64, q/k/v/o3.111.47
Комбинированная Dense (все слои)Dense 27B38K (67/33)r=64, все слои2.071.52

*С исправленным системным промптом. Подробнее — ниже.

3. Первый сюрприз: системный промпт ломал бенчмарк

В системном промпте было: «Отвечай на русском языке». Для модулей A-C (образование) — правильно. Для модуля D (чувашский) — катастрофа. Модель получала задание «переведи на чувашский» и одновременно инструкцию «отвечай по-русски».

Мы создали отдельный промпт для чувашского модуля: «Ты педагог чувашского языка. Выполняй задания точно по инструкции.» Это изменило поведение: модель стала пытаться отвечать на чувашском. Но...

4. Второй сюрприз: «чувашский» оказался галлюцинацией

Мы попросили Gemini 2.5 Pro проанализировать чувашский текст, который генерирует наша модель. Результат шокировал.

ЗаданиеНаша модельПравильный ответ (Gemini 3.1 Pro)Что не так
«Доброе утро!»Саран, ӗнер!Ырă ир!«Саран» = скупой, «ӗнер» = вчера
«Меня зовут Маша»Мана Маша темеççĕМанăн ят Маша«темеççĕ» = НЕ называют (отрицание!)
«Мальчики»ҪулсемАрçын ачасем«Ҫулсем» = годы/дороги
Считалка про зайчикаТĕрĕм шыраттăмТухрӗ мулкач уҫӑлма«Искал булку» вместо «зайчик вышел гулять»

Модель научилась использовать чувашские символы (ĕ, ă, ç, ÿ) и строить предложения, которые ВЫГЛЯДЯТ как чувашский текст. Но семантически это набор случайных слов с правильной орфографией.

5. Третий сюрприз: комбинированное обучение уничтожило всё

Когда мы добавили 33% чувашских данных к образовательным:

  • MoE (attention-only): образование сохранилось (3.11), но чувашский не выучился (1.47). Attention-only LoRA не может изменить знания модели — они хранятся в MLP-слоях.

  • Dense (все слои): КАТАСТРОФА. Образование: 3.32 → 2.07. Чувашский: 1.52. Модель стала выдавать случайные русские тексты вместо ответов на вопросы. Спрашиваешь про дроби — получаешь описание села Речица.

Причина: r=64 + полные MLP + 33% ratio + lr=2e-4 = слишком агрессивно. Простые паттерны чувашских данных «перехватили» веса, которые отвечали за сложное педагогическое мышление.

6. А что Gemini 3.1 Pro?

Для сравнения: Gemini 3.1 Pro на тех же задачах выдаёт корректный, грамотный чувашский текст. Он правильно переводит, знает грамматику, сохраняет ритм при переводе считалки.

МодельEduRU (образование)ChuvBench (чувашский)
Gemini 3.1 Pro3.522.96
EduLLM-RU 27B3.312.00
Комбинированная Dense2.071.52

На образовании мы в 6% от фронтира. На чувашском — пропасть.

7. Выводы и план

  1. Не смешивайте языки в обучении при высоком learning rate и rank. 33% малоресурсного языка при r=64 и lr=2e-4 = рецепт катастрофы.

  2. Проверяйте системный промпт. «Отвечай на русском» в контексте чувашского перевода — тихая бомба, которая портит бенчмарк неделями.

  3. Не доверяйте визуальному сходству. Модель может генерировать текст с правильными символами и структурой, но полностью неверным значением. Нужна ЛИНГВИСТИЧЕСКАЯ экспертиза, а не формальные метрики.

  4. Для малоресурсных языков нужны ВЕРИФИЦИРОВАННЫЕ данные. Мы извлекли 996 слов из учебной программы Абрамовой (1-4 класс), грамматические правила и тематические блоки. Следующий эксперимент: обучение на ЭТИХ данных с безопасными параметрами (r=16, lr=5e-5, 90/10 ratio).

  5. Отдельные модели для отдельных задач. EduLLM-RU для образования — работает. ChuvashLM для чувашского — отдельный проект, отдельные данные, отдельная оценка.

Бенчмарк EduBench-RU (50 промптов, 4 модуля, 3-judge scoring) доступен как open source.

Теги (Habr): машинное обучение, NLP, LLM, fine-tuning, чувашский язык, образование, катастрофическая интерференция

Читать по теме