AI-учитель для чувашского языка
Про EduBench и EduLLM — следующий шаг оказался неожиданным даже для меня.
На HuggingFace лежат 63 часа записей чувашской речи. 38 часов от одного диктора с транскрипцией, ещё 25 из Mozilla Common Voice, плюс 3.9 миллиона предложений на чувашском. Открытые данные, бери и строй.
Но синтезаторов речи для чувашского языка не существует. Ни одного — ни от Яндекса, ни от Сбера, ни открытого. Данные есть, а продукта нет.
И это при том, что в 2017 году чувашский изучали 84% школьников республики. К 2022 — уже 37%. Охват упал вдвое за пять лет. Учебники при этом есть — полный комплект с 1 по 9 класс, в федеральном перечне с 2022 года. Программа есть, учителя есть. Цифровых инструментов — нет.
Когда я тестировал 22 нейросети в рамках EduBench-RU, отдельным модулем шёл чувашский язык. Лучшие модели мира — Claude, GPT, Gemini — набирают ~2.1 из 4. Пять моделей генерируют текст, который визуально похож на чувашский, но по содержанию — бессмыслица.
Самое интересное: программа по чувашскому языку 2008 года прямым текстом просит «внедрение инновационных методов и компьютерных технологий». Это было написано 18 лет назад.
Сейчас мы собираем пайплайн для первого ИИ-учителя чувашского. Языковая модель генерирует текст урока, синтезатор речи озвучивает его на чувашском, а анимация оживляет персонажа — девушку в национальном костюме. На выходе: видеоурок на 3-5 минут. Не замена живому учителю — помощник для практики и произношения.
Чувашский — первый язык. Та же проблема у татарского, башкирского, марийского, удмуртского: федеральный закон требует преподавания, а цифровой инфраструктуры нет. Если пайплайн сработает — он масштабируется на 20+ языков.