Презентация к академическому семинару прошла шесть правок. Все про одно.

Завтра в 13:00 МСК — ВКС-семинар по ИИ в образовании в Оренбургском гос. университете. Кафедра педагогики, 20 минут доклад плюс Q&A. Тема — «От бенчмарка к методологии: дообучаем LLM для российского образования».

Черновик презентации был у меня в воскресенье. К понедельнику вечеру — шестая версия.

Каждая правка — про одно: как говорят с педагогической аудиторией, не с инженерной.

Правка №1 — личное не нужно

В первой версии на слайде био — возраст, жена, трое детей, Чебоксары. Это Telegram-регистр. Для академического семинара перечисление личных деталей читается как невнятный pitch. Выкинул всё, что не работает на содержание следующих 18 минут.

Правка №2 — био переработана

«Head of Remote Video Production, 2018–2026» лучше работает в LinkedIn-резюме, чем в академической презентации. Слайд про меня теперь про другое: ИИ-лаборатория ООО ЛИИ, 8 лет на стыке инфраструктуры и ИИ, глубокая экспертиза в compute и GPU, продукты на рынках Европы, СНГ и Азии. Не «кто я по должности», а «почему то, что я сейчас скажу, имеет вес».

Правка №3 — четыре пробела, не три кейса

В первой версии проблема разворачивалась тремя «кейсами»: региональные языки, спорт-домен, экономика. Это формат коммерческого pitch — «вот три истории, выберите близкую». Академическая аудитория не выбирает истории, она читает структуру.

Переразложил на четыре фактора: экономика, регуляторика, IP, язык. Один слайд, сетка 2×2, каждая карточка — независимый структурный пробел. Кафедра педагогики может держать четыре карточки одновременно. Три истории не складываются в одну картину.

Правка №4 — чувашский задвинут

Самое яркое открытие из тестов: ноль из 22 топ-моделей знают чувашский на уровне выше 3,19/4. Хочется лидировать с этим. Но если чувашский становится первой темой, доклад читается как региональная-языковая работа. А это не доклад про региональный язык. Это доклад про методологию, в которой чувашский — один из пяти примеров. Перенёс его в четвёртую карточку проблемы и в третье открытие из бенчмарка.

Правка №5 — честные числа, не яркие

В первой версии ключевая цифра для регионального вуза была «~14 000 ₽ в месяц на полную кампанию доменного дообучения». Звучит дёшево. Но это среднегодовое значение по лайнапу из пяти моделей с двумя-тремя ревизиями в год.

Для вуза, который начинает с нуля и хочет одну модель, реальный анкор — 30 000 ₽ за первый SFT-цикл. Это то, что мы потратили на EduLLM-RU до места #9 из 30 на бенчмарке. Менее впечатляющее число — менее вводящее в заблуждение. Поменял.

Правка №6 — глоссарий внутри слайда

На слайде про инфраструктуру жаргон плотный: CPT, SFT, DPO, spot, NVLink-фабрика, PCIe Gen5. Инженерная аудитория это пробежит глазами и поймёт. Кафедра педагогики — нет.

Добавил внизу слайда четыре строки моноширинным мелким шрифтом: «CPT — continued pre-training (доучивание базы) · SFT — supervised fine-tuning (дообучение на парах вопрос-ответ) · DPO — direct preference optimization (выравнивание поведения) · spot — прерываемая аренда GPU с почасовой оплатой». Не вопрос для Q&A — ответ на слайде.

(Первая версия презентации это была бы pitch-дека для инвестора, а аудитория — кафедра педагогики. К шестой версии пришли уже к нормальному жанру.)

Голос — самая большая правка

Не один слайд, а сквозная замена слов через файл. Frontier-модели → топ-уровневые / передовые. Cloud-API → облачный API. Fine-tune → дообучение. K-12 → школьный. Teacher Copilot → Помощник учителя. Sovereign deployment → развёртывание на отечественной инфре. IP-retention → сохранение прав на IP.

Каждое слово, которое инженер прочитал бы автоматически — для академической аудитории либо барьер, либо повод задуматься: «он хочет звучать модно или хочет, чтобы я понял?»

Та же методология, тот же compute, те же 30 000 ₽, та же ссылка на Habr-статью — другая лексическая упаковка.

Завтра в 13:00 МСК — посмотрим, как ляжет.