AI-кодинг локально

Self-hosted AI для кодинга: это уже работает

Полгода назад self-hosted LLM для серьёзного кодинга был компромиссом. Медленно, неточно, инструменты не поддерживаются.

Сейчас — другая история. Настроил на сервере два движка через vLLM:

Первый — coding-модель. 80B параметров, 3B активных (MoE). 75 токенов/сек, 131K контекст. SWE-bench 70.6% — это уровень коммерческих API.

Второй — general-purpose. 120B параметров, 5.1B активных. 187 токенов/сек — быстрее большинства облачных API. Поддержка 81+ языка, сильный русский.

Что это даёт:

Портировал свою агентскую систему (8 агентов с разными ролями) с облачного Claude Code на self-hosted. Те же промпты, те же персонажи — работают.

Разница между self-hosted и $250/мес подпиской — примерно 10% на бенчмарках. Для 90% задач этого достаточно. Для остальных 10% — есть облако.

Self-hosted AI — это уже не эксперимент. Это рабочий инструмент.

Читать по теме