Выбрал модель под железо, которое есть

Прошлый пост я закончил на том, что модель — базовый товар. Но базовый товар всё равно надо выбрать — и желательно так, чтобы он крутился на железе, которое у меня уже есть, а не на том, за которое надо много платить. Сел выбирать. И замер опять оказался умнее интуиции.

Интуиция говорила: бери модель побольше, она умнее, но вот прогнал бенчмарк — оказалось неправдой.

→ Модель с Mixture of Experts (MoE — на каждый запрос работает лишь малая часть весов) обошла плотную модель вдвое большего размера. И по качеству ссылок, и по скорости — вдвое быстрее, получается доплачивать за более дорогую видеокарту вроде и не надо. → В 4-битной упаковке нужная модель влезает в 24 ГБ видеопамяти. Не 48 флагманской GDDR7, а 24, что меняет ценник почти в 2 раза при покупке. → А «thinking» режим, которым гордятся новые модели, на моей задаче только мешал: модель размышляла в 5–7 раз дольше — и выдавала тот же ответ. Для извлечения по корпусу думать не нужно, нужно отвечать. Принято, выключаем.

Главное, что подтвердил замер: качество ответа не растёт с размером модели, оно держится на корпусе, поиске и гарде — на том самом слое, который я и строю. Ровно то, что я писал в прошлый раз.

Выбрал модель под железо, которое есть

Читать по теме

Доверенный ИИ на практике: RAG, который ссылается на источник — или честно отказывается

Полный разворот: модель — это вызов API

А нужна ли вообще своя видеокарта?