Здравствуйте, GlebЗ, Вы писали:
GЗ>Вышла 22 часа назад. Кто занимается локальными/корпоративными LLM.
Q4 влазит в одну 3090 и на контексте 32К шарашит под 100 токенов/с, PP фактически мгновенный.
Но качество — хуже Qwen3.6 35B (которая в 1 "слабую" видюху с большим контекстом не лезет в Q4 увы). Мой тест на логику 27B не прошла, а 35B прошла как и более серъезные модели (но они уже на 120B+). Если впихивать и задействовать RAM, скорость в 4 раза медленнее e 35B чем у MOE 27B. Но работает хоть и медленнее, зато точнее.