@mkap1nus Все вже давно вирішили за кордоном. Позбавлення прав за порушення +50 від обмеження в населених пунктах. За рецидив - більш серйозні заходи. Камери контролю швидкості і камери контролю середньої швидкості. І щоб не можна «порішать». Система штрафних балів…
@RobertZeltinsh А ще треба систему балів з позбавленням прав і автоматичні камери контролю швидкості по всьому місту і конфіскацію автомобіля за рецидив важкого правопорушення (позбавлення прав автоматом за +50 км/год у місті від обмеження). І щоб не можна було «порішать».
@_nasch_ I have received 20-22 tokens/s with mobile RTX 3060 6Gb VRAM on my Ryzen 7 6800H laptop with 64 Gb 4800 MT/s DDR5 with this model. MoE for the win! But Qwen3.6-27b on eGPU RTX 3090 still offers superior quality…
@Clegain4@_nasch_ Yes, you can use partial offload to RAM and you will get usable speed. Ideal approach is to ask Claude or codex to compile llama.cpp specifically for your hardware and help you find the best set of parameters to run the model.
But don’t expect same quality as big LLMs
@icodeagents@_aristone_ 27b should run at acceptable speeds and it has shown to be superior in tasks requiring large text extraction of synthesis of facts where precision and lack of hallucinations matters
Was localmaxxing on my MBP M5 Pro 64 Gb. Unfortunately, MLX_LM developers still have not reviewed PRs for MTP, so we have to use drafting models manually. Used PR1111 to fix cache issues and make Qwen3.6-35b-A3B-6bit with Qwen3.5-0.8b-4bit…
9b gains almost 100%…
To be continued