@Capetlevrai Je suis d'accord sur ce point. Mais au delà des capacités intrinsèque, Opus 4.8 est beaucoup trop verbeux. Si on ne cadre pas le prompt, c'est la fête aux tokens brûlés pour rien avec des paragraphe pleins de moralisation
@Firisis_ Très bon choix. Si ce n'est pas déjà fait, je te conseille d'essayer les nouveaux Qwen3.6-35B-A3B, et Qwen3.6-27B. Tu seras large en contexte avec ta 5090
@Kulturlesite_ La seule preuve que ça implique, c'est que les stations locales IA seront forcément privilégiés face au cloud. Et ce n'est pas plus mal pour la souveraineté des données.
J'ai clairement pas du tout le même verdict concernant Opus 4.7 et GPT-5.5. Bien souvent, GPT-5.5 me trouve des erreurs qu'Opus 4.7 n'a pas détecté. Et ce n'était pas le cas auparavant d'après mes tests. Opus 4.6 était bien au-dessus de GPT-5.4. Je n'en fait pas une conclusion finale, car ça dépendra toujours de ce que l'on fait et construit avec ces modèles, mais je me devait de le préciser 😉
Globalement d’accord, l’optimisation permet clairement de faire plus avec le même budget.
Par contre, même en comparant sur des forfaits à peu près équivalents, l’écart est visible.
Avec exactement les mêmes prompts et le même usage, ChatGPT laisse une marge confortable même sans optimisation poussée.
Sur Claude, on tape dans le mur nettement plus vite.
L’optimisation change le ratio, mais elle ne compense pas la différence réelle de quota entre les providers.
@totoche Même ressenti de mon côté. Ils ont vraiment rattraper leurs retard du côté de OpenAI. Et sans compter les limites d'utilisation bien plus conséquentes avec GPT-5.5. Mais le vrai luxe reste d'avoir les deux. L'un code, l'autre en audit.
@above_spec Q4_K_S + q8_0 KV + CPU/RAM expert offload (-ncmoe 99). That’s exactly why this fits on an 8GB GPU. The model isn’t fully running in VRAM. And t/s doesn’t tell you much about quality or long context reliability
Interesting result from a quick local test on Qwen3.6-27B from @Alibaba_Qwen
Same model, same prompt, same file, same machine (RTX 4090).
I just ran 2 servers:
reasoning OFF
reasoning ON
On a small code-fix task with Hermes Agent (@NousResearch), the reasoning ON run gave me the cleaner output.
Didn’t expect that, especially since with earlier Qwen runs I usually saw more drift when reasoning was enabled.