We've updated the Artificial Analysis Coding Agent Index, replacing SWE-Bench Pro with Datacurve's DeepSWE benchmark - the swap lifts Codex with GPT-5.5 (xhigh) above Claude Code with Opus 4.8 (max), while the newly released Claude Fable 5 (max) in Claude Code debuts at the top
DeepSWE, built by @datacurve, writes its tasks from scratch rather than adapting them from public GitHub issues or pull requests, so no model has seen the solutions during training. That matters because SWE-Bench Pro, the benchmark it replaces in our Coding Agent Index, had grown gameable, with some models recovering the fix from the repository's commit history instead of solving the task.
The swap reorders the index: Codex with GPT-5.5 (xhigh) rises from 65 to 76, overtaking Claude Code with Opus 4.8 (max) at 73. Claude Code with Fable 5 (max), which enters directly on the refreshed index, leads at 77. SWE-Bench Pro had been flattering some combinations and penalizing others.
More below.
1/ NVIDIA sort Nemotron 3 Ultra : un modèle ouvert pensé pour orchestrer des agents long-running.
MoE 550B params (55B actifs), contexte jusqu'à 1M tokens. L'angle n'est pas "un gros modèle de plus" mais "le modèle qui prend les décisions difficiles dans un système d'agents". 🧵
7/ Verdict : sorti important pour l'écosystème agentique open-weight, MOPD en particulier.
Mais à valider en pratique : benchmarks indépendants, coût réel par tâche, qualité sur vrais codebases, stabilité en sessions longues, latence via providers.
Action concrète pour aujourd'hui :
Ouvre tes fichiers AGENTS.md / CLAUDE.md / system prompts.
Demande-toi : est-ce que c'est toujours vrai ? Toujours utile ?
Si tu regardes ce thread, tu as probablement déjà de la dette prompt à traiter.
Commence maintenant. 🧹
Tu penses que ta dette technique, c'est ton code legacy ?
Tu te trompes !
Il y a un type de dette que personne ne surveille et qui te coûte déjà.
🧵 Thread :
Philosophie Unix appliquée à l'IA :
Démarre avec le minimum. Ajoute uniquement ce qui résout un problème réel que tu as maintenant. Supprime dès que tu peux.
Écris tes prompts toi-même. Et supprime-les dès que c'est possible.