I got tired of abstract AI benchmarks that rank models in isolation.
Users don't run a model. They run a full loop: model + harness + tools + retries + cache + prompts.
So I ran 27 tasks that look like my real work across different coding-agent harnesses, 5 times each to reduce variance. I also wanted to create my own tasks to avoid the problem of benchmaxxing.
Result: near-identical pass rates, wildly different bills.
Codex/Claude costs are API-equivalent because I use subscriptions. But at public API prices, one Codex setup charts at ~420× the cost of Pi + DeepSeek V4 Flash for the same strict score.
The lesson: the harness is a huge part of the value you feel as a user. And when some loops are this cheap, the optimal strategy changes: you can afford retries, parallel attempts, and verification passes instead of betting everything on one expensive first shot.
Don't trust my tasks. Run it on yours.
@Dark_Emi_@ultras_antifaa Toi tu ne t'es pas fait embobiner par les beaux discours du néolibéralisme non sanguinaire des démocraties comme les US (0 guerre, 0 sang, lol) ? 😇
Faudra m'expliquer le secret des libéraux, pour toujours se forger une pensée 100% autonome et immunisée contre la propagande.
@nseauge@SachaNabet@EmmanuelTrumer@PoluxLiveReact@KennyJPW@Oeil2Suricate Toujours pas pour neves. Agrandir la surface de son corps c'est problématique quand la balle va vers le but, là ca va a l'opposée, c'est un réflexe de protection qui penalise juste le psg dans sa relance/dégagement.
Au delà du bashing propre à X/twitter, il y a 3 questions qui émergent plus ou moins adroitement concernant ibou, je vais donner quelques pistes de réponses ici.
Pendant plus de deux ans, le reporter Palestinien Suhail Nassar a filmé son quotidien et celui de deux enfants dans le génocide de la bande de Gaza
On aurait jamais pu faire ce film sans votre aide et désormais il vous appartient
From Gaza with love
https://t.co/cq7yS1K1ha
laissez moi résumer mdr l'État collecte de force vos données d'identité via l'ANTS, laisse traîner le tout sur un système tellement mal sécurisé que 18 millions de comptes français finissent en vente libre sur le dark web & maintenant la CNIL va infliger une amende à l'ANTS qui sera payée avec quoi??? avec les impôts des français mdrrr
donc récapitulons, on vous pirate avec votre argent puis on vous taxe pour punir ceux qui ont laissé faire avec votre argent in fine le serpent qui se mord la queue fiscalement mdrrrr
et le plus dingue dans l'affaire c'est que ça arrive 2 mois après le piratage du FICOBA qui a exposé 1,2 million de comptes bancaires, une semaine après la fuite educonnect sur les élèves et pendant ce temps on exige de vous une double authentification pour commander une pizza sur ubereats mdrrrrr
la vérité brutale c'est que l'etat français exige de ses citoyens un niveau de sécurité numérique qu'il est lui même structurellement incapable d'assurer sur ses propres plateformes…passeport, CI, permis…tout votre dossier civil circule en ce moment entre des mains que personne ne connaît pendant que Bercy prépare la facture de sa propre incompétence mdr j’en rigole mais ce niveau de médiocrité est juste STRATOSPHÉRIQUE
le sang froid de Villepin pour ne pas insulter l'arbre généalogique de Rochebin en direct c'est de la haute voltige diplomatique
mais au delà de l'échange cette interview est un cas d'école de ce que les médias occidentaux sont devenus
regardez la mécanique: dès que Tsahal colle l'étiquette « terroriste» sur un individu, un groupe ou un quartier le journaliste l'intègre comme un fait établi sans enquête, sans vérification sans contradiction
et à partir de cette étiquette tout devient légitime??? raser un immeuble résidentiel c'est légitime, détruire un quartier entier c'est légitime, bombarder un hôpital c'est légitime, tuer des milliers de civils c'est légitime…parce qu'un communiqué de Tsahal a décrété qu'il y avait un «terroriste » quelque part dans le périmètre!!!!
c'est la normalisation la + dangereuse de l'ère moderne, une armée étrangère s'arroge unilatéralement le droit de vie ou de mort sur des populations civiles entières à partir d'une simple désignation que personne ne vérifie et le rôle du journaliste qui au lieu de questionner cette désignation se contente de de la relayer comme une vérité établie et de limite demander à Villepin pourquoi il ne l'accepte pas, nous vivons dans un monde de FOUS FURIEUX
dans cette séquence, j’admire Villepin qui lui répond avec le calme d'un homme qui a déjà dit non à la guerre devant le conseil de sécurité de l'ONU et perso je crois que c'est peut être le dernier homme politique français qui comprend qu'accepter qu'une armée décide qui est terroriste et qui mérite donc de mourir sans aucun contrôle c'est accepter un principe qui finira par s'appliquer à tout le monde
les enfants de la bourgeoisie iranienne vassalisée à l'occident dont les parents ont fui l'Iran en 79 avec les coffres pleins, installés entre Los Angeles et le 16ème arrondissement depuis 45 ans, qui n'ont jamais remis les pieds en Iran, qui ne parlent parfois même plus farsi et qui manifestent à Paris pour demander aux américains et aux israéliens de bombarder le pays que leurs grands parents ont quitté
à peine une centaine de personnes sur le pavé parisien avec des pancartes «France 1944, Iran 2026 »comme si les frappes américaines et israéliennes étaient un débarquement de libération, comme si les B-52 c'était De Gaulle, comme si raser les infrastructures d'un pays de 90 millions d'habitants c'était la même chose que libérer la France du nazisme, le niveau de déconnexion est clinique
et BFM couvre ça comme un événement politique sérieux mdr à peine 100 personnes même pas de quoi remplir un starbucks et c'est en bandeau sur la première chaîne info de France, pendant ce temps des millions d'iraniens sous les bombes n'ont aucun micro tendu, aucune caméra braquée, aucun journaliste pour leur demander ce qu'ils pensent du fait qu'on bombarde leur pays pour les soi disant libérer
c'est le même playbook que Guaidó au Venezuela, tu prends un héritier exilé sans aucune base populaire dans son propre pays, tu le promènes sur les plateaux occidentaux, tu lui donnes un micro et une légitimité fabriquée et tu espères que ça suffira à justifier un changement de régime piloté depuis l'extérieur, ça n'a jamais marché nulle part et ça ne marchera pas en Iran
🚨 J’en ai lu des articles mais celui de Citrini c’est quelque chose ! Imaginez une économie où tout semble aller parfaitement avec productivité en hausse, profits record, innovation, et pourtant quelque chose se casse en profondeur. Si l’IA rend l’intelligence abondante alors elle détruit ce qui faisait la rareté du travail qualifié. Si on touche à ça, on touche au cœur du système économique.
1️⃣ Au début, tout paraît positif : les entreprises remplacent une partie des salariés par des agents IA, les coûts baissent, les marges montent, les résultats dépassent les attentes, le marché applaudit, et l’argent économisé est réinvesti dans encore plus d’IA ce qui renforce le mouvement. Mais le marché oublie que l’économie ne repose pas seulement sur la production, elle repose sur la circulation du revenu. Sauf qu’une machine ne consomme pas donc on peut pas produire plus sans que cet output ne revienne dans l’économie via la consommation. C’est ce que Citrini appelle le “Ghost GDP”, un PIB qui existe dans les chiffres mais qui ne se diffuse plus dans la vraie économie. Un peu ce qu’on voit aujourd’hui aux Etats-Unis d’ailleurs.
2️⃣ À partir de là, une boucle se met en place. L’IA devient meilleure donc les entreprises réduisent les effectifs, les revenus baissent, la consommation ralentit, les marges sont sous pression et les entreprises investissent encore plus dans l’IA pour compenser. Contrairement à une récession classique, il n’y a pas de mécanisme naturel de stabilisation parce que le moteur du choc (l’IA) continue de s’améliorer chaque trimestre.
3️⃣ Ce choc ne reste pas cantonné à la tech et se diffuse. D’abord dans le software car si on peut recréer un produit avec l’IA, le pricing power disparaît. Ensuite dans toute l’intermédiation (plateformes, abonnements, comparateurs) où tous ces modèles reposaient sur la friction humaine (temps, fatigue, inertie). Les agents la suppriment, et quand la friction disparaît, les marges aussi.
3️⃣ Les pertes d’emplois touchent surtout les hauts revenus qui représentent une énorme part de la consommation donc même une baisse limitée de l’emploi peut provoquer un choc massif sur la demande. Les ménages continuent de dépenser quelques mois avant de couper brutalement et c’est là que les données macro rattrapent la réalité.
4️⃣ Ensuite, la finance commence à trembler. Le private credit, dont je vous ai déjà parlé, très exposé à des modèles tech supposés croître indéfiniment, voit ses hypothèses remises en cause. La punchline est très 2008 : ce n’est pas la perte qui tue, c’est le moment où tout le monde réalise en même temps qu’elle existe… et qu’on ne sait pas exactement où elle est logée.
⚠️ Le point le plus critique de l’article est le crédit immobilier car tout le système repose sur une idée implicite que les revenus sont stables dans le temps. Si cette hypothèse saute, même les emprunteurs premium deviennent fragiles, non pas parce qu’ils étaient risqués au départ, mais parce que le monde a changé après.
💸 L’article est puissant parce qu’il indique que le marché price aujourd’hui les gains de productivité liés à l’IA mais pas forcément leurs conséquences sur la demande. Sauf qu’une économie n’est pas que produire plus, c’est aussi faire circuler la valeur. Si cette circulation se grippe, on peut avoir une situation très paradoxale avec des entreprises ultra performantes individuellement mais un système global qui devient instable.
🤔 Mon avis sur le scénario ? Il est très plausible même si c’est assez extrême et c’est probablement pour cela qu’il est devenu aussi viral. Certaines briques sont déjà visibles aujourd’hui : pression sur certains modèles SaaS, fragilisation des intermédiaires, concentration de la valeur, économie en K, et premières questions sur la qualité réelle de la croissance générée par l’IA.
Le vrai risque de l’IA n’est pas qu’elle détruise la production mais plutôt qu’elle casse la distribution des revenus qui permet à l’économie de tourner. Bref, c’est à lire !
@Dark_Emi_@ALeaument Tu détestes tellement ça que tunpasses ton temps à le dénoncer. Ah non pas besoin ca n'existe quasi plus et le peux qui sont la dedans sont des mecs tres polis avec toi.
@Dark_Emi_@nobanfr La logique du libéral maxi en herbe imparable :
* Libéral qui foire ? Socialiste déguisé.
* Socialo qui foire ? Socialo.
* Libéral qui cartonne ? Vive le libéralisme !
* Socialo qui cartonne ? Impossible, complot gauchiste.
Macron c'est le Che en costard 🧠😁
▫️Je vous fais gagner 30 min de galère pour recréer ce graphique.
🔥Perso, j’utilise TOUJOURS cette configuration pour reperer les vrais coin forts / faibles pendant les pullbacks…
Ca m'a souvent permis de reperer des opportunité en un coup d'oeil.
Vous voulez le template ?
Like + RT + commente « Spaghetti » ci-dessous.
j’avais mis cette annonce MAJEURE dans mes signets pour pouvoir vous en parler lorsque j’aurais analysé en profondeur la doc technique & je peux donc vous en parler maintenant
très clairement Liquid AI vient de changer les règles du jeu avec LFM2.5-1.2B-Thinking, en gros c’est un modèle de raisonnement qui tient dans 900 MB & qui peut tourner entièrement sur votre téléphone sans datacenter & sans abonnement cloud
pour contextualiser de façon simple m: dites vous que ce qui nécessitait des serveurs entiers il y a 2 ans fonctionne maintenant localement sur n’importe quel smartphone avec des performances qui écrasent des modèles 3x plus gros
on parle par ex de 88% de réussite sur MATH-500 (que je connais très bien pour le coup) & des problèmes de maths niveau olympiades tout en générant 40% moins de tokens que la concurrence
ça veut dire moins de latence, moins de consommation énergétique & une réactivité impossible à atteindre avec des API cloud
Concrètement vous devez vous demander qu’est ce que cela débloque ??
Imaginez juste des assistants médicaux embarqués sur les appareils des médecins qui analysent des scanners, raisonnent sur des diagnostics différentiels & proposent des protocoles sans jamais envoyer de données sensibles dans le cloud et oui!
aussi des drones agricoles qui détectent les pathologies végétales & ajustent leurs trajectoires en temps réel sans latence
on pourrait aussi façonner des robots industriels qui diagnostiquent leurs propres pannes & génèrent des plans d’action sans dépendre d’une connexion 5G instable
pour creuser un peu + on pourrait même aller sur des applications éducatives qui tournent offline dans des régions reculées du monde) sans infrastructure réseau mais capables de décomposer des problèmes de physique ou de chimie avec la même rigueur qu’un tuteur humain
pour rentrer un peu + dans les modalités techniques, sachez que je trouve l’architecture tech vraiment brutale d’efficacité puisqu’au lieu de transformer purs qui consomment massivement en mémoire, liquid AI utilise des liquid convolutions hybrides (désolé pour le terme technique un peu barbare) qui réduisent drastiquement l’empreinte computationnelle tout en maintenant des capacités de raisonnement explicite
en gros le modèle génère des sortes de traces de pensée internes avant de produire sa réponse finale exactement comme un humain décompose un problème complexe étape par étape & là techniquement ils ont résolu le doom loop catastrophique (répétitions infinies) qui tuait les petits modèles en réduisant leur fréquence de 15,74% à 0,36% (je vous laisse faire vos propres recherches, mon contenu sert aussi à éveiller votre curiosité ;) )
pour info c’est déjà disponible en formats GGUF, ONNX, MLX, compatible AMD & Qualcomm NPUs & déployable à travers llama et HF 🤗
enfin vous devez comprendre que l’edge AI n’est plus un compromis entre performance & portabilité & je crois que ça va même être le standard puisque je parie que les applications vont exploser dans les 12 prochains mois
et petit kicker énergétique: l’inférence locale consomme jusqu’à 90% moins d’énergie que des requêtes cloud équivalentes en éliminant les transferts réseau & les datacenters surdimensionnés, à l’échelle mettez vous en tête que ça devient une révolution environnementale autant que technique
Je m'associe à l'initiative de @mickaelchallet et @Doeurf
https://t.co/KK3aF2KStj
Dimitri est un SEO brillant et un garçon généreux.
A la fin d'un event, vous ne le trouverez pas au cocktail, mais dehors à proposer les repas non consommés aux sans-abris ou dans les salles pour tout ranger.
Toutes les aides qu'il pourra recevoir dans ce moment difficile sont les bienvenues.