Dynamic workflows 4.8 : 1000 subagents max par tâche. 16 concurrent.
Pas de premium pricing. Mais 1000 sous-agents à $25/M output tokens, tu sens passer.
Demande au model d'estimer le token budget avant. Toujours.
Meta a installé un keylogger sur ses employés US pour entraîner son IA.
Souris, clics, screenshots, VS Code, Gmail.
Les EU sont exemptés (RGPD).
Audio leaké le 20 mai. Même jour : 8000 licenciements.
Tu n'utilises pas Meta AI. Tu es Meta AI.
Le truc le plus malin dans le moteur ds4 d'antirez, ce n'est pas la quantization.
C'est le KV cache persisté sur disque.
Hash SHA-1 de la session, sauvegardé, rechargé instantanément.
Tu redémarres, tu reprends ta session : zéro recompute du prefill.
2/2 Le réflexe : mets Respond to Webhook juste après le trigger. 200 immédiat. Le boulot lourd vient après.
Mieux : un Execute Workflow pour déléguer à un second workflow.
Réponds vite, bosse après.
1/2 Ton workflow répond trop tard. C'est pour ça qu'il tourne deux fois.
Slack coupe à 3 secondes. Beaucoup de providers rejouent si tu ne réponds pas vite.
2/2 Sa seule fonction restante : caler le format.
Arrête de noyer ton prompt sous 5 exemples détaillés.
Un seul, bien tagué, qui montre la forme de sortie attendue. C'est tout ce qu'il fait désormais.
1/2 Tes exemples few-shot ne rendent plus Claude plus intelligent.
Avant : 3 exemples résolus collés, le raisonnement s'améliorait.
Aujourd'hui les modèles raisonnent avant de répondre. Le few-shot chain-of-thought n'ajoute plus de QI.
2/2 La 5090 reste 2,6 à 3,4x plus rapide en prompt processing.
Mais en génération, l'écart tombe à ~1,5x.
Au-delà de 40 tok/s, personne ne sent la différence en chat.
1/2 Tu crois que sans CUDA tu es coincé. Faux.
Une AMD R9700 sous llama.cpp backend Vulkan, flash attention activé : 183 tokens/s en décodage sur un MoE.
86% de la limite théorique de bande passante.
2/2 Le constat : personne ne veut une réponse fausse en 10 secondes. Tout le monde attend 60 secondes pour une bonne.
La latence n'est pas le vrai produit. La justesse, si.
1/2 En mars, Anthropic passe Claude Code en effort medium par défaut. Plus rapide, à peine moins intelligent sur leurs évals internes.
Les users détestent. Reverti en avril, retour à xhigh.
2/2 La donnée revient après le wait et écrase l'input initial du parent.
Ça améliore le HITL. Mais les patterns bâtis sur l'ancien comportement cassent sans crier.
Avant d'upgrader : teste tes subworkflows à approbation en staging.
1/2 Le piège le plus silencieux de n8n 2.0.
Avant, un subworkflow avec send-and-wait ou approbation humaine ne renvoyait pas toujours ses données au parent.
Maintenant si.
Question aux gens qui tournent en local.
Pas la config de rêve. Le réglage qui t'a réellement débloqué.
Le flag obscur, la valeur de num_ctx, le quant précis, l'ordre des couches offloadées.
Le truc que tu refais sur chaque setup maintenant.
C'est quoi ?
2/2 Erreurs récurrentes, workflows convergents, préférences partagées en équipe. Des trucs qu'un agent seul ne voit pas.
L'agent s'améliore entre deux runs, sans toi.
Confort, ou angle mort sécurité ?
1/2 Les agents Claude rêvent. Pas une métaphore.
Anthropic a sorti "dreaming" : un process qui tourne en fond, relit les sessions passées, extrait les patterns, curate la mémoire.
2/2 Les clients paient quand le workflow touche à l'argent : leads, renouvellements, SLA support.
Pas quand c'est "cool".
Tu vends quoi : le workflow, ou le cash que tu rends ?
1/2 Un mec a fait 25 000$/mois en 4 mois avec n8n.
Pas en vendant "de l'automation". En vendant des résultats.
Le pattern qui revient : formulaire, CRM, SMS. Facturé 1 200$ une fois, puis 149$/mois de monitoring.
2/2 À 1M tokens/jour, le break-even contre une API low-cost se compte en années.
À 30M/jour, le local devient nettement moins cher.
Le local gagne sur la confidentialité bien avant de gagner sur le prix.
1/2 "Le local c'est moins cher que l'API."
Ça dépend entièrement de ton volume.
RTX 5090, 450W, 8h/jour : ~190$ d'élec par an. Plus 2000$ de carte à amortir.