vLLM 0.24.0 est sorti. Pour ceux qui font tourner un DGX Spark GB10 au quotidien, quelques commits interessants.
Le premier concerne directement l’architecture UMA du GB10. Le #45179 libère la mémoire device en cache sous pression sur les GPU à mémoire unifiée. En pratique, ça règle partiellement le problème que beaucoup connaissent sur Spark : les services embedding poussés en swap au démarrage de vLLM parce que la RAM partagée CPU/GPU est déjà occupée. Plus besoin de jongler avec l’ordre de démarrage des services ou de vider le page cache à la main avant chaque lancement (je vais continuer à le faire).
Côté NVFP4, deux commits qui peuvent me permettre de faire mes tests sur Qwen3.6 sur SM12.1 dans de meilleures conditions. Le #46492 autorise flashinfer_cutlass comme backend MoE NVFP4 sur les GPU non-Blackwell avec clamping, et le #45836 câble le SwiGLU clamp pour les mêmes cibles. Jusqu’ici, SM12.1 tombait systématiquement sur le fallback Marlin SM80 pour ce type de charge. Ça vaut le test.
DFlash revient dans MRv2 avec le #44586 et des cibles Qwen3Next spécifiques via le #45319. Le speculative decoding DFlash avait des problèmes de stabilité sur plusieurs de nos configs. La situation a peut-être évolué.
Sur Gemma 4, le #42175 unifie FlashAttention FA4 sur toutes les couches avec support mm_prefix. Les configs 12B et 31B devraient en tirer quelque chose de mesurable, d’autant que la série de fixes parser qui l’accompagne (#45795, #45852, #45588) règle des comportements erratiques en streaming.
Un petit détail pratique enfin : VLLM_TRITON_FORCE_FIRST_CONFIG via le #42425 coupe l’autotuning Triton au démarrage. Sur GB10, cet autotuning prend du temps et n’aboutit pas toujours à une meilleure config qu’au premier essai. Un flag de plus pour les scripts de prod.
Le rebase vers 0.24.0 vaut la peine, surtout pour l’UMA et le NVFP4.
https://t.co/046svBVyOS
@gchampeau Comment il se fixe au plafond ? Chevilles à béton ou sur le crochet de luminaire souvent en position ? J’hésite à cause des poutres précontraintes en béton armé qui passent là. Et juste un petit crochet posé à la construction de la maison je dirais (100 ans qu’elle a déjà 😅)
Ce qui se relie
J'ai demandé à Hygur tout ce qu'il savait sur un dossier. Il m'en a rendu une partie. Le reste, pourtant là, n'est pas venu.
Trois documents sont remontés. Le quatrième, celui qui comptait, est resté dans l'ombre. Non qu'il ait disparu : il ne nommait pas la chose comme les autres. Là où les premiers disaient « Helio », lui disait « helio[.]io ». Ou juste « le dossier ».
En cherchant pourquoi, je suis retombé sur la même mécanique que la fois précédente. Un moteur de recherche classe par ressemblance. Il découpe mes documents, les transforme en vecteurs, me rend ce qui ressemble le plus à ma question. Utile, mais il confond deux choses : ce qui ressemble à ma question, et ce qui parle de ce dont je parle. S'il avait retrouvé le quatrième document, c'était par chance. Il n'a jamais su que c'était le même Helio.
J'ai essayé de réparer à la main. Rapprocher les noms qui s'écrivent pareil ? « Helio » et « helio[.]io » ne s'écrivent pas pareil. Lister les variantes une à une ? Il en arrive une nouvelle chaque mois. Encore une règle qui tenait un cas et en lâchait dix.
Alors j'ai cherché ailleurs. Et là encore, la bonne réponse, je l'ai puisée dans notre humanité plutôt qu'inventée. Notre mémoire ne fouille pas par mot-clé : un nom suffit à rallumer tout un réseau comme une réunion, une facture, une phrase entendue des mois plus tôt. On, en tant qu'humain, retrouve par association, et ce qui remonte n'a presque jamais employé les mêmes mots.
Hygur s'y prend pareil désormais, et dès l'entrée. Quand un message arrive, il ne se contente pas de le ranger pour le relire un jour. Il en extrait les faits (qui, quoi, quelle valeur) et les classe sous l'entité concernée. Puis il reconnaît cette entité sous ses déguisements : « Helio », « Helio SAS », « helio[.]io », « le dossier Helio », quatre surfaces pour une seule chose, rapprochées par la distance de sens et non par l'orthographe. Le fil se reconstitue. La facture, la note, le contrat reviennent ensemble, parce qu'ils partagent un sujet, pas une tournure.
J'aurais pu tout relier à tout, bâtir un graphe immense. Sur une mémoire personnelle, c'est du bruit. Un seul pas suffit : un nom, et ce qu'il touche revient.
Le détail qui m'amuse, comme la dernière fois : la machine n'a aucune intuition. Elle sait seulement mesurer la distance entre deux textes. Et c'est ce calcul froid, jamais deviné, qui rétablit le geste le plus banal de la mémoire : reconnaître la même chose sous deux noms. Le modèle, lui, ne fait que les mots.
C'est le deuxième trait de cette psyché. Après ce qui fait foi, ce qui se relie. Le même parti pris chaque fois : refaire une fonction de la mémoire en calcul vérifiable, et garder le modèle de langage pour ce qu'il sait faire, lire et formuler. L'algorithme se souvient. Le modèle parle.
Retrouver ce qui ressemble, c'est chercher. Retrouver ce qui se relie, c'est se souvenir.
https://t.co/FShsSeREMb
@Alex_Car12 Même r��flexe. Peut-être avoir un side programme qui surveille pour écrire le journal du contexte au fur et à mesure et sait l'injecter avec un compaction quand c'est pertinent ?
J’avais des réserves sur les versions précédentes de GLM. Le passage à 1M tokens ne les lève pas toutes.
https://t.co/YJVkgvWEMf parle d’un contexte « solide » grâce à IndexShare (qui réduit fortement les coûts de calcul). L’idée : des agents qui peuvent vraiment bosser sur des projets complets pendant des heures sans tout résumer en boucle.
Mais est-ce que ça tient dans la pratique ? Thread 👇
Quel est votre plus gros blocage aujourd’hui avec les contextes longs (perte de cohérence, compaction trop fréquente, coût…) ?
Vous avez déjà testé GLM-5.2 ou d’autres modèles 1M+ en conditions réelles ?
Lien : https://t.co/ibulmQY7VF
#GLM52#AICoding#OpenSourceAI#AgenticAI
Si vous explorez l’inférence locale sur ces modèles, les retours concrets sur le hardware, l’optimisation et la stabilité longue durée sont encore assez rares.
Pour ceux qui veulent y voir plus clair avant d’investir dans une infra, une étude ciblée des performances réelles peut éviter pas mal de mauvaises surprises.
Ce qui fait foi
Hygur retrouve dans mes mails, mes notes, mes documents ce que je lui demande. Un jour, il m'a rendu une conviction qui n'était pas la mienne.
Un interlocuteur m'avait écrit, des mois plus tôt, qu'il partait sur telle option. J'interroge Hygur sur le sujet, et il me répond comme si c'était moi qui l'avais tranché. Il ne se trompait pas sur les mots. Il se trompait sur à qui ils appartenaient.
En cherchant d'où venait l'erreur, je suis tombé sur une mécanique gênante. Un moteur de recherche classe par ressemblance. Le passage qui colle le mieux à ma question gagne, peu importe qui l'a écrit, peu importe s'il est encore vrai. Pour lui, ma décision ferme et la phrase en l'air d'un tiers se valent. Alors il les fond dans une seule réponse.
J'ai essayé de régler ça à la main. Donner la priorité au plus récent ? Un mail frais d'un inconnu passe devant ma décision d'il y a un an. Au plus fréquent ? Le plus insistant devient une autorité. Chaque règle réparait un cas et en cassait dix.
Alors j'ai cherché ailleurs. Et là encore, la bonne réponse, je l'ai reconnue plutôt qu'inventée.
Notre mémoire ne pèse jamais tous nos souvenirs à égalité. Nous savons, sans y penser, ce qu'on a décidé et ce qu'on nous a seulement dit ; ce qui tient encore et ce que nous avons changé depuis. Le ouï-dire ne passe pas devant notre parole. Nous n'avons pas qu'un souvenir : Nous avons une hiérarchie de ce qui fait foi.
Le détail qui m'amuse, comme la dernière fois : Hygur n'a aucune intuition sociale. C'est une machine, l'algorithme, qui sait seulement mesurer la distance entre deux textes. Et c'est elle qui, pour répondre juste, rétablit le réflexe le plus humain qui soit : savoir de qui est la parole.
Avant de répondre, elle étiquette désormais chaque source par son statut : la décision, un avis extérieur, un plan dépassé, un point encore contesté. Et elle refuse de les mélanger. Elle attribue. Le calcul tranche le statut (qui parle, est-ce confirmé, est-ce toujours valable) froidement, jamais deviné. Le modèle, lui, ne fait que la prose.
Avec une nuance que je n'ai pas, moi, en tant qu'humain. Avec le temps, je finis par confondre ce que j'ai lu et ce que j'ai pensé. Hygur garde l'étiquette. Dans deux ans, il saura encore que cette phrase venait d'un autre.
Contrairement au sommeil dont je parlais, cette couche-là tourne déjà dans l'application.
Concevoir une mémoire fiable, ce n'est pas l'aider à tout retenir. C'est lui apprendre à qui appartient chaque chose. Se souvenir de tout sans savoir de qui ça vient, ce n'est pas une mémoire. C'est un écho.
A suivre sur https://t.co/FShsSeREMb 👉
@Ubiquiti Si vous voulez voir le bug. Faut juste basculer d'un réseau à l'autre et la table ne se rafraichit pas. Mais le client récupère une IP dans le bon subnet. Bug graphique uniquement ?