@rben_ll m'a contacté en privé suite à ce post pour détailler un peu plus et je pense que ça peut en intéresser certains.
En gros, il faut repartir des fournisseurs de modèles pour comprendre l'économie de l'IA. Globalement, ils ont deux cas d'usage: l'inférence et l'entraînement.
Au niveau structures de coûts, les deux sont similaires. Les labs paient une puce à l'heure pour générer des tokens. Niveau revenus, seul l'inférence rapporte de l'argent, l'entraînement étant simplement de la R&D pour s'assurer d'avoir u modèle compétitif.
DONC l'inférence DOIT payer pour l'entraînement. Aujourd'hui, on est entre 35 à 50% des coûts qui partent en entraînement et 50 à 65% en inférence.
Comme expliqué, les labs IA louent des puces à des fournisseurs cloud. Mais pour calculer le seuil de rentabilité, il faut regarder le Total Cost of Ownership (TCO) de la puce et le diviser par le nombre de tokens que l'on peut générer sur une durée déterminée. Tout ça donne globalement le coût par token.
Bien évidemment, pour le fournisseur de cloud, il va prendre le TCO et va rajouter sa propre marge, mais globalement, ça ne va pas changer l'ordre de grandeur.
Là où je veux en venir, c'est qu'à chaque nouvelle génération de puces, si on fait x2 sur le TCO mais x10 sur la quantité de tokens générés, alors logiquement, le coût par token est divisé par 5.
Alors bien évidemment, ça ne prend en compte aucune augmentation de marges de la part du fournisseur de modèle ni de la part du cloud provider, ce qui est fortement improbable dans le cas actuel.
Actuellement, on fait globalement x2 à x2,5 sur le TCO des puces tous les 2 ans, mais on fait x10 à x35 minimum sur le nombre de tokens générés.
Cependant, on est dans une telle pénurie de puissance de calcul que les cloud provider peuvent pricer à peu près ce qu'ils veulent qu'il y aura de la demande, et il en est de même pour les fournisseurs de modèles.
Aujourd'hui, les hyperscalers font des marges absurdes sur les GPUs et c'est pour ça qu'ils en veulent toujours plus. Maintenant, cette situation est bien entendu temporaire et risque de ne pas durer.
De plus, avec cet écart d'ordre de grandeur entre l'augmentation du TCO et l'augmentation du nombre de tokens générés, il y a fort à parier que le coût du token baisse graduellement dans les années à venir.
Et ça c'est sans parler de l'optimisation logicielle, ou de l'usages de modèles moins gourmands. Pareil sur la concurrence qui va finir par forcer les fournisseurs de modèles à baisser leurs prix pour rester compétitifs.
Seulement 22 licornes en 🇫🇷... mais 46 licornes aux 🇺🇸 fondées par des entrepreneurs venus de France.
On peut continuer la politique de la terre brûlée pour que ça devienne encore plus insignifiant.
Je sais reconnaître un bâton de mage qui inflige des dégâts de glace, une restauration de mana et 50% de chance de coups critiques 😁
#NotreDameDeParis#RetrouvonsNotreDame
Waymo a reconnu leur erreur et nous a assuré que ces accidents seront pris en compte. Même avec ces 4 accidents supplémentaires, le constant est sans appel : après 34M de km, les véhicules autonomes Waymo ont un taux d'accidents avec blessés inférieur de 2/3 à celui des humains.
My hot take is people don’t mind offices, they hate commuting though
If everyone was able to live a comfortable life within a 15min walk/train/drive to their office they would probably go in more
But this is reserved for the upper management and leadership that can afford to live near work
N'oublions pas l'incroyable V954 !
Oui oui, les médecins doivent coder (passer un temps inutile) les pathologies en devant trier parmi des milliers et des milliers d'items tous plus crétins que les autres. C'est chronophage.
Et pendant ce temps, les patients attendent.