Con esto por una sub de 70€/$75 tienes:
- Tokens infinitos con 2 LLMs (Qwen y Gemma), 1 embedding, 1 TTS y 1 STT
- 1 Space (piensa en una especie de VPS) de 2 vCPU, 4GB de RAM y 20 GB de disco para desplegar tus apps en contenedores
- Un agente Hermes en su propia microVM en la plataforma
- 100M de Tokens para Deep Seek V4 Flash al mes. De Momento 😏.
- Y acceso a la mejor comunidad de gente construyendo y compartiendo su conocimiento y herramientas en Discord.
Esta feo que yo lo diga pero que cosa loca hemos construido gente 🔥
ahora que han pasado unos días desde la "presentación" de Mythos y os habéis calmado, vamos a revisar que es lo que ha pasado exactamente.
Anthropic saca Mythos, su nuevo modelo. Ahora ya si que si, AGI. Esta vez si que si de verdad de la buena. Los devs desaparecerán en 6 meses. 99999999% en SWE Benchmark Ultra Hyper Difficult. Es un cuatrillón de veces mas mejor que Slopus 4.6. Novecientos ochenta y cuatro gaziliones de parámetros. Ha encontrado vulnerabilidades en todos los proyectos. Dario está tan aterrorizado que ha decidido no sacar el modelo al público (de momento). Efectivamente, es game over. dep en rip en paz, el shur de forocoches tenían razón.
¿O no?
Vamos por partes.
"Es que este modelo es tan brutal que no lo vamos a sacar al público porque va a colapsar el mundo".
Durísimas declaraciones. Ya las hemos escuchado antes. Mas de una vez.
En su momento Dario era el vicepresidente de investigación en OpenAI. Y ya hacía las mismas afirmaciones allá por el 2019. Literalmente. OpenIA dijo exactamente lo mismo, palabra por palabra, para GPT-2.
https://t.co/US79iN6rHC
Hay que entender la situación general para saber el por que de estas declaraciones. A lo mejor habéis leído algo de que Anthropic factura unos cuantos billones.
Son cifras "anualizadas".
¿Que significa anualizadas?
Significa que han cogido el periodo mas bonito en términos fiscales (ej el mes que mas facturación tenían porque han cerrado varios contratos muy grandes) y han multiplicado por 12.
Ta-ta-ta-chaaaaaaaannnnnn...
Pero en el mundo real, si yo tengo 10 clientes y les facturo 1000€ anualmente, y da la casualidad de que a todos les facturo en Enero, eso no significa que mi facturación anual va a ser 1000€ * 10 * 12.
Pos ea. Un truqui que habéis aprendido. Pero volvamos al tema.
Anthropic necesita dinero. Mucho dinero. Muchisimo. No os hacéis una idea del pozo en el que están metidos (ellos, OpenIA y todos los demás jugadores). Necesitan tanto dinero que literalmente la economía yanki (y por extensión, la del resto del mundo) está aguantando la respiración para ver que ocurre, porque como esto pete lo del 2008 va a ser una tarde de relaxing cup of café con leche en la plaza Mayor.
¿Y que hace cualquier empresa grande que necesita dinero y que ya va por la ronda G de financiación y el stock está mas diluido de unas gotas homeopáticas?
Una IPO. Pronto. A finales de este año, por ejemplo.
Pero para la IPO necesitan crear expectativas. Necesitan hypear a la gente. Necesitan que se hable de Anthropic.
No lo estoy explicando bien. Lo intento de nuevo.
Dario tiene el *deber fiduciario* (responsabilidad legal) de hacer absolutamente todo lo posible para que la IPO salga de tal manera para maximizar el beneficio económico de los inversores. Y obviamente si a pocos meses de la IPO sacan un modelo que es el game over de todo y para todo, pues... stock go brrrr, expectativas go brrr, IPO go brrrr, Dario go brrrr.
Ahora que entendemos la motivación legal y económica de Dario, vamos a analizar el anuncio en sí.
https://t.co/crshws1eKJ
> el modelo es tan avanzado que encuentra vulnerabilidades en todos los proyectos a los que se le ha dado acceso: ffmpeg, firefox, openbsd, el kernel de linux
> y por esa misma razón, prefieren guardarlo bajo llave de momento y darle acceso solo a unas cuantas empresas (que, asumo, lo usarán para buscar vulnerabilidades en sus propios productos y parchearlos)
Nice. Very nice. Impressive.
"Veamos ahora con los modelos que ya tenemos!"
Llega AISLE, una empresa que se dedica a la cyberseguridad, y empieza a hacer preguntas. ¿pero este ejercicio cuanto ha costado? ¿se puede replicar? ¿se puede replicar con otros modelos? ¿cual es la severidad real de esas vulnerabilidades?
https://t.co/pa0N490Qoa
Oh boy... se va a liar...
Pues resulta que de los 8 modelos que probaron, 8 pudieron detectar el mismo fallo que Mythos detectó en openbsd.
Ídem con otro fallo de nfs en freebsd.
AISLE no refuta que Mythos no sea bueno, que lo es. Lo que refutan es que presente un peligro como el que Anthropic intenta hacer entender. Es decir, AISLE demuestra que lo que Anthropic afirma de Mythos ("puede buscar y encontrar vulnerabilidades en proyectos") ya lo hacen otros modelos. Y lo hacen igual de bien.
También es cierto que AISLE es una empresa que se dedica a buscar vulnerabilidades con su sistema de IA. Podríamos argumentar que está en su interés desacreditar las afirmaciones de Anthropic.
Vamos a ver que opinan otras personas.
Yann LeCun (vicepresidente y científico jefe de IA en Meta): "el drama de Mythos son tonteías producto del autoengaño"
https://t.co/qlazOsMDnf
Dawid Moczadlo (cto de vidoc security): "llevamos meses encontrando vulnerabilidades en el kernel de linux usando otros modelos. Puede que Mythos sea mejor (que los modelos actuales), pero no es ni de lejos la amenaza que Anthropic hace creer"
https://t.co/hZ1voRRl8y
George Hotz ("geohot", hacker, famoso por sus jailbreaks de ios y ps3, founder de tinygrad): "encontrar 0days no es tan difícil. No aparecen 0days todos los días porque nadie quiere mirar. Encontrar fallos en el código de mierda de la gente (y lucrarse por ello) es ilegal y los criminales no suelen tener mucha habilidad; de tenerla, no serían criminales"
https://t.co/0E0Y7zcTMT
Y aquí voy a permitirme hacer un +1 de geohot. Encontrar 0days no es tan difícil. Yo he encontrado unos cuantos (chungos de cojones; https://t.co/EmWvmL9KsN) y la ciberseguridad no es ni de lejos mi área principal. El problema es que encontrar vulnerabilidades no solo no es lucrativo, sino que en España es ilegal (https://t.co/ky6N50ZZYh) y corres el riesgo de meterte en un buen marrón incluso aunque tus intenciones sean buenas. Obviamente si tus intenciones son lucrarte vendiendo 0days, olvídate de hacerlo legalmente.
Y este es el punto de Geohot. No salen 0days todos los días porque nadie tiene el incentivo de buscarlos, no porque realmente sean tan difíciles de encontrar.
Anyways, que nos desviamos del tema.
¿A donde quiero llegar con todo esto? ¿Que significan todas estas cosas?
Significan que no os lancéis a la primera afirmación que suelta alguien. Y menos en este campo en particular, en estos últimos 3-4 años. Es muy probable que os estéis comiendo una (otra más) bola de hype. Hay muchísimos intereses ocultos (y no tan ocultos) y hay muchísimas maneras de decir las verdades a medias para pintar escenarios que dan a entender cosas que no son.
¿Pero todo esto quiere decir que Mythos no va a ser bueno? Obviamente no. Mythos será mejor que Opus (o eso espero, vaya). Pero Mythos no va a ser el fin de los tiempos. No se va a acabar el mundo.
Resumiendo, solo os pido que no caigáis (una vez más) en el "ahora ya si que si".
We've been tricked, again. Many of the thousands of bugs and vulnerabilities Mythos found are in older software are impossible to exploit. And the severe zero-day reports rely on just 198 manual reviews https://t.co/WhDRhTtCX2
Code Review optimizes for depth and may be more expensive than other solutions, like our open source GitHub Action.
Reviews generally average $15–25, billed on token usage, and they scale based on PR complexity.
Si la IA te sustituye, es porque solo sabías programar.
En cambio, si la IA te ayuda y potencia tu trabajo... es porque sabías pensar.
Recuerdo los primeros proyectos en los que empecé a usar IA para generar código.
Al principio, era tentador dejar que hiciera casi casi todas las funciones, clases... incluso algunas veces estructuras enteras (spoiler: no salió bien).
Pero tengo que admitir que algunos resultados eran perfectos… hasta que me di cuenta de algo:
Si solo sabes escribir código, la IA hace tu trabajo mejor que tú.
Pero si sabes entender el problema, tomar decisiones y priorizar qué importa, entonces la IA se convierte en tu mejor herramienta.
No se trata de competir con la máquina.
Se trata de usar tu cabeza para decidir qué pedirle y cómo usarlo.
Y ahí es donde el verdadero valor de un programador sigue intacto.
Mi hijo, que no es programador. Maneja Claude Code mejor que el 90% de los programadores que conozco.
Tiene un mindset abierto, no negacionista, pero al mismo tiempo realista.
Sabe que hace y que no hace, sabe como darle ordenes. Con sólo 2 semanas de uso =>
Thanks for the thought-provoking piece.
My main critique is that you are overemphasizing flashy but low probability events like “left-handed bacteria,” while merely giving lip service to the risk of extreme economic concentration of power, which is very real and materializing as we speak.
Anthropic is reportedly raising funds at a $350B valuation, and the wealth created thus far has been concentrated into a few hundred (perhaps more like dozens) high net worth individuals / institutions. It’s looking increasingly likely to me that none of the leading AI labs will IPO until they reach valuations in the trillions, at which point retail investors will finally be able to get shares. In order for retail to get a 100x return on these investments, which was achievable for Apple, Microsoft, Amazon, and Google, the valuations of the AI labs will need to reach hundreds of trillions of dollars, meaning it’s likely too late for a more equitable redistribution of wealth.
Simply put, you are currently exacerbating the problem. The consequences of this are that voters may take matters into their own hands and push for either or both 1) more aggressive / nonsensical forms of redistribution — the CA Founders’ Tax is just the beginning or 2) a drastic knee-capping of the AI industry in America, which make the CCP dominance scenario more likely.
The solution is to enable retail ownership now, increasing the number of Americans with economic exposure to Anthropic and other AI labs from hundreds of people to millions.
Software is oversold aka no one is vibe coding their payroll, notes:
- Coding agents are a tremendous tool for extending the ambition of a company / product / business unit - why would you use your precious time rewriting SAAS?
- The math doesn’t work - typically no more than 8-12% of enterprise spend is on software so even dramatic cost savings through replacement might result in a 3-5% net impact
- Risk aperture of critical systems is enormous - these software products capture thinking as much as execution - edge cases, runtime behavior and tribal knowledge that cannot not be fully inferred by models
- Not to mention the non software switching cost - how many humans interface with these systems + how much other software is intertwined
- Finally Mag7 / the most sophisticated software companies in the world still spend an enormous amount on 3P software
shoutout to @saumil and @obsidiancap1 who got it right
"Software Engineering Will Be Automatable in 12 Months,"
Anthropic CEO Dario Amodei predicts that AI models will be able to do 'most, maybe all' of what software engineers do end-to-end within 6 to 12 months, shifting engineers to editors.
i feel like heavily vibe coded apps have a specific feel to them
it's that really small stuff is always half breaking
it's not that things stop working you just start seeing bizarre behavior - like you open a dropdown and the 4th item is selected always
i think this happens because "boring" stuff tends to be less reviewed
and LLMs love to brute force their way into overly complex solutions that technically work
this kind of thing is brittle so behavior changes accidentally when a seemingly unrelated change is made
no te preocupes, javi, yo te lo explico con marionetas.
si la facturación de tu empresa escala de manera lineal con el gasto que hace, tu negocio es un pozo no rentable
consulta con gepeto para detalles, que no me apetece escribir
i’ve never been more inspired to become a better SWE
i spend about ~45 mins a day coding with zero AI tools, learning documentation, browsing libraries
benefits:
> time to execution dropped by half, i have a sharper sense of what needs to get done, how it will look, and therefore get it done faster
> less time debugging, AI’s make more mistakes than you realize if you don’t know what it’s actually writing. i stopped treating it like a black box
> culturally inspired to contribute back to OSS. the amount of public libraries that hold up our world is fucking insane. contributions actually make the world a better place. still finding the repo that i feel alignment with
i “learned” to code in college about ~3 years ago, and until NOW do i feel like i’m actually getting started