Ya han pasado dos días del vuelo 12 de Starship y con la cantidad de cosas interesantes que han pasado en este lanzamiento toca hacer un hilo analizando todo lo ocurrido.
Espero que lo disfrutéis, pero recordad que hay especulación y no se puede tomar nada por seguro.
🧵
A engenharia russa é brutal e funciona no limite do possível .
O Soyuz é transportado por trilhos e erguido por braços mecânicos gigantes que lembram a era industrial soviética. É o design mais insano da história até a chegada da Spacex.
ahora que han pasado unos días desde la "presentación" de Mythos y os habéis calmado, vamos a revisar que es lo que ha pasado exactamente.
Anthropic saca Mythos, su nuevo modelo. Ahora ya si que si, AGI. Esta vez si que si de verdad de la buena. Los devs desaparecerán en 6 meses. 99999999% en SWE Benchmark Ultra Hyper Difficult. Es un cuatrillón de veces mas mejor que Slopus 4.6. Novecientos ochenta y cuatro gaziliones de parámetros. Ha encontrado vulnerabilidades en todos los proyectos. Dario está tan aterrorizado que ha decidido no sacar el modelo al público (de momento). Efectivamente, es game over. dep en rip en paz, el shur de forocoches tenían razón.
¿O no?
Vamos por partes.
"Es que este modelo es tan brutal que no lo vamos a sacar al público porque va a colapsar el mundo".
Durísimas declaraciones. Ya las hemos escuchado antes. Mas de una vez.
En su momento Dario era el vicepresidente de investigación en OpenAI. Y ya hacía las mismas afirmaciones allá por el 2019. Literalmente. OpenIA dijo exactamente lo mismo, palabra por palabra, para GPT-2.
https://t.co/US79iN6rHC
Hay que entender la situación general para saber el por que de estas declaraciones. A lo mejor habéis leído algo de que Anthropic factura unos cuantos billones.
Son cifras "anualizadas".
¿Que significa anualizadas?
Significa que han cogido el periodo mas bonito en términos fiscales (ej el mes que mas facturación tenían porque han cerrado varios contratos muy grandes) y han multiplicado por 12.
Ta-ta-ta-chaaaaaaaannnnnn...
Pero en el mundo real, si yo tengo 10 clientes y les facturo 1000€ anualmente, y da la casualidad de que a todos les facturo en Enero, eso no significa que mi facturación anual va a ser 1000€ * 10 * 12.
Pos ea. Un truqui que habéis aprendido. Pero volvamos al tema.
Anthropic necesita dinero. Mucho dinero. Muchisimo. No os hacéis una idea del pozo en el que están metidos (ellos, OpenIA y todos los demás jugadores). Necesitan tanto dinero que literalmente la economía yanki (y por extensión, la del resto del mundo) está aguantando la respiración para ver que ocurre, porque como esto pete lo del 2008 va a ser una tarde de relaxing cup of café con leche en la plaza Mayor.
¿Y que hace cualquier empresa grande que necesita dinero y que ya va por la ronda G de financiación y el stock está mas diluido de unas gotas homeopáticas?
Una IPO. Pronto. A finales de este año, por ejemplo.
Pero para la IPO necesitan crear expectativas. Necesitan hypear a la gente. Necesitan que se hable de Anthropic.
No lo estoy explicando bien. Lo intento de nuevo.
Dario tiene el *deber fiduciario* (responsabilidad legal) de hacer absolutamente todo lo posible para que la IPO salga de tal manera para maximizar el beneficio económico de los inversores. Y obviamente si a pocos meses de la IPO sacan un modelo que es el game over de todo y para todo, pues... stock go brrrr, expectativas go brrr, IPO go brrrr, Dario go brrrr.
Ahora que entendemos la motivación legal y económica de Dario, vamos a analizar el anuncio en sí.
https://t.co/crshws1eKJ
> el modelo es tan avanzado que encuentra vulnerabilidades en todos los proyectos a los que se le ha dado acceso: ffmpeg, firefox, openbsd, el kernel de linux
> y por esa misma razón, prefieren guardarlo bajo llave de momento y darle acceso solo a unas cuantas empresas (que, asumo, lo usarán para buscar vulnerabilidades en sus propios productos y parchearlos)
Nice. Very nice. Impressive.
"Veamos ahora con los modelos que ya tenemos!"
Llega AISLE, una empresa que se dedica a la cyberseguridad, y empieza a hacer preguntas. ¿pero este ejercicio cuanto ha costado? ¿se puede replicar? ¿se puede replicar con otros modelos? ¿cual es la severidad real de esas vulnerabilidades?
https://t.co/pa0N490Qoa
Oh boy... se va a liar...
Pues resulta que de los 8 modelos que probaron, 8 pudieron detectar el mismo fallo que Mythos detectó en openbsd.
Ídem con otro fallo de nfs en freebsd.
AISLE no refuta que Mythos no sea bueno, que lo es. Lo que refutan es que presente un peligro como el que Anthropic intenta hacer entender. Es decir, AISLE demuestra que lo que Anthropic afirma de Mythos ("puede buscar y encontrar vulnerabilidades en proyectos") ya lo hacen otros modelos. Y lo hacen igual de bien.
También es cierto que AISLE es una empresa que se dedica a buscar vulnerabilidades con su sistema de IA. Podríamos argumentar que está en su interés desacreditar las afirmaciones de Anthropic.
Vamos a ver que opinan otras personas.
Yann LeCun (vicepresidente y científico jefe de IA en Meta): "el drama de Mythos son tonteías producto del autoengaño"
https://t.co/qlazOsMDnf
Dawid Moczadlo (cto de vidoc security): "llevamos meses encontrando vulnerabilidades en el kernel de linux usando otros modelos. Puede que Mythos sea mejor (que los modelos actuales), pero no es ni de lejos la amenaza que Anthropic hace creer"
https://t.co/hZ1voRRl8y
George Hotz ("geohot", hacker, famoso por sus jailbreaks de ios y ps3, founder de tinygrad): "encontrar 0days no es tan difícil. No aparecen 0days todos los días porque nadie quiere mirar. Encontrar fallos en el código de mierda de la gente (y lucrarse por ello) es ilegal y los criminales no suelen tener mucha habilidad; de tenerla, no serían criminales"
https://t.co/0E0Y7zcTMT
Y aquí voy a permitirme hacer un +1 de geohot. Encontrar 0days no es tan difícil. Yo he encontrado unos cuantos (chungos de cojones; https://t.co/EmWvmL9KsN) y la ciberseguridad no es ni de lejos mi área principal. El problema es que encontrar vulnerabilidades no solo no es lucrativo, sino que en España es ilegal (https://t.co/ky6N50ZZYh) y corres el riesgo de meterte en un buen marrón incluso aunque tus intenciones sean buenas. Obviamente si tus intenciones son lucrarte vendiendo 0days, olvídate de hacerlo legalmente.
Y este es el punto de Geohot. No salen 0days todos los días porque nadie tiene el incentivo de buscarlos, no porque realmente sean tan difíciles de encontrar.
Anyways, que nos desviamos del tema.
¿A donde quiero llegar con todo esto? ¿Que significan todas estas cosas?
Significan que no os lancéis a la primera afirmación que suelta alguien. Y menos en este campo en particular, en estos últimos 3-4 años. Es muy probable que os estéis comiendo una (otra más) bola de hype. Hay muchísimos intereses ocultos (y no tan ocultos) y hay muchísimas maneras de decir las verdades a medias para pintar escenarios que dan a entender cosas que no son.
¿Pero todo esto quiere decir que Mythos no va a ser bueno? Obviamente no. Mythos será mejor que Opus (o eso espero, vaya). Pero Mythos no va a ser el fin de los tiempos. No se va a acabar el mundo.
Resumiendo, solo os pido que no caigáis (una vez más) en el "ahora ya si que si".
La IA está siendo la excusa fácil para aligerar plantilla en empresas que se redimensionaron absurdamente hace 4-5 años en plena pandemia (especialmente en sector tech).
Pero no es fácil encontrar casos donde la IA sea REALMENTE la causante de esos despidos...
Lo de los Domingos en España es cada vez más surrealista eh.
En cada puta página que me meto está caída porque el pobre retrasado de Javier Tebas tiene libertad para tirar medio internet. Y se ha normalizado ya esto
Y encima el link guarro con el que llevo viendo fútbol pirata 3 años sigue funcionando perfectamente.
A parte de retrasado, también eres inútil, cariño mío @Tebasjavier
Last quarter I rolled out Microsoft Copilot to 4,000 employees.
$30 per seat per month.
$1.4 million annually.
I called it "digital transformation."
The board loved that phrase.
They approved it in eleven minutes.
No one asked what it would actually do.
Including me.
I told everyone it would "10x productivity."
That's not a real number.
But it sounds like one.
HR asked how we'd measure the 10x.
I said we'd "leverage analytics dashboards."
They stopped asking.
Three months later I checked the usage reports.
47 people had opened it.
12 had used it more than once.
One of them was me.
I used it to summarize an email I could have read in 30 seconds.
It took 45 seconds.
Plus the time it took to fix the hallucinations.
But I called it a "pilot success."
Success means the pilot didn't visibly fail.
The CFO asked about ROI.
I showed him a graph.
The graph went up and to the right.
It measured "AI enablement."
I made that metric up.
He nodded approvingly.
We're "AI-enabled" now.
I don't know what that means.
But it's in our investor deck.
A senior developer asked why we didn't use Claude or ChatGPT.
I said we needed "enterprise-grade security."
He asked what that meant.
I said "compliance."
He asked which compliance.
I said "all of them."
He looked skeptical.
I scheduled him for a "career development conversation."
He stopped asking questions.
Microsoft sent a case study team.
They wanted to feature us as a success story.
I told them we "saved 40,000 hours."
I calculated that number by multiplying employees by a number I made up.
They didn't verify it.
They never do.
Now we're on Microsoft's website.
"Global enterprise achieves 40,000 hours of productivity gains with Copilot."
The CEO shared it on LinkedIn.
He got 3,000 likes.
He's never used Copilot.
None of the executives have.
We have an exemption.
"Strategic focus requires minimal digital distraction."
I wrote that policy.
The licenses renew next month.
I'm requesting an expansion.
5,000 more seats.
We haven't used the first 4,000.
But this time we'll "drive adoption."
Adoption means mandatory training.
Training means a 45-minute webinar no one watches.
But completion will be tracked.
Completion is a metric.
Metrics go in dashboards.
Dashboards go in board presentations.
Board presentations get me promoted.
I'll be SVP by Q3.
I still don't know what Copilot does.
But I know what it's for.
It's for showing we're "investing in AI."
Investment means spending.
Spending means commitment.
Commitment means we're serious about the future.
The future is whatever I say it is.
As long as the graph goes up and to the right.
Mi reflexión de hoy:
En enero/febrero me explotó la cabeza con la IA y estaba convencido de que la programación iba a cambiar y incluso se acabaría antes de lo que pensásemos.
Esta semana he tenido que borrar y hacer a mano todo lo que empecé con agentes.
La IA aporta muchísimo valor, sin duda pero me da la sensación de que ha hecho tope.
Es útil para escribir funciones, refactorizar, dividir archivos… pero sigue sin pensar bien la foto final.
La arquitectura es una mierda y los tests que hace son basura. (Supongo que porque es un reflejo de la mayoría de proyectos)
Así que claro, o le indico paso a paso cómo hacer los tests y cómo organizar las dependencias o acabas con un monstruo imposible de mantener.
No se si soy el único con esta perspectiva.
¿Que opináis?
Es una pena por el resultado, pero este vídeo es de lo más bello que he visto. Gracias @isaraerospace por la transparencia y estoy seguro de que a la siguiente se cumplirán aún más objetivos!
El antes y el después en el Pontón de la Oliva (al noreste de la región, límite Madrid-Guadalajara). Entre ambas fotografías han pasado 3 meses. 📷de @Gutiserra