Incredible view of Saturn few days before “the grand finale” when the probe Cassini finished its trip after 13 years orbiting the planet (2004-2017).
Image Credit: NASA, JPL-Caltech, Space Science Institute, Mindaugas Macijauskas via APOD website.
recommended reading. i really like the durability aspect of dynamic workflows. looked into how it's implemented, and while there are some minor footguns, it's smart!
GPT Realtime 2.0 is pretty incredible
17 startup ideas that ONLY work because of what this model makes possible:
1. Real-time contract negotiation agent. Sits on a call between two parties, checks pricing tools and compliance databases in parallel, and suggests terms mid-conversation while both sides are still talking.
2. Voice-controlled trading terminal. Talk through your thesis, the agent pulls market data, runs models, checks exposure, and executes the trade while narrating every step. Five data sources checked simultaneously while you're still talking.
3. Live multilingual event host. Realtime-Translate does 70+ languages in, 13 languages out, while the speaker is still talking. Every attendee hears the speaker in their language. Conferences go global overnight.
4. Voice-first medical intake. Patient calls in, agent conducts symptom intake, pulls their chart, checks drug interactions, books the appointment. All in one call. Previous voice models mangled medical jargon. This one was domain-tuned for it.
5. AI dispatcher for field service. Plumber calls from the job site, describes the problem, agent pulls the parts manual, checks inventory, orders the part, schedules the follow-up. Plumber's hands never leave the pipe.
6. Voice-first coding companion. Talk through architecture decisions while it writes code, runs tests, and explains what it's doing. Crank reasoning to high for hard problems. Drop to minimal for quick changes.
7. Live auction agent. Connected to estate sales, equipment auctions, domain drops. It listens to the live stream, makes bidding decisions, and tells you why it's bidding or passing. Thinks harder on big-ticket items.
8. Deposition prep agent for lawyers. Listens to practice testimony, catches inconsistencies, cross-references case documents, flags problems mid-conversation. Actually understands legal terminology.
Note: for more startup ideas for the AI age go to https://t.co/a5ARFnvky2
9. Live podcast research agent. Feeds you stats through an earpiece in real time. You mention a company, it whispers the revenue. You mention a trend, it pulls the data. Real-time research team for the price of an API call.
10. Silent sales coach. Listens to your call in silent mode, whispers coaching cues through your AirPods. "Ask about budget now." "They hesitated, dig deeper." 128K context means it remembers the entire hour-long conversation.
11. Voice-first property walkthrough agent. Walk through a property, describe what you see out loud, the agent pulls comps, estimates renovation costs, calculates cap rate, checks zoning in parallel. Full deal analysis by the time you walk out the front door.
12. Baby monitor that understands crying. Listens through a nursery speaker, distinguishes hunger cry from pain cry, soothes with a voice, alerts parents only when it matters. Silent listening mode means it's always on but only activates when needed.
13. Voice agent that calls your past-due invoices and collects payment. Polite, persistent, 24/7. Small businesses lose billions in unpaid invoices because nobody wants to make the awkward call.
14. AI that calls insurance companies and sits on hold for you. Navigates the phone tree, talks to the rep, fights the claim, calls you back with the result. Charge $20 per call. Everyone hates calling insurance.
15. Voice agent that handles Airbnb guest problems at 2am. Troubleshoots, dispatches maintenance if needed, follows up. Host sleeps through it. $150/month per property.
16. After hours voice agent for law firms. Client calls at 9pm, agent does intake, assesses urgency, schedules a morning call or patches through. Missing an after hours call costs law firms thousands.
17. Voice first quality inspector for manufacturing. Worker wears a headset, describes what they see, agent cross-references the spec sheet, flags defects, logs the report. Hands never leave the product.
Voice was always limited by intelligence, not audio quality.
Now that it has GPT-5 class reasoning, the voice agent can actually think while it talks. That's the unlock.
Everything above was impossible 6 months ago.
Comparto este video que lanzaron ayer Silvio Rodríguez y Chico Buarque; los fondos que se recaben serán donados a la Sala de Pediatría del Instituto de Oncología de Cuba, así que si queréis verlo, darle like y compartirlo con otras personas, es un pequeño grano de arena para aliviar la difícil situación en que se encuentran.
El vídeo es precioso y presenta esa Habana tan digna como empobrecida.
https://t.co/AVk6LbJAI7
I've had more "I can't believe it's this good" moments with GPT5.5 than any other model since Opus 4.5. It's shockingly, scarily capable. Days and days of amazing progress. All steering, no handwriting. Yet utterly delightful to conduct its coding. So, so good.
@flopezluis Para mi el problema es que muchos ingenieros han estado siempre muy centrados en el hecho de escribir código y no en el outcome. A esas personas les da igual un x10 de outcome y además están perdiendo aquello que les hacía sentirse identificados con su trabajo: escribir código
Esto hay que leerlo entero. Hay que leerlo con atención. Nada de meterlo en ChatGPT para que haga un resumen. Y no se trata de estar o no estar de acuerdo. Se trata de comprender con profundidad un punto de vista que, desde mi criterio, es rompedor, provocador, pero hace pensar.
En cierto modo, estoy de acuerdo con varias, bastantes, de las cosas que Zeb está contando aquí. Y cuanto más lo reviso, más de acuerdo estoy en ese tipo de cosas. Quien quiera saber el qué, lo hablamos con una cerveza.
Una cosa que yo haría si trabajase por cuenta ajena, es convertirme en ese perfil 100X, que es capaz de orquestar y trabajar de otra forma. Por eso no entiendo, ni entenderé, las actitudes que se alejan deliberadamente de la adquisición de habilidades técnicas en inteligencia artificial, sea cual sea el campo al que uno se dedica.
Este tuit también podía ser la tarea a la que prestar atención un fin de semana. Sería una inversión en futuro.
Ojalá no caigan en saco roto.
Gemini Flash 3.5 is such a disappointing model.
It's intelligence and speed is awesome. Absolutely amazing.
But it's been trained to max evals, not to be helpful to humans.
It goes off and does random crap "for me" rather than just doing what I asked.
What’s happened is that we went from AI chat tools that were relatively cheap and had small context windows, to AI agents that have giant context windows, the ability to keep track of longer running work, and models that cost an order of magnitude more on inference because they’re that much better.
This has compounded far faster than most realized (unless you were paying close attention at the middle or end of last year, which many here were), and the dollars flowing in now are much more real.
What follows is a continued march of AI capability that will continue to be used by anyone with a frontier use-case (like coding, sciences, finance, consulting) and then a peeling off of tasks to lower cost models that are capable enough for the job. Whereas we thought the cost of AI might converge on a single low price per token before, it’s clear the stratification is only widening based on the task you need performed.
This will be yet another component that has to be figured out for broad AI diffusion. Enterprises will need to put in programs, new finance teams, and technology solutions to manage this all. The labs and platforms that can ensure customers can price optimize for the task at hand will be in the best position.
🦔Microsoft canceled its internal Claude Code licenses this week after token-based billing made the cost untenable, even for a company with effectively infinite cloud resources. Uber's CTO sent an internal memo warning the company burned through its entire 2026 AI budget in just four months. American AI software prices have jumped 20% to 37%, and GitHub (owned by Microsoft) is dropping flat-rate plans for usage-based billing across its products.
My Take
The AI subsidy era is ending in real time. The same company that put $13 billion into OpenAI and built the Azure infrastructure powering most of Anthropic's compute just looked at the bill from a competitor's coding tool and decided it was not worth paying. That is not a productivity failure on Anthropic's end. Token-based pricing is forcing every enterprise customer to confront the actual cost of running these models at scale, and the number turns out to be far higher than the flat-rate experiments suggested.
This ties directly to my Gemini Flash post yesterday. Anthropic, OpenAI, and Google all raised effective prices in the last six months. Enterprises that built workflows assuming AI costs would keep falling are now watching annual budgets evaporate in months. Two outcomes look likely from here. Either enterprises scale back AI usage to fit budgets, which slows the revenue ramp the labs need to justify their valuations ahead of IPOs, or the labs cut prices and absorb the losses, which makes the unit economics worse at exactly the wrong moment. Both paths land in the same place, the numbers stop working, and somebody has to take the writedown.
Hedgie🤗
it’s in gemini, just create it in ai studio. oh, that’s for your personal google one account. for workspace you need gemini business. no, not gemini advanced, that’s ai pro now. unless you need ai ultra. oh agents? you do that in spark actually. no, not gemini api managed agents, that’s different. for coding use jules. unless you mean the agentic ide, that’s antigravity. no, that’s the old antigravity, download the new one. actually gemini cli is being deprecated, use antigravity cli. no the flash model is smarter than the pro model. unless you need pro. if it’s video, use flow. no, flow uses veo. no, nano banana is images. actually that’s in gemini now. unless you’re in search, then it’s ai mode. no, research is notebooklm. anyway it’s all very simple.
La gente que lleva meses diciendo que la IA va a dejar sin trabajo a los desarrolladores creo que no lleva del todo razón.
Google acaba de anunciar que va a contratar a cientos de ingenieros solo para ayudar a sus clientes a desplegar IA. No para entrenar modelos o para hacer research. Para ir a la cocina del cliente y montar el sistema dentro.
A ese perfil Aaron Levie lo bautiza con el término que Palantir popularizó hace años: forward deployed engineer.
Y estoy convencido de que va a ser uno de los puestos más demandados de los próximos cinco años. Y casi nadie en Europa lo está teniendo en cuenta.
Para entender por qué, hay que mirar cómo está cambiando lo que un cliente quiere cuando compra software.
Durante 20 años el software ha funcionado más o menos igual. Sale una versión nueva de Salesforce, de Office, de lo que sea. El cliente actualiza. Los flujos cambian poco. El "implantador" en muchos casos es el propio cliente con un manual y un par de sesiones de onboarding.
El SaaS clásico se sostiene sobre esa premisa: producto bueno + autoservicio + tarjeta de crédito.
Con agentes, ese modelo se rompe.
Cuando vendes un agente no estás vendiendo una herramienta. Estás vendiendo el resultado del trabajo. El cliente no quiere "una plataforma con la que automatizar X". Quiere X automatizado. Punto. Y esa diferencia, que parece de matiz, lo cambia todo.
Si tu producto es el output, te conviertes (quieras o no) en un proveedor de servicios profesional para esa tarea concreta. Tienes que entender el proceso de negocio del cliente al detalle. Tienes que decidir qué modelo usar en cada caso, porque no, no todo es GPT-5 en producción. Tienes que montar evals para saber si el agente está haciendo bien el trabajo. Hay que preparar los datos del cliente, gestionar el change management con la gente que antes hacía ese trabajo a mano, y encima hacer tuning continuo cada vez que el proceso cambia, que es prácticamente siempre.
Esto, dicho de otra forma, es ingeniería pegada al cliente. Que es exactamente lo que un FDE hace.
Y ojo, no es la consultoría de PowerPoint de toda la vida. Es un ingeniero con código por debajo y acceso al sistema real del cliente. Más cerca del CTO interno que del consultor con traje y corbata y una presentación.
En Blinkfire lo estamos viviendo en directo.
Llevamos años vendiendo una plataforma de analítica de patrocinio (dashboards, valoraciones, datos), y en el último año los clientes han empezado a pedir otra cosa. No quieren acceso a herramientas. Quieren el informe ya cocinado. Quieren la valoración cerrada. Quieren que el output llegue listo, no la materia prima para hacerlo ellos.
Y para que ese output llegue bien, alguien de nuestro lado tiene que entender el detalle de cómo trabaja ese cliente concreto. No vale con vender licencias y desearles suerte.
Esto es exactamente lo que apuntaba Sequoia hace unos meses en "Services: The New Software". El SaaS clásico tal y como lo conocíamos se queda corto. Los próximos cien mil millones de dólares de mercado no van a salir de vender software más barato. Van a salir de vender el trabajo entero, hecho.
Y para que ese trabajo llegue hecho, alguien tiene que estar a pie de cliente entendiendo qué necesita, qué datos tiene y dónde está roto el proceso real. Ese alguien es el forward deployed engineer.
Creo que esto va a tener tres consecuencias que poca gente está mirando:
Primera, el pricing cambia. Si vendes outcome no vendes licencias, vendes resultado. Y eso significa contratos más caros, márgenes distintos y un perfil de cliente diferente. No es para todo el mundo, y de hecho hay bastantes empresas SaaS que no van a poder hacer esa transición sin romperse su propio P&L.
Segunda, los equipos se parecen más a una mezcla entre consultora y producto. Lo que durante años se llamó con desprecio "ah, eso no escala" ahora es el corazón del negocio. Las compañías que mejor lo van a hacer son las que no tengan miedo de meter ingeniería técnica delante del cliente, ensuciándose con su proceso real. Lo cómodo (todo autoservicio, cero contacto humano) ya no aplica.
Y tercera, la que más me interesa: hay una oportunidad brutal para perfiles técnicos en España y en todo el mundo. Hay buenos developers. Hay buenos consultores. Y hay muy poca gente que sepa hacer las dos cosas a la vez, entender un proceso de negocio y saber montar un sistema con agentes encima. Esa intersección es el FDE.
Para que te hagas una idea, la mediana de un FDE en Palantir (la empresa que inventó el rol) está en 215.000$ al año, con el techo cerca de los 415.000$.
Y al menos por lo que veo en mi entorno, en España todavía está despoblada.
Lo curioso, y aquí está el matiz importante, es que el sector lleva años despreciando este perfil. Llamarle a alguien "consultor" en una startup tech era casi un insulto. "Eso no escala", "eso no es producto", "eso es servicios".
Pues resulta que la consultoría con código por debajo, agentes encima y un proceso de negocio resuelto al final es uno de los trabajos más interesantes que vamos a ver esta década.
La IA no está eliminando puestos técnicos. Está creando una categoría nueva, bien pagada y más estratégica que el SaaS clásico: la del ingeniero que entra hasta la cocina del cliente y vuelve con el proceso resuelto.
Lleno en el @KursaalDonostia para hablar de #IA durante toda una jornada. Sin duda, un éxito rotundo del #BAIC para su jornada #ApplAI. Equipo amplio de @Ideable hoy aquí
This works really well btw, at the end of your query ask your LLM to "structure your response as HTML", then view the generated file in your browser. I've also had some success asking the LLM to present its output as slideshows, etc.
More generally, imo audio is the human-preferred input to AIs but vision (images/animations/video) is the preferred output from them. Around a ~third of our brains are a massively parallel processor dedicated to vision, it is the 10-lane superhighway of information into brain. As AI improves, I think we'll see a progression that takes advantage:
1) raw text (hard/effortful to read)
2) markdown (bold, italic, headings, tables, a bit easier on the eyes) <-- current default
3) HTML (still procedural with underlying code, but a lot more flexibility on the graphics, layout, even interactivity) <-- early but forming new good default
...4,5,6,...
n) interactive neural videos/simulations
Imo the extrapolation (though the technology doesn't exist just yet) ends in some kind of interactive videos generated directly by a diffusion neural net. Many open questions as to how exact/procedural "Software 1.0" artifacts (e.g. interactive simulations) may be woven together with neural artifacts (diffusion grids), but generally something in the direction of the recently viral https://t.co/z21CP5iQfu
There are also improvements necessary and pending at the input. Audio nor text nor video alone are not enough, e.g. I feel a need to point/gesture to things on the screen, similar to all the things you would do with a person physically next to you and your computer screen.
TLDR The input/output mind meld between humans and AIs is ongoing and there is a lot of work to do and significant progress to be made, way before jumping all the way into neuralink-esque BCIs and all that. For what's worth exploring at the current stage, hot tip try ask for HTML.