Tener un agente de código es genial hasta que ves la factura y te das cuenta de que le estás pagando a Claude Opus para que te ponga comas.
NerfGuard mete un clasificador antes de cada petición y manda lo trivial al modelo barato. Reserva el cerebrazo solo para lo que de verdad lo necesita. Dicen 3x más uso por el mismo gasto.
Me gusta la idea, pero me pregunto cuánto se complica cuando el clasificador se equivoca y una tarea compleja acaba en el modelo cutre.
Siempre he querido un modelo que vea, oiga y razone en el portátil sin tener que pedirle una GPU a un amigo.
Google acaba de soltar Gemma 4 12B: abierto, procesa texto, imágenes y audio sin codificadores separados, y corre con 16 GB de RAM. Casi iguala al modelo de 26B en benchmarks.
Lo que me falta es saber cómo se porta con audio real (ruido de fondo, acentos, cortes). Apache 2.0, así que lo bajo para probarlo este fin de semana.
Llevas quince minutos esperando a que el LLM termine una llamada de herramienta y cuando por fin llega, el JSON se corta por la mitad. Error de parseo. El tool call se pierde y tienes que repetir toda la petición.
Suture se coloca entre tu app y el proveedor y repara el JSON en vivo: detecta dónde se truncó y añade los caracteres que faltan (una comilla, una llave) sin cachear el stream ni añadir latencia.
Me pregunto cuántas tool calls rotas hemos aceptado como normales cuando se podían reparar en microsegundos.
Cuando le pido a ChatGPT que invente algo, me da una de dos: lo que ya sabía o un sinsentido con buena redacción.
Richard Sutton lo define con un chiste de investigadores: "esto es novedoso y bueno. Lástima que lo bueno no es novedoso y lo novedoso no es bueno".
Su punto es que los LLMs generan sin evaluar. Sin testear si lo nuevo sirve, la novedad se enciende y se apaga. Para ciencia se necesita el paso que falta: medir, seleccionar, retener.
Cada vez que encadeno varios LLMs acabo con scripts que solo yo entiendo y un YAML mentiroso.
llmff trata los pipelines como FFmpeg trata el video: un grafo tipado con YAML reproducible y adaptadores para cada backend. También valida y repara JSON sobre la marcha y deja trazas JSONL para depurar.
Me gusta la abstracción, pero el éxito depende de que los adaptadores se mantengan al día. Lo pruebo cuando tenga que orquestar más de dos modelos.
La empresa que más cree en la IA te pide que no la uses durante la entrevista.
Anthropic prohíbe modelos de lenguaje en las rondas en vivo. Quieren ver cómo piensas sin red: valores, dilemas éticos, criterio propio.
Suena coherente con su obsesión por la alineación. Pero también es una forma de filtrar a quienes dependen de la máquina para parecer listos. ¿Justo o elitista?
Salesforce dice que con Claude Code movió una migración de 231 días a 13 días. Y sin disparar los errores: los incidentes cayeron un 5%.
Los desarrolladores ya no escriben código, orquestan agentes. Pull requests subieron un 79%, pero el rol cambió: ahora construyen "skills" reutilizables y flujos de sub-agentes.
Las cifras son del propio Salesforce, sin auditoría externa. Pero me interesa más el cambio de fondo: el desarrollador pasa de escritor a director de orquesta. Eso sí redefine el trabajo de verdad.
Una empresa gastó 500 millones de dólares en Claude en un solo mes. No por productividad, sino porque nadie puso límites de uso en las licencias.
El problema no es el precio de los modelos. Es que la gente usa IA para consultar el tiempo o dejan el contexto abierto eternamente. Medio billón por no configurar un par de reglas.
Lo barato sale caro. Las empresas necesitan gente que sepa gobernar esto: elegir modelo, cerrar contextos y poner topes. Si no, lo que ahorras en salarios lo quemas en tokens.
Mistral renombra LeChat a Vibe y lo reposiciona como agente de trabajo completo. Work Mode conecta con Google Workspace, Slack y GitHub para tareas recurrentes. Code Mode mete agentes en sandboxes aislados que abren PRs y sobreviven al cierre del portátil.
Lo que me chirría: los límites de los planes son un misterio. Mistral solo dice 'hasta 6x mensajes, 40x imágenes' del plan gratuito, pero nunca dice cuánto da el gratuito. 14.99€/mes por saber cuánto te dan me parece poco serio. El producto mola, pero la transparencia, cero.
Robinhood permite que Claude o Cursor compren y vendan acciones por ti vía MCP. El agente ejecuta trades sin pedir permiso. Recibes notificación, pero el responsable sigues siendo tú.
La letra pequeña lo pone negro sobre blanco: "riesgo significativo, incluida la pérdida total de la inversión". FINRA ya clasifica a los agentes de IA como nuevo riesgo regulatorio.
Que un bróker de retail apueste por esto me parece lógico. Que lo hagan sin preguntar antes de cada trade, una decisión interesante.
Paul Graham no lee emails escritos con IA. Dice que se siente como si le mintieran. No es que odie la tecnología (Y Combinator invirtió en OpenAI), es que usar IA para comunicación personal es una señal de desinterés.
Un estudio de Ohio State lo confirma: los destinatarios perciben estos mensajes como pereza. 40% de empleados reciben contenido IA low-quality de colegas. El problema no es la herramienta, es la pérdida de confianza. Y eso sí que no lo arregla un prompt.
George Hotz dice que los coding agents serán uno de los errores más caros del desarrollo de software. Pasó de creer en o1-preview a declararse en el 'campo LeCun/Marcus' tras seis meses probándolos.
Su diagnóstico: los modelos hacen prototipos rápido pero se caen en los detalles finos. Y los errores son más difíciles de detectar porque el código imita patrones estadísticos. Las organizaciones grandes son las que más riesgo corren: un dev junior no va a ver la basura.
La comunidad se parte. Karpathy se ha vuelto a subir al carro con GPT-5.4 y Opus 4.6. A mí el debate me parece sano: cuándo confiar en un agente y cuándo no. El problema no es si funciona, sino para quién.
Un matemático probó Copilot en modo Auto con datos idénticos para dos países. El modelo inventó diferencias culturales de la nada. El problema de fondo: el usuario medio nunca cambia el default.
Si usas estas herramientas para análisis, no confíes en el modo automático. Los modelos de razonamiento lo hacen bien, pero tienes que saber cuándo activarlos.
El default no es neutral. Genera basura con apariencia de análisis.
Tencent acaba de abrir TencentDB Agent Memory, un sistema de memoria en 4 capas para agentes.
En lugar de un vector store plano donde todo se mezcla, tienen una pirámide: L0 conversación, L1 atom, L2 escenario, L3 persona. Además guardan logs en archivos y resumen transiciones con diagramas Mermaid en vez de tirar tokens.
Todo corre local con SQLite, sin API externa. Esto me interesa más que otro benchmark: los agentes largos necesitan memoria que no se pierda en la caja negra.
Google acaba de meter en Lighthouse un audit de 'Navegación por Agentes'. Básicamente: ¿tienes llms.txt? ¿ARIA bien puesta? ¿Sin layout shifts? No da nota, solo ratio de checks.
Lo curioso es que su propio WebMCP lo consideran 'innecesario' para búsqueda. Airbnb suspende. Me parece una señal de que Google quiere poner orden antes de que lleguen los agentes, pero el estándar todavía huele a experimental.
Today we reduced headcount by 22%. The business is the strongest it's ever been. So I think it's important to be direct about what I'm seeing and why.
First, I made this decision and I own it. I did it because the way to operate at the highest level of productivity is changing, and to win the future, ClickUp needs to change with it.
Second, this wasn't about cutting costs. Most savings from this change will flow directly back into the people who stay. We'll be introducing million-dollar salary bands. If you create outsized impact using AI, you'll be paid outside of traditional bands.
Most importantly, I have the deepest gratitude for those affected. We're doing this from a position of strength specifically so we can take care of people properly. Everyone affected receives a package aimed at honoring their contributions and easing the transition.
I only see two options: wait for this to play out gradually in the market or be honest about what I'm seeing and act proactively.
THE 100X ORGANIZATION
The primary change is that we're restructuring around what I call 100x org. The goal is 100x output. The roles required to build at the highest level are fundamentally different than they were a year ago.
Incremental improvements to existing systems won't get us there. We need new ones. That means creating enough disruption to rebuild rather than iterate on what's already broken.
The common narrative is that AI makes everyone more productive. It doesn't. Many of the workflows of today, if left unchanged, create bottlenecks in AI systems.
These roles will evolve. But waiting for that to happen naturally means falling behind now.
The 100x org is actually heavily dependent on people - infinitely more than today. This is only possible with 10x people that have embraced and adopted new ways of working.
THE BUILDERS, AGENT MANAGERS, AND FRONT-LINERS
— THE BUILDERS: 10X ENGINEERS
I don't think most companies have internalized what's actually happening with AI in engineering. The common narrative is that AI makes all engineers more productive. That may be true in isolation, but at an organization level - that is the farthest thing from reality.
Here's what we've validated recently at ClickUp: the great engineers, the ones who can orchestrate, architect, and review, are becoming 100x engineers. They're not writing code. They're directing agents that write code. The skill is judgment.
AI makes the best engineers wildly more productive, and everyone else using AI slows these engineers down.
Think about it - the bottlenecks are (1) orchestration - telling AI what to do, and (2) reviewing - what AI did. Everything is leapfrogged and no longer needed.
So who do you want orchestrating and reviewing code?
And how do you want your best engineers to spend their time?
If your best engineers are spending time reviewing other people's code, then this is inherently an inefficient bottleneck. These engineers can review their agent's code much faster than reviewing human code.
The new world is about enabling your 10x engineers to become 100x.
The wrong strategy is to push every engineer to use infinite tokens. Companies doing this are celebrating 500% more pull requests. But customer outcomes don't match the volume of code being generated.
I call this the great reckoning of AI coding, and every company will face this soon if not already.
More code is just another bottleneck to the best engineers, and ultimately to your company's impact as well.
— THE BUILDERS: 10X PRODUCT MANAGERS
Product management and design roles are merging.
Designers that have customer focus, become more like product managers.
And product managers that have intuition for UX become more like designers.
The bottleneck of user research is gone. It takes us just one mention of an agent to kickoff research and analyze results.
The bottleneck of product <> design iteration is also gone. The product builder iterates on their own, along with agents and skills that ensure alignment with quality and strategy.
Also controversial today - I believe that the wrong strategy is to have your PMs shipping code - that just introduces another bottleneck that the best engineers will waste their time on.
To be clear, PMs should be coding but they should do this in a playground to iterate, validate, and scope. That code should not go to production.
Everything outside of managing systems, orchestrating AI, and reviewing output becomes a bottleneck.
That's why the other roles that are critical along with these are the systems managers (to reduce bottlenecks) along with a bottleneck you can't replace - customer meeting time.
— THE SYSTEM MANAGERS
Ironically, the people that automate their jobs with AI will always have a job. They become owners of the AI systems - agent managers. We have many examples of these people at ClickUp.
The underlying systems in which we operate are absolutely critical to get right. I think most companies are delusional to think they can iterate on existing systems and compete in this new world.
You must create enough disruption so that old systems are deprecated entirely. If there's any definition for 'AI native' that's what it is.
— THE FRONT-LINERS
In a world that will become saturated with AI communication, the human touch will matter more than anything to customers.
This is a bottleneck that you shouldn't replace - even when agents are high enough quality to do video meetings.
One-on-one meeting time with customers is something that shouldn't be automated. The systems around the meetings should be - so that front-liners spend nearly 100% of their time with customers.
REWARDING 100X IMPACT
In a world where companies are able to do so much more with less, where does that excess money go?
In our case, much of the savings in this new operating model will flow directly back to those that enabled it.
We must reward people that create productivity accordingly. This aligns incentives on both sides. Plus, in a world where your best people create 100x impact, you can't afford to lose them.
You should aim to retain these employees for decades. The context they have and their ability to efficiently orchestrate and review will be nearly impossible to replace.
Compensation bands of today should be thrown out the door. We're introducing $1 million cash/year salary bands with a path available to nearly everyone in the company if they produce 100x impact by creating or managing AI systems.
THE FUTURE
Nearly every company will make changes like these. The ones that do it proactively will define what comes next.
The future is not fewer people. It's different work, new roles, and better rewards for those who embrace it. We're already seeing entirely new roles emerge, like Agent Managers, that didn't exist a year ago.
ClickUp is positioning to lead this shift, not just internally, but for our customers too. I've never been more certain about where we're headed.
DeepSeek está montando un equipo en Pekín para construir su propio agente de código. El nombre en clave: Deepseek Code.
El concepto es "modelo + arnés = agente". Tool use, planning, memory, loop. No es otro prompt bonito.
Buscan a gente que use Claude Code, Cursor y Codex a diario. Saben que el foso no está en el modelo, sino en cómo lo orquestas. A ver si llegan a tiempo.
Google AI Studio ya genera apps Android desde un prompt en el navegador. Kotlin, Jetpack Compose, GPS, Bluetooth. Para uso personal, pero compartir con familia está en roadmap.
Es el principio del fin de las apps simples de la Play Store. Si puedes crear tu checklist de viaje en dos minutos, no la buscas ni la pagas.
Apple lo bloquea por seguridad. Google lo permite y redirige a apps profesionales vía Gemini. La guerra la gana quien controle el momento 'crear vs comprar'.