Engraçado como eu tô a frente disso e falei que VSA é melhor, mas sempre o gringo vira referência. Até pq a culpa da falta de alcance é minha mesmo
Não é uma crítica a moça do post apenas uma anotação
Hoje tenho trabalhado dessa forma, seguindo o conceito de Vertical Slices introduzida pelo @mattpocockuk (ainda escreverei artigo sobre com maiores detalhes. Talvez até a próxima sexta) e tenho tido excelentes resultados. Não somente em projetos pessoais, mas na equipe onde eu tenho atuado e orientado!
PRD.md ou spec.md
↓
/to-issues (skill)
↓
issues verticais pequenas (vertical slices ou tarefas fatiadas)
↓
loop por issue/fase
↓
implementa → testa (skill: /tdd) → revisa (HITL) → registra estado (Harness: PROGRESS.md)
↓
gate de contexto
↓
skill: /handoff se passou de 55–60% ou se a fase terminou
↓
nova sessão limpa (sem entrar na compactação evitando ruído do context window) e resgata o conteudo gerado pela skill /handoff
↓
continua na próxima issue/fase fatiada acima
Tentarei fazer uma live ensinando esse passo a passo. Vejo muito conceito em artigo mas sem demonstrar de fato a coisa acontecendo.
O bom disso? Uso da Smart Zone evitando entrar com compact window com ruído e ajuda no custo de tokens.
Eu testei essa estratégia por 15 dias e foram os piores resultados que tive em anos com LLM. Os modelos ficam extremamente preguiçosos conforme o loop avança e a janela de contexto fica menor.
Isso começa a produzir um conjunto de artefatos extremamente complicados de gerenciar: desvios de padrões do projeto, degradação da qualidade do código, bypasses que facilmente são convertidos em vulnerabilidades, esquecimento das regras de negócio e, muitas vezes, redefinição de outras partes do sistema mesmo com guardrails.
Pelo que percebi tudo depende de (1) quanto tempo o loop vai ficar rodando; (2) qual o tamanho do output esperado pelo loop. E no loop tudo é exponencial. Cada pequeno erro que a LLM comete vai aumentando substancialmente como uma bola de neve ao longo do tempo.
Fora o fato de ela tomar decisões ruins, muitas vezes pela ineficiência de encontrar soluções no próprio código. Capturei casos onde a LLM sanitizou/normalizou o mesmo dado 12 vezes em 12 lugares diferentes. Ou fez o código ping-pong (ela faz uma operação, depois ela faz outra operação, depois ela volta para primeira, exemplo: write -> read -> write -> read ao invés de usar transações de dados, um comportamento totalmente equivocado que eu nem esperaria de um júnior). Isso para mim mostra o quanto LLM ainda são reprodutores de palavras.
No primeiro caso, o conceito tácito de objetos de valores são: uma vez construídos, todas as invariantes são garantidas e os valores normalizados. Eles são objetos de fronteira. Você monta no início e todos os outros serviços, métodos, funções abaixo disso já recebem esse contrato, não precisam revalidar aquele objeto de valor, a não ser que necessite de validação de invariantes a nível de serviço ou a nível de entidade, ainda assim, sempre com o objeto de valor já formado.
Mesmo assim, principalmente em loop, a LLM decide ignorar por completo esse tipo de coisa, o fluxo que ela sempre faz: normaliza -> objeto de valor -> dados brutos -> passa adiante -> normaliza -> recomeça. Já criei skill e já montei guardrails, mas isso sempre continua acontecendo. O loop parece corroer qualquer discernimento (se é que existe) do modelo e piora os outputs substancialmente. Isso deixa o código instável, imprevisível e, principalmente, péssimo de gerir manutenção.
E ainda tem gente que quer convencer que já estamos com AGI e tudo está superado. É justamente isso que me faz pensar (1) os casos de uso dessas pessoas são meros CRUDS que qualquer um faz; (2) essa pessoa não gasta token para construir nada sério, um eterno playground.
Dito isso, eu acho que loop é bullshit, mas algo que tenho usado é "/goal" deixar um único loop (com início, meio e fim) e aqui o que importa é a meta defina. Ela tem que ser uma meta simples, objetiva, com escopo baixo ou, no máximo, médio. Na hora de construir a meta é importante repetir os principais guardrails e você montar uma própria todo-list (não que seja algo atômico, mas pelo menos dar uma sugestão de passos). Depois, revisar, não tem jeito.
Você nem precisa tocar no código durante a revisão se não quiser. Eu geralmente leio o código, crio uma nova sessão, pontuo todas as minhas observações, peço para o modelo se justificar, monto um plano e executo a revisão. Aí vai do meu discernimento, tem revisão que para mim é mais fácil eu executar do que explicar para o modelo (principalmente quanto são mudanças atômicas sem efeitos colaterais), já revisões que implicam efeitos colaterais deixo para o modelo já que ele pode buscar (na maioria das vezes) os N arquivos afetados por aquela mudança.
Os erros que eu mais cometo é pisar demais no acelerador ao montar uma /goal. Se pisar demais no tamanho da meta, vai começar a acontecer uma série de problemas da mesma forma que com o loop e para corrigir tudo isso você vai gastar mais tempo do que teria gasto se tivesse implementado na unha. Várias libs que estou fazendo já sofreram atrasos por conta disso.
Agora, sejamos sincero: o mercado não cresceu. Os maiores consumidores de tokens são "pessoas que estão produzindo sistemas". Isso não vai dar nem lucro e nem o faturamento que as empresas de IA precisam. Estratégias em loop me parece uma medida desesperada para forçar o consumo exagerado de tokens. Sem loops eu transacionava por volta de 600M de tokens/mês, com loops simplesmente aumentou em mais de 500%, subiu para ~5B (por enquanto).
Ainda estou avaliando os dados mas boa parte desses 5B foram refazendo os próprios desvios do modelo durante o loop, além do próprio loop de fato gastar muito mais tokens do que tarefas atômicas. Mesmo o /goal com metas menores, ainda gasta muito mais tokens do que um trabalho mais simples. Em loop, o modelo SEMPRE vai reler quase todo o seu projeto antes de começar, nem o guardrail segura aqui. Modelos inferiores e open-source tem um resultado ainda pior com loops e não vou entrar nesse mérito.
Para onde tudo isso vai nos levar, só Deus sabe
Você tá entendendo o que está acontecendo agora?
Todo mundo está falando de agentes de IA.
Mas pouca gente está falando sobre vender agentes como um serviço. E foi exatamente isso que esse cara fez.
Andrey, conhecido como Superior no Twitter, publicou um case mostrando como transformar agentes de IA em uma operação vendável para pequenas empresas.
O exemplo que ele traz é de uma agência de marketing em Austin.
A empresa tinha uma equipe de 6 pessoas cuidando de operação: qualificação de leads, suporte ao cliente, cobrança, relatórios, monitoramento de concorrentes, CRM e follow-ups.
Tudo manual.
E essa estrutura custava cerca de US$ 28 mil por mês.
A solução foi substituir boa parte desse trabalho por 5 agentes criados com Claude + n8n.
O Claude funciona como o cérebro da operação: entende contexto, classifica informações, escreve respostas, toma decisões e gera relatórios.
O n8n funciona como o sistema que conecta tudo: Gmail, Slack, Stripe, HubSpot, Airtable, formulários, CRM e as ferramentas que a empresa já usa.
Na prática, é assim:
Um lead chega pelo formulário.
O agente lê a mensagem, entende o contexto, avalia se aquele lead é bom, dá uma nota de 1 a 10, identifica urgência, atualiza o CRM, escreve uma resposta personalizada no tom da empresa e avisa o time comercial se for uma oportunidade quente.
Tudo isso em minutos.
Sem alguém precisar abrir e-mail, copiar informação, pensar na resposta, atualizar planilha e avisar outra pessoa.
E esse é só um dos agentes.
Outro agente cuida do suporte de primeiro nível, respondendo dúvidas repetitivas que normalmente consomem horas do time.
Outro automatiza emissão de faturas, lembretes de pagamento e cobrança.
Outro prepara reuniões, organiza o contexto dos participantes e envia follow-up com próximos passos.
Andrey mostra que pequenas empresas já gastam muito dinheiro com operação manual, mas a maioria ainda não sabe implementar IA na prática.
Elas não querem “usar IA”.
Elas querem responder leads mais rápido, atender melhor, cobrar sem depender de alguém lembrando, perder menos informação e economizar tempo da equipe.
É aí que mora a oportunidade.
Você não vende um agente.
Você vende uma operação funcionando.
No exemplo, o custo das ferramentas fica perto de US$ 200 por mês.
Mas o serviço de manutenção dos agentes é vendido por cerca de US$ 2.500 por mês.
Para o cliente, faz sentido porque ele economiza mais do que paga.
Para quem constrói, vira receita recorrente.
Com 8 clientes nesse modelo, são US$ 20 mil por mês.
Enquanto muita gente ainda está testando prompt, algumas pessoas já estão empacotando agentes como serviço, vendendo para negócios locais e cobrando mensalidade para manter tudo rodando.
A diferença está no olhar.
A maioria vê IA como ferramenta.
Andrey está mostrando IA como infraestrutura de operação.
E talvez esse seja o ponto mais importante:
A oportunidade não está só em perguntar “qual ferramenta de IA eu uso?”
Está em olhar para uma empresa e perguntar:
“Qual processo aqui ainda depende de humano fazendo trabalho repetitivo todos os dias?”
Porque onde existe repetição, atraso, retrabalho e custo operacional alto, existe espaço para um agente.
E onde existe um agente que economiza dinheiro de verdade, existe um serviço que alguém pode vender todo mês.
Isso pode mudar completamente a forma de se trabalhar
Até hoje não entendo porque a maioria das empresas brasileiras não usam o Slack
Além do poder nativo que já tem, conexões como essa elevam a experiência do trabalho de forma absurda
Basicamente todo mundo do seu time agora pode ter um agente nativo com todo o contexto da empresa
Nada de ficar explicando as coisas toda vez, relembrando os KPIs e contexto dos projetos
Com todos os conectores aplicados, o Claude Enterprise direto no Slack transforma como se começa e termina trabalhos
E vc pode até configurar pro Claude ficar “proativo” no workspace e lembrar geral de coisas que podem ter ficado pra trás
Animal
Testei a SAKANA FUGU, que bateu o Claude Fable 5.
Nesse vídeo te mostro como rodar ela junto com o CODEX.
Facilmente o orquestrador mais poderoso já lançado e os benchmarks não mentem.
Japão chegou com força, sem Sakanagi. 🇯🇵
O FIM DO "BABYSITTING" DE IA
Em uma apresentação de 39 minutos, Sid Bidasaria, um dos engenheiros por trás do Claude Code, mostrou uma mudança que pode redefinir a forma como desenvolvedores trabalham com inteligência artificial.
A proposta é simples: parar de tratar a IA como um assistente que exige supervisão constante e transformá-la em um sistema capaz de verificar o próprio trabalho, corrigir erros, executar testes e evoluir de forma autônoma.
O modelo apresentado se apoia em três pilares: loops de verificação, que permitem ao agente identificar e corrigir suas próprias falhas; paralelização, possibilitando a execução simultânea de dezenas de agentes; e loops em segundo plano, que automatizam tarefas como revisão de código, documentação e triagem de problemas.
A principal mensagem é que o futuro não está em acompanhar cada resposta de um único chat. Está em construir sistemas capazes de operar continuamente, com supervisão mínima e alta confiabilidade.
Para equipes de tecnologia, isso representa uma mudança de paradigma: menos tempo observando a IA trabalhar e mais tempo definindo objetivos, estratégias e resultados.
Web scraping will never be the same.
(100% open-source visual search at scale)
PixelRAG is a retrieval system that skips HTML parsing completely.
Instead of scraping a page into text and embedding chunks, it screenshots the page and retrieves the image. A vision-language model reads the answer straight off the pixels.
Why that matters: parsing is where web RAG quietly loses information.
- A single HTML-to-text parser can drop 40%+ of a page.
- Tables, charts, and layout get flattened or thrown out.
- Swapping parsers alone can move accuracy ~10 points on the same docs.
PixelRAG indexes the page a person actually sees. The team built a visual index of all of Wikipedia, 30M+ screenshots, and it still beats the strongest text RAG baseline by 18.1% on text-only QA.
The repo also ships a Claude Code plugin that gives Claude eyes.
It lets Claude screenshot any URL and read the rendered page instead of scraping the DOM. So you can hand it a live page, an arXiv paper, or your local site and ask what it actually looks like.
One setup script. No MCP server, no backend.
How the pipeline works:
- Renders each document (web, PDF, image) to image tiles.
- Embeds them with Qwen3-VL-Embedding, LoRA fine-tuned on screenshots.
- Builds a FAISS index and serves a search API.
A stronger reader model lifts accuracy with no re-indexing, since the index is just pixels.
Everything is open-source under Apache-2.0.
GitHub repo: https://t.co/qun9TjAdmw
Talking about RAG, I recently wrote an article on a new approach that makes retrieval much more efficient by cutting corpus size by 40x, reducing tokens per query by 3x, and improving vector search relevance by 2.3x.
The article is quoted below.
Seu Claude Code gasta 71% mais token do que precisa. e você tá pagando por isso.
O Ponytail é uma skill open source que resolve. ele faz o Claude Code raciocinar em 6 etapas antes de escrever qualquer linha:
1. Precisa mesmo de código?
2. Já existe na biblioteca padrão?
3. É nativo da plataforma?
4. Dá pra usar uma dependência já instalada?
5. Resolve em uma linha?
6. Se nada acima funcionar: escreve só o mínimo.
O resultado com Claude Opus:
71% menos linhas de código
53% menos custo
71% mais rápido
"Preguiçoso, mas não negligente." segurança e tratamento de erro continuam intactos.
É só um arquivo de skill. ativa quando quiser, desativa quando não precisar. sem abstração, sem plataforma fechada.
Link do repo nos comentários.
salva.
Um dev na China chamado tw93 cansou do notebook dele morrendo.
Abria Slack e via 524 megabytes de disco sumirem. Abria Discord e iam mais 265. Abria Notion e 800 megabytes de RAM evaporavam antes dele digitar uma letra.
Foi investigar.
Todo "app de desktop" no computador dele era a mesma coisa. Um site embrulhado numa cópia inteira do motor do Chrome. O framework chama Electron. Um app Electron vazio começa em 150 megabytes de RAM antes de qualquer clique. Com doze abertos, o notebook dele rodava doze cópias do mesmo navegador.
Achou que tinha que ter um jeito melhor.
Em 2022, começou a construir.
Chamou de Pake. Dois caracteres em chinês que significam "embalar". Escreveu em Rust em cima de um framework chamado Tauri. A ideia era simples. Aponta o Pake pra qualquer página web. Sai um app de desktop. Sem arrastar um navegador inteiro junto no binário.
A primeira versão do Slack que ele empacotou: 8 megabytes.
Não 524. Oito.
É isso que 65 vezes menor parece.
Quatro anos depois, o repo dele tem 50.594 estrelas. 6.144 forks. Licença MIT. Último commit foi ontem.
A bio dele no GitHub diz: "Anything added dilutes everything else."
Hoje a página de releases do Pake tem apps prontos pra ChatGPT, Discord, Gemini, Grok, DeepSeek, Twitter, YouTube, Excalidraw, Flomo, WeChat e mais doze. Todos abaixo de 10 megabytes. Todos nativos. Todos de graça.
Ou você aponta o Pake pra qualquer URL e ele te constrói um app com um comando.
Slack desktop: 524 megabytes. Pake-Slack: 8 megabytes.
Discord desktop: 265 megabytes. Pake-Discord: 9 megabytes.
ChatGPT Windows: 260 megabytes. Pake-ChatGPT: 9 megabytes.
tw93 é uma pessoa. Tem 11.305 seguidores no GitHub. Mantém um blog em https://t.co/BuMdnF3Gvc. Lançou 39 repos públicos. Ainda dá push no Pake toda semana.
Não fundou empresa. Não levantou rodada. Não escreveu post no Medium chamado "Electron tá morto".
Só shipou a coisa que provou que tava.
(link nos comentários)
Quem não é designer já sentiu essa vergonha: ter uma ideia boa e entregar ela feia. ontem isso mudou.
a atualização que liga o Claude Design direto ao Claude Code foi lançada pela Anthropic.
não é coisa só pra quem programa. quem cria com ia em projetos freela também sente essa mudança.
agora o que você desenha vira código sem perder o que já foi feito. e o que muda no código aparece direto no desenho. sem ida e volta perdida.
também ficou mais fácil ajustar tudo na tela: arrastar e redimensionar elementos sem precisar refazer do zero.
exporta pronto em PDF ou PowerPoint, e conecta com outras ferramentas que você já usa.
isso pode mudar como você entrega projeto a partir de agora.
você já testou? conta aqui.
New in Claude Code: Artifacts.
Interactive pages built from your session, like a PR walkthrough or a living project dashboard, shared with your team at a private link.
Available in beta on Team and Enterprise plans.
Isso 1000x
Depois que clicou na minha cabeça que toda aplicaçao é uma máquina de estados e meu trabalho é codificar os estados e suas transiçoes a qualidade do meu código melhorou MUITO.
Meu checklist antes de revisar um PR:
1. Pegar contexto do problema pelo ticket, ou em um sync rápido via chat/call.
2. Checar os pipelines de testes, lint e build.
3. Ler o código e entender se:
- O código segue o que está descrito nos requisitos?
- Está seguindo as convenções da codebase?
- Tem algo que pode ser melhorado?
- Existe alguma parte que eu não domino o suficiente? Preciso pedir revisão de outro funcionário antes de seguir?
- Tem algo que não pode subir para produção, algum "anti-pattern" ou vulnerabilidade?
4. Se a checklist acima não bater, deixar comentários, rejeitar ou aprovar.
As a result of a US government directive, we are suspending access to Claude Fable 5 for all users. You can continue to use all other Claude models.
Here’s what this means for you:
Across Claude products, new sessions will run on your selected default model or Opus 4.8, and existing Fable 5 sessions will end with an error.
On the Claude Platform, requests to Fable 5 will also return an error. Please update your integrations to other Claude models.
We know this is a disruption to your workflows; we appreciate your patience and support.
Engenharia salvando seu agente de IA!
quando você tem um harness de IA atendendo suporte, boa parte das perguntas se repetem com palavras diferentes
"como reseto minha senha" e "esqueci meu acesso" são semanticamente a mesma coisa
cache semântico resolve isso:
→ você gera embeddings das queries dos usuários
→ armazena embedding + resposta no vector store
→ quando chega uma nova query, calcula similaridade
→ se o score bater o threshold, devolve a resposta cacheada direto
→ sem chamar o LLM, sem gastar token
o resultado? ~70% de redução no consumo de tokens em fluxos de suporte com alta repetição
não é uma bala de prata pode funcionar bem pra domínios previsíveis como suporte, FAQ, onboarding
Mas aqui está uma das otimizações de maior ROI que você pode fazer hoje