O agente começa afiado. Capta o objetivo, o código, as restrições, e segue em frente. Uma hora depois, algo muda. Reabre questões já fechadas. Cita instruções que você tinha substituído vinte mensagens atrás. Aplica um patch local que quebra a arquitetura sem alarde. Hesita em coisas que dominava uma hora antes, e fica prolixo onde antes era decidido.
O modelo não piorou. A sessão apodreceu.
Erosão de contexto é a degradação da inteligência efetiva de um sistema de IA à medida que seu contexto de trabalho enche de ruído, contradição e raciocínio velho. É o limite prático mais importante à produtividade dos agentes neste momento, e quase ninguém está precificando isso corretamente.
A erosão não é a janela de contexto
O limite duro é outro problema. Quando você bate nele, o sistema trunca e você percebe. A erosão chega antes e em silêncio. A saída continua fluida; por baixo, a relação sinal/ruído despenca.
Uma sessão madura costuma carregar instruções substituídas, resultados de ferramentas defasados, ramos experimentais malsucedidos tratados como vivos, planos contraditórios, resumos de arquivos com perdas, rastros de raciocínio abandonados, e decisões arquiteturais soterradas sob três rodadas de depuração. O modelo presta atenção a tudo isso. Não julga com confiabilidade quais tokens são autoritativos ou recentes. Mais contexto vira mais distração. O agente parece esquecido, inconsistente, estranhamente pouco confiável — uma mudança de personalidade produzida inteiramente pelo sedimento.
A pesquisa aponta numa só direção
O trabalho "Lost in the Middle" mostrou que modelos usam de forma confiável informação no início e no fim de contextos longos e perdem o meio. RULER e os benchmarks seguintes demonstraram que tarefas do mundo real — raciocínio em múltiplos saltos, agregação, recuperação estruturada — se degradam abruptamente com o aumento de tamanho e complexidade, muito dentro das janelas anunciadas. Estudos mais recentes mostram queda de desempenho em entradas longas mesmo com recuperação perfeita.
A leitura direta: tamanho de contexto anunciado não é tamanho de contexto efetivo. E os piores distratores não são ruído aleatório, mas material plausivelmente relacionado — a teoria de bug que você descartou, o requisito que quase casava, a versão do plano que você abandonou. A erosão envenena com mais eficiência quando o conteúdo parece sinal.
Os agentes pioram tudo porque os agentes agem
Numa interface de chat, a erosão produz respostas medianas. Num agente, a erosão produz dano composto, porque cada inferência errada vira uma chamada de ferramenta, uma edição de arquivo, um teste comitado. É a mesma dinâmica que cobrimos em nosso artigo sobre código obscuro: software que roda mas que nenhum humano entende por inteiro, em parte porque o agente que o escreveu trabalhava num contexto que já havia desviado.
Os agentes de programação modernos funcionam em grande parte porque puseram ferramentas em suas mãos — sistema de arquivos, terminal, testes, busca, controle de versão — para que possam coletar contexto em vez de depender do que o usuário cola. Mas cada chamada de ferramenta deposita sedimento. Uma execução curta é limpa. Uma execução longa é uma escavação arqueológica em sua própria história, e o agente é o arqueólogo que não consegue dizer qual camada é a atual.
O arnês é o produto
Ninguém usa um modelo cru. Todo mundo usa um arnês — a camada que controla esforço de raciocínio, retenção de histórico, sumarização, políticas de ferramentas e estabilidade de prompt. (Investigamos as decisões de design públicas por trás de um desses arneses em nosso artigo sobre o paper de arquitetura do Claude Code.)
O postmortem de abril de 2026 da Anthropic sobre o Claude Code deixou isso visível. Três mudanças independentes na camada de produto, lançadas entre março e abril, haviam degradado o desempenho do Claude Code para uma parcela significativa dos usuários — nenhuma delas tocava os pesos do modelo base. A API crua não foi afetada em momento algum; o dano ficou restrito ao Claude Code, ao Agent SDK e ao Cowork. Um valor padrão de esforço de raciocínio, uma mudança de cache, uma edição de prompt — três botões no arnês, e a inteligência percebida caiu por seis semanas.
Para trabalho sério, o arnês é o produto. Um modelo forte num arnês desleixado perde rotineiramente para um modelo mais fraco num arnês limpo e inspecionável. Isso é desconfortável para compradores que querem comparar modelos num ranking. O ranking está medindo algo real, mas não a coisa que determina se o agente entrega seu projeto.
O contexto como meio de produção
A economia vem atrás. À medida que os agentes ocupam o centro do trabalho de conhecimento, o controle sobre contexto de alta qualidade vira um fosso defensivo.
Os patamares já existem. Usuários gratuitos e de contexto curto recebem ajuda casual. Usuários pagantes recebem sessões mais longas e padrões melhores. Times com acesso à API e disciplina de engenharia constroem orquestração, recuperação e arneses sob medida em torno do modelo — muitas vezes com servidores MCP plugados às suas próprias fontes de dados. A distância entre esses patamares está se abrindo mais rápido do que a distância entre os modelos por baixo.
A divisão de verdade não é entre usuários de IA e não usuários. É entre quem consome a saída da IA e quem dirige fluxos de trabalho de agente limpos e de alto sinal. Tokens compram tentativas. Disciplina de contexto determina quantas dessas tentativas viram trabalho útil, e os times que são donos da camada de contexto capturam os ganhos.
Times pequenos podem vencer aqui
Times pequenos nativos de IA frequentemente passam à frente de organizações maiores porque a pessoa que entende do domínio dirige o agente diretamente. O editor de vídeo que sabe o que faz uma thumbnail converter, o contador que sabe onde a conciliação de fato quebra — eles traduzem julgamento em fluxo de trabalho sem esperar que o TI central especifique.
A vantagem é real, mas condicional. Sem higiene de contexto, cada automação vira outro pântano, e a velocidade do time pequeno se transforma num atalho para a incoerência.
A mesma dinâmica acontece em escala, no sentido inverso. Organizações grandes já têm erosão de contexto humana — docs velhos, políticas contraditórias, tickets abandonados, três fontes de verdade competindo. Ligar um LLM a essa base de conhecimento eleva a confiança sem elevar a acurácia. O agente, agora, articula as contradições com fluência.
Sintomas
Você está vendo erosão de contexto quando o agente repete planos que já executou, esquece restrições explícitas, segue instruções substituídas, aplica patches locais que quebram a arquitetura global, expressa alta confiança em arquivos que só leu em parte, trata tentativas falhas como evidência para novas tentativas, fica mais prolixo sem ficar mais claro, e não consegue explicar por que tomou a decisão que acabou de tomar.
Qualquer um destes, isolado, é ruído. Três ao mesmo tempo significam reiniciar.
Combatendo a erosão
Combater a erosão de contexto não tem nada de exótico. Cinco práticas importam mais que as outras.
- Reduza o escopo. Dê ao agente um único trabalho, restrições explícitas e uma definição de pronto.
- Reinicie antes. Um briefing destilado vence uma sessão inflada.
- Mantenha a verdade fora do chat. Arquivos de projeto, arquitetura e decisões devem carregar a memória durável.
- Que os testes carreguem as restrições. Checagens executáveis não sofrem com queda de atenção.
- Seja dono da arquitetura. Deixe o agente implementar dentro de um formato de sistema que o humano ainda entenda.
Além disso, times sérios precisam tratar o próprio arnês como infraestrutura: estabilidade de prompt, política de contexto, orçamento de raciocínio, observabilidade e rollback.
A nova alfabetização
A erosão de contexto expõe algo fácil de esquecer sobre IA. A inteligência não é invocada do nada — depende do espaço de trabalho que você prepara para ela.
A habilidade de maior alavancagem não é mais escrever prompts, e também não é exatamente programar. É alfabetização em agentes: dirigir sistemas semiautônomos através de processos limpos, inspecionáveis e de alto sinal. Saber quando reiniciar, quando recuperar, quando deletar e quando parar.
Os agentes não substituem trabalhadores por atacado. Eles amplificam operadores com ofício, expõem processos fracos e punem disciplina de contexto fraca. A fronteira é contexto mais limpo, não modelos maiores.
Pague o imposto conscientemente e a IA vira alavanca. Ignore-o e até o melhor modelo acaba parecendo errático, caro e um pouco pouco confiável — que é exatamente a experiência que a maioria dos usuários relata ter agora.