Erosão de contexto: por que os agentes de IA decaem quanto mais tempo rodam

Rot is not the context window
The research points in one direction
Agents make it worse because agents act
The harness is the product
Context as a means of production
Small teams can win this
Symptoms
Fighting it
The new literacy

Por AIHumanLove Editorial · Publicado em 9 de maio de 2026

O agente começa afiado. Capta o objetivo, o código, as restrições, e segue em frente. Uma hora depois, algo muda. Reabre questões já fechadas. Cita instruções que você tinha substituído vinte mensagens atrás. Aplica um patch local que quebra a arquitetura sem alarde. Hesita em coisas que dominava uma hora antes, e fica prolixo onde antes era decidido.

O modelo não piorou. A sessão apodreceu.

Erosão de contexto é a degradação da inteligência efetiva de um sistema de IA à medida que seu contexto de trabalho enche de ruído, contradição e raciocínio velho. É o limite prático mais importante à produtividade dos agentes neste momento, e quase ninguém está precificando isso corretamente.

A erosão não é a janela de contexto

O limite duro é outro problema. Quando você bate nele, o sistema trunca e você percebe. A erosão chega antes e em silêncio. A saída continua fluida; por baixo, a relação sinal/ruído despenca.

Uma sessão madura costuma carregar instruções substituídas, resultados de ferramentas defasados, ramos experimentais malsucedidos tratados como vivos, planos contraditórios, resumos de arquivos com perdas, rastros de raciocínio abandonados, e decisões arquiteturais soterradas sob três rodadas de depuração. O modelo presta atenção a tudo isso. Não julga com confiabilidade quais tokens são autoritativos ou recentes. Mais contexto vira mais distração. O agente parece esquecido, inconsistente, estranhamente pouco confiável — uma mudança de personalidade produzida inteiramente pelo sedimento.

A pesquisa aponta numa só direção

O trabalho "Lost in the Middle" mostrou que modelos usam de forma confiável informação no início e no fim de contextos longos e perdem o meio. RULER e os benchmarks seguintes demonstraram que tarefas do mundo real — raciocínio em múltiplos saltos, agregação, recuperação estruturada — se degradam abruptamente com o aumento de tamanho e complexidade, muito dentro das janelas anunciadas. Estudos mais recentes mostram queda de desempenho em entradas longas mesmo com recuperação perfeita.

A leitura direta: tamanho de contexto anunciado não é tamanho de contexto efetivo. E os piores distratores não são ruído aleatório, mas material plausivelmente relacionado — a teoria de bug que você descartou, o requisito que quase casava, a versão do plano que você abandonou. A erosão envenena com mais eficiência quando o conteúdo parece sinal.

Os agentes pioram tudo porque os agentes agem

Numa interface de chat, a erosão produz respostas medianas. Num agente, a erosão produz dano composto, porque cada inferência errada vira uma chamada de ferramenta, uma edição de arquivo, um teste comitado. É a mesma dinâmica que cobrimos em nosso artigo sobre código obscuro: software que roda mas que nenhum humano entende por inteiro, em parte porque o agente que o escreveu trabalhava num contexto que já havia desviado.

Os agentes de programação modernos funcionam em grande parte porque puseram ferramentas em suas mãos — sistema de arquivos, terminal, testes, busca, controle de versão — para que possam coletar contexto em vez de depender do que o usuário cola. Mas cada chamada de ferramenta deposita sedimento. Uma execução curta é limpa. Uma execução longa é uma escavação arqueológica em sua própria história, e o agente é o arqueólogo que não consegue dizer qual camada é a atual.

O arnês é o produto

Ninguém usa um modelo cru. Todo mundo usa um arnês — a camada que controla esforço de raciocínio, retenção de histórico, sumarização, políticas de ferramentas e estabilidade de prompt. (Investigamos as decisões de design públicas por trás de um desses arneses em nosso artigo sobre o paper de arquitetura do Claude Code.)

O postmortem de abril de 2026 da Anthropic sobre o Claude Code deixou isso visível. Três mudanças independentes na camada de produto, lançadas entre março e abril, haviam degradado o desempenho do Claude Code para uma parcela significativa dos usuários — nenhuma delas tocava os pesos do modelo base. A API crua não foi afetada em momento algum; o dano ficou restrito ao Claude Code, ao Agent SDK e ao Cowork. Um valor padrão de esforço de raciocínio, uma mudança de cache, uma edição de prompt — três botões no arnês, e a inteligência percebida caiu por seis semanas.

Para trabalho sério, o arnês é o produto. Um modelo forte num arnês desleixado perde rotineiramente para um modelo mais fraco num arnês limpo e inspecionável. Isso é desconfortável para compradores que querem comparar modelos num ranking. O ranking está medindo algo real, mas não a coisa que determina se o agente entrega seu projeto.

O contexto como meio de produção

A economia vem atrás. À medida que os agentes ocupam o centro do trabalho de conhecimento, o controle sobre contexto de alta qualidade vira um fosso defensivo.

Os patamares já existem. Usuários gratuitos e de contexto curto recebem ajuda casual. Usuários pagantes recebem sessões mais longas e padrões melhores. Times com acesso à API e disciplina de engenharia constroem orquestração, recuperação e arneses sob medida em torno do modelo — muitas vezes com servidores MCP plugados às suas próprias fontes de dados. A distância entre esses patamares está se abrindo mais rápido do que a distância entre os modelos por baixo.

A divisão de verdade não é entre usuários de IA e não usuários. É entre quem consome a saída da IA e quem dirige fluxos de trabalho de agente limpos e de alto sinal. Tokens compram tentativas. Disciplina de contexto determina quantas dessas tentativas viram trabalho útil, e os times que são donos da camada de contexto capturam os ganhos.

Times pequenos podem vencer aqui

Times pequenos nativos de IA frequentemente passam à frente de organizações maiores porque a pessoa que entende do domínio dirige o agente diretamente. O editor de vídeo que sabe o que faz uma thumbnail converter, o contador que sabe onde a conciliação de fato quebra — eles traduzem julgamento em fluxo de trabalho sem esperar que o TI central especifique.

A vantagem é real, mas condicional. Sem higiene de contexto, cada automação vira outro pântano, e a velocidade do time pequeno se transforma num atalho para a incoerência.

A mesma dinâmica acontece em escala, no sentido inverso. Organizações grandes já têm erosão de contexto humana — docs velhos, políticas contraditórias, tickets abandonados, três fontes de verdade competindo. Ligar um LLM a essa base de conhecimento eleva a confiança sem elevar a acurácia. O agente, agora, articula as contradições com fluência.

Sintomas

Você está vendo erosão de contexto quando o agente repete planos que já executou, esquece restrições explícitas, segue instruções substituídas, aplica patches locais que quebram a arquitetura global, expressa alta confiança em arquivos que só leu em parte, trata tentativas falhas como evidência para novas tentativas, fica mais prolixo sem ficar mais claro, e não consegue explicar por que tomou a decisão que acabou de tomar.

Qualquer um destes, isolado, é ruído. Três ao mesmo tempo significam reiniciar.

Combatendo a erosão

Combater a erosão de contexto não tem nada de exótico. Cinco práticas importam mais que as outras.

Reduza o escopo. Dê ao agente um único trabalho, restrições explícitas e uma definição de pronto.
Reinicie antes. Um briefing destilado vence uma sessão inflada.
Mantenha a verdade fora do chat. Arquivos de projeto, arquitetura e decisões devem carregar a memória durável.
Que os testes carreguem as restrições. Checagens executáveis não sofrem com queda de atenção.
Seja dono da arquitetura. Deixe o agente implementar dentro de um formato de sistema que o humano ainda entenda.

Além disso, times sérios precisam tratar o próprio arnês como infraestrutura: estabilidade de prompt, política de contexto, orçamento de raciocínio, observabilidade e rollback.

A nova alfabetização

A erosão de contexto expõe algo fácil de esquecer sobre IA. A inteligência não é invocada do nada — depende do espaço de trabalho que você prepara para ela.

A habilidade de maior alavancagem não é mais escrever prompts, e também não é exatamente programar. É alfabetização em agentes: dirigir sistemas semiautônomos através de processos limpos, inspecionáveis e de alto sinal. Saber quando reiniciar, quando recuperar, quando deletar e quando parar.

Os agentes não substituem trabalhadores por atacado. Eles amplificam operadores com ofício, expõem processos fracos e punem disciplina de contexto fraca. A fronteira é contexto mais limpo, não modelos maiores.

Pague o imposto conscientemente e a IA vira alavanca. Ignore-o e até o melhor modelo acaba parecendo errático, caro e um pouco pouco confiável — que é exatamente a experiência que a maioria dos usuários relata ter agora.

← Voltar ao Blog