Erosión del contexto: por qué los agentes de IA decaen cuanto más tiempo funcionan

Rot is not the context window
The research points in one direction
Agents make it worse because agents act
The harness is the product
Context as a means of production
Small teams can win this
Symptoms
Fighting it
The new literacy

Por AIHumanLove Editorial · Publicado el 9 de mayo de 2026

El agente empieza despierto. Capta el objetivo, el código, las restricciones, y avanza. A la hora, algo cambia. Reabre cuestiones que ya estaban cerradas. Cita instrucciones que tú habías sustituido veinte mensajes atrás. Aplica un parche local que rompe la arquitectura sin darse cuenta. Duda sobre cosas en las que era fluido una hora antes, y se vuelve verboso donde antes era decidido.

El modelo no ha empeorado. La sesión se ha corrompido.

La erosión del contexto es la degradación de la inteligencia efectiva de un sistema de IA a medida que su contexto de trabajo se llena de ruido, contradicción y razonamientos caducos. Es el límite práctico más importante para la productividad de los agentes ahora mismo, y casi nadie lo está poniendo en precio correctamente.

La erosión no es la ventana de contexto

El límite duro es otro problema. Cuando lo tocas, el sistema trunca y te enteras. La erosión llega antes, y en silencio. La salida sigue siendo fluida; pero por debajo, la relación señal/ruido se está hundiendo.

Una sesión madura suele arrastrar instrucciones sustituidas, resultados de herramientas obsoletos, ramas experimentales fallidas tratadas como vivas, planes contradictorios, resúmenes de archivos con pérdidas, rastros de razonamiento abandonados, y decisiones de arquitectura enterradas bajo tres rondas de depuración. El modelo lo atiende todo. No juzga con fiabilidad qué tokens son autoritativos o frescos. Más contexto se vuelve más distracción. El agente se siente olvidadizo, inconsistente, extrañamente poco fiable — un cambio de personalidad producido enteramente por el sedimento.

La investigación apunta en una dirección

El trabajo «Lost in the Middle» mostró que los modelos usan con fiabilidad la información del principio y del final de los contextos largos, y pierden el medio. RULER y los benchmarks que vinieron después demostraron que tareas reales — razonamiento de varios saltos, agregación, recuperación estructurada — se degradan abruptamente con la longitud y la complejidad, muy por debajo de las ventanas anunciadas. Estudios más recientes muestran caídas de rendimiento en entradas largas incluso con recuperación perfecta.

La lectura llana: la longitud de contexto anunciada no es la longitud de contexto efectiva. Y los peores distractores no son ruido aleatorio, sino material plausiblemente relacionado — la teoría de bug descartada, el requisito que estuvo a punto, la versión del plan que abandonaste. La erosión envenena con más eficacia cuando el contenido se parece a señal.

Los agentes lo empeoran porque los agentes actúan

En una interfaz de chat, la erosión produce respuestas mediocres. En un agente, la erosión produce daño compuesto, porque cada inferencia equivocada se convierte en una llamada a una herramienta, una edición de archivo, un test ya comprometido. Es la misma dinámica que tratamos en nuestro artículo sobre el código oscuro: software que corre pero que ningún humano comprende del todo, en parte porque el agente que lo escribió trabajaba con un contexto que ya se había desviado.

Los agentes de programación modernos funcionan en gran parte porque les pusieron herramientas en la mano — sistema de archivos, terminal, tests, búsqueda, control de versiones — así pueden reunir contexto en lugar de depender de lo que el usuario pegue. Pero cada llamada a una herramienta deposita sedimento. Una ejecución corta es limpia. Una larga es una excavación arqueológica de su propia historia, y el agente es el arqueólogo que no sabe distinguir qué capa es la actual.

El arnés es el producto

Nadie usa un modelo en crudo. Todo el mundo usa un arnés — la capa que controla el esfuerzo de razonamiento, la retención de historia, los resúmenes, las políticas de herramientas y la estabilidad del prompt. (Indagamos en las decisiones de diseño públicas de uno de esos arneses en nuestro artículo sobre el paper de arquitectura de Claude Code.)

El postmortem de Anthropic sobre Claude Code de abril de 2026 lo dejó a la vista. Tres cambios independientes en la capa de producto, lanzados entre marzo y abril, habían degradado el rendimiento de Claude Code para una parte significativa de los usuarios — ninguno tocaba los pesos del modelo subyacente. La API en bruto no se vio afectada en ningún momento; el daño quedó confinado a Claude Code, el Agent SDK y Cowork. Un valor por defecto de esfuerzo de razonamiento, un cambio de caché, una edición de prompt — tres mandos del arnés, y la inteligencia percibida cayó durante seis semanas.

Para trabajo serio, el arnés es el producto. Un modelo fuerte en un arnés descuidado pierde habitualmente contra un modelo más débil en uno limpio e inspeccionable. Esto resulta incómodo para compradores que quieren comparar modelos en un ranking. El ranking mide algo real, pero no la cosa que determina si el agente entrega tu proyecto.

El contexto como medio de producción

La economía va detrás. A medida que los agentes ocupan el centro del trabajo del conocimiento, el control sobre contexto de alta calidad se convierte en un foso defensivo.

Los estratos ya existen. Los usuarios gratuitos y de contexto corto reciben ayuda informal. Los usuarios de pago reciben sesiones más largas y mejores valores por defecto. Los equipos con acceso a la API y disciplina de ingeniería construyen orquestación, recuperación y arneses a medida alrededor del modelo — a menudo con servidores MCP conectados a sus propias fuentes de datos. La brecha entre estos estratos se está abriendo más rápido que la brecha entre los modelos subyacentes.

La verdadera división no es entre usuarios de IA y no usuarios. Es entre quienes consumen la salida de la IA y quienes dirigen flujos de trabajo de agentes limpios y de alta señal. Los tokens compran intentos. La disciplina de contexto determina cuántos de esos intentos se convierten en trabajo útil, y los equipos que son dueños de la capa de contexto se llevan las ganancias.

Los equipos pequeños pueden ganar aquí

Los equipos pequeños nativos de IA suelen adelantar a organizaciones más grandes porque la persona experta en el dominio dirige el agente directamente. El editor de vídeo que sabe qué hace que una miniatura convierta, el contable que sabe por dónde se rompe de verdad la conciliación — traducen el criterio en flujo de trabajo sin esperar a que IT central se lo especifique.

La ventaja es real pero condicional. Sin higiene de contexto, cada automatización se convierte en otra ciénaga, y la velocidad del equipo pequeño se transforma en una vía rápida hacia la incoherencia.

La misma dinámica se reproduce a escala, en sentido inverso. Las organizaciones grandes ya tienen erosión de contexto humano — documentos rancios, políticas contradictorias, tickets abandonados, tres fuentes de verdad compitiendo. Cablear un LLM a esa base de conocimiento eleva la confianza sin elevar la precisión. El agente, ahora, articula las contradicciones con fluidez.

Síntomas

Estás viendo erosión de contexto cuando el agente repite planes que ya había ejecutado, olvida restricciones explícitas, sigue instrucciones sustituidas, aplica parches locales que rompen la arquitectura global, expresa alta confianza sobre archivos que sólo leyó en parte, trata los intentos fallidos como evidencia para nuevos intentos, se vuelve más verboso sin volverse más claro y no es capaz de explicar por qué tomó la decisión que acaba de tomar.

Cualquiera de estas, por sí sola, es ruido. Tres a la vez significan reinicio.

Combatirla

Combatir la erosión de contexto no tiene nada de exótico. Hay cinco prácticas que importan más que el resto.

Reduce el alcance. Dale al agente un único trabajo, restricciones explícitas y una definición de hecho.
Reinicia antes. Un resumen destilado vence a una sesión hinchada.
Mantén la verdad fuera del chat. Los archivos de proyecto, arquitectura y decisiones deben sostener la memoria duradera.
Que los tests carguen las restricciones. Las comprobaciones ejecutables no sufren decaimiento de atención.
Sé dueño de la arquitectura. Deja que el agente implemente dentro de una forma de sistema que el humano sigue entendiendo.

Más allá de eso, los equipos serios necesitan tratar el arnés mismo como infraestructura: estabilidad de prompts, política de contexto, presupuesto de razonamiento, observabilidad y rollback.

La nueva alfabetización

La erosión del contexto deja al descubierto algo fácil de olvidar sobre la IA. La inteligencia no se invoca de la nada — depende del espacio de trabajo que le preparas.

La habilidad de mayor palanca ya no es escribir prompts, y tampoco es exactamente programar. Es alfabetización de agentes: dirigir sistemas semiautónomos a través de procesos limpios, inspeccionables y de alta señal. Saber cuándo reiniciar, cuándo recuperar, cuándo borrar y cuándo parar.

Los agentes no sustituyen a las personas en bloque. Amplifican a los operadores con oficio, dejan a la vista los procesos débiles y castigan la disciplina de contexto floja. La frontera es contexto más limpio, no modelos más grandes.

Paga el impuesto conscientemente y la IA se convierte en palanca. Ignóralo y hasta el mejor modelo acaba sintiéndose errático, caro y un poco poco fiable — que es exactamente la experiencia que la mayoría de los usuarios reporta ahora mismo.

← Volver al Blog