Durante el último año, el modelo de negocio de la IA de frontera se ha apoyado en un supuesto: si quieres el mejor agente de programación de largo recorrido, pagas por un modelo cerrado. GLM-5.2 debilita ese supuesto. No supera con claridad a Claude Opus 4.8 y no reemplaza universalmente a GPT-5.5, pero está lo bastante cerca en benchmarks importantes de ingeniería de software, y es lo bastante barato, como para cambiar la decisión.
La comparación más limpia: FrontierSWE
El benchmark individual más justo aquí es FrontierSWE, porque los tres modelos están en el mismo leaderboard y bajo el mismo harness. Claude Opus 4.8 es primero con un 75% de dominancia, GLM-5.2 le sigue con un 74% y GPT-5.5 con un 73%.
La lectura honesta no es «GLM gana». Es que GLM-5.2 está ahora a un paso de los mejores modelos cerrados de agentes de programación en un benchmark difícil de ingeniería de software de largo recorrido. Para un modelo de pesos abiertos, esa es la verdadera noticia. La propia Z.ai presenta a GLM como un punto por detrás de Opus 4.8 en FrontierSWE, una afirmación que coincide con el leaderboard independiente.
Opus 4.8 sigue siendo el líder en calidad
No conviene descartar a Claude Opus 4.8. Con los datos públicos actuales, parece el más fuerte de los tres para programación con agentes seria y tareas de software de larga duración. Lidera en FrontierSWE, y Artificial Analysis también lo coloca en lo alto de su Índice de Inteligencia más amplio.
La parte menos obvia es la honestidad. Anthropic afirma que Opus 4.8 es más propenso a señalar incertidumbre, a discrepar y a detectar fallos en su propio trabajo, y sostiene que es unas cuatro veces menos probable que Opus 4.7 que deje pasar sin comentar fallos en su propio código. Son afirmaciones del proveedor, así que conviene tomarlas como posicionamiento, no como prueba. Pero para los agentes de programación el fondo importa: un modelo que escribe código impresionante mientras deja en silencio supuestos rotos puede salir caro de usar, aunque la factura de tokens parezca razonable.
GPT-5.5: fuerte, pero con un panorama mixto
GPT-5.5 no es débil. Puntúa muy bien en el propio conjunto de OpenAI: Terminal-Bench, GDPval, OSWorld-Verified, BrowseComp y evaluaciones de uso de herramientas. La complicación es que la comparación GPT-5.5 frente a Opus 4.8 no siempre es limpia: los materiales de lanzamiento de OpenAI comparan sobre todo con Claude Opus 4.7, porque la 4.8 aún no había salido. Datos posteriores de terceros (FrontierSWE, Artificial Analysis) hacen que Opus 4.8 parezca más fuerte en algunas áreas de agentes.
Eso no hace malo a GPT-5.5: significa que hay que describirlo con precisión. GPT-5.5 luce especialmente fuerte para el uso amplio de herramientas, el trabajo profesional del conocimiento, los flujos de terminal y la integración con el ecosistema de OpenAI, y puede ser más eficiente en tokens en algunos flujos. Pero en las comparaciones públicas actuales de agentes de programación de largo recorrido, tanto Opus 4.8 como GLM-5.2 le presionan de verdad.
GLM-5.2: coste más apertura
La mayor fortaleza de GLM-5.2 no es vencer a todos los modelos de frontera: no lo hace. Su fortaleza es que se acerca siendo abierto y mucho más barato de ejecutar. Según Artificial Analysis tiene licencia MIT, es un modelo de mezcla de expertos de 744.000 millones de parámetros totales / 40.000 millones activos, con una ventana de contexto de un millón de tokens, y un precio en la API propia de Z.ai de unos 1,40 USD de entrada y 4,40 USD de salida por millón de tokens. Opus 4.8 cuesta 5 / 25 USD y GPT-5.5, 5 / 30 USD.
Esa diferencia importa porque los agentes de programación son fábricas de tokens. Planifican, inspeccionan archivos, escriben código, ejecutan pruebas, leen errores, corrigen y repiten, así que el precio del token de salida marca el coste real. Si un modelo es algo más débil pero entre cinco y siete veces más barato en salida, la economía puede darse la vuelta rápido. GLM-5.2 no necesita ser el mejor modelo del mundo; solo necesita ser lo bastante bueno en suficientes tareas de agentes como para que los equipos empiecen a enrutar hacia él una parte importante del trabajo. Nuestro directorio de herramientas de desarrollo y programación recoge las herramientas de agentes donde esa decisión de enrutamiento se juega de verdad.
La trampa de los benchmarks: no compares cada cifra directamente
El punto de transparencia más importante: no todas las cifras deben tratarse como comparables uno a uno. La tabla siguiente mantiene a la vista, a propósito, los detalles de versión y harness.
| Benchmark | Cifras declaradas | Por qué hay que ser prudente |
|---|---|---|
| SWE-Bench Pro | GLM-5.2 62,1 (Z.ai) · GPT-5.5 58,6 (OpenAI) | Declaradas por cada proveedor; la propia OpenAI señala indicios de memorización en este benchmark. |
| Terminal-Bench | GLM-5.2 81,0 en v2.1 (Z.ai) · GPT-5.5 82,7 en v2.0 (OpenAI) | Versiones y harnesses de benchmark distintos: no son comparables directamente. |
| PostTrainBench | GLM-5.2 #1; Opus 4.8 Max en 34,1% tras la actualización del 17 de junio de 2026 | Un benchmark especializado de automatización de I+D de IA (mejorar un modelo pequeño en una H100 en 10 horas), no una puntuación general de programación. |
La conclusión segura es buscar señales repetidas entre varios benchmarks en lugar de coronar un único leaderboard. Una afirmación de una línea del tipo «GPT gana a GLM» o «GLM gana a GPT» es fácil de hacer y fácil de equivocar.
Qué respaldan de verdad los datos
| Afirmación | Qué respaldan los datos | Confianza |
|---|---|---|
| GLM-5.2 está cerca de Opus 4.8 en programación de largo recorrido | FrontierSWE: Opus 75% vs GLM 74%; Z.ai también declara una diferencia de ~1 punto. | Alta |
| GLM-5.2 supera a GPT-5.5 en algunos benchmarks de agentes | FrontierSWE: GLM 74% vs GPT 73%; SWE-Bench Pro favorece a GLM, pero con matices de versión/harness. | Media-alta |
| Opus 4.8 es el más fuerte de los tres para programación con agentes seria | Encabeza FrontierSWE y el Índice de Inteligencia de Artificial Analysis (61 vs 60 vs 51). | Alta |
| GLM-5.2 tiene la mejor historia de coste/apertura | Licencia MIT, 1M de contexto, ~1,40/4,40 USD por 1M de tokens frente a 5/25 y 5/30. | Alta |
| PostTrainBench favorece a GLM-5.2 | GLM #1 tras la actualización del 17 de junio; benchmark especializado de I+D, no de programación general. | Media |
| Opus 4.8 se promociona en torno a la honestidad | Anthropic afirma que señala más la incertidumbre y deja pasar menos fallos de su propio código. | Media-alta (proveedor) |
Veredicto
Claude Opus 4.8 parece la opción de calidad más fuerte para el trabajo difícil de agentes de programación de larga duración. GPT-5.5 sigue siendo un modelo cerrado muy fuerte, sobre todo para flujos del ecosistema de OpenAI, tareas profesionales amplias y trabajo intensivo en herramientas. GLM-5.2 es el disruptor: no es claramente mejor que Opus 4.8, ni universalmente mejor que GPT-5.5, pero está lo bastante cerca en varios benchmarks importantes de agentes, es lo bastante abierto para desplegarse con libertad y lo bastante barato para forzar una revisión.
El mercado de modelos de frontera ya no es simplemente «paga más para obtener lo único que funciona». Se está convirtiendo en un problema de enrutamiento: usa Opus 4.8 cuando la calidad importe más, usa GPT-5.5 donde ganen el ecosistema de herramientas y la fiabilidad general de OpenAI, y prueba GLM-5.2 con decisión donde importen el coste, la apertura y la programación de contexto largo. GLM-5.2 no acaba con el modelo de negocio cerrado: lo hace más difícil de defender. Si quieres entender por qué las sesiones largas se degradan independientemente del modelo que elijas, nuestro artículo sobre el deterioro del contexto en agentes de IA es un buen complemento.
Preguntas frecuentes
¿Es GLM-5.2 mejor que Claude Opus 4.8?
No con claridad. En FrontierSWE —el único leaderboard que clasifica a los tres con el mismo harness— Opus 4.8 lidera con un 75% y GLM-5.2 con un 74%. Las puntuaciones compuestas independientes también sitúan a Opus en primer lugar. A GLM se le describe mejor como el desafío de pesos abiertos más fuerte, no como un ganador claro.
¿Por qué se considera disruptivo a GLM-5.2?
Coste y apertura. Tiene licencia MIT con un contexto de un millón de tokens, y el precio de la API propia de Z.ai (~1,40 USD de entrada / 4,40 USD de salida por millón de tokens) está muy por debajo de Opus 4.8 y GPT-5.5. Como la programación con agentes consume tokens de salida, ser «lo bastante bueno» por una fracción del coste cambia la decisión de compra.
¿Se pueden comparar estas cifras directamente?
No todas. Varias son declaradas por el proveedor y usan versiones o harnesses distintos (por ejemplo Terminal-Bench 2.0 frente a 2.1). FrontierSWE es la más limpia porque los tres aparecen en el mismo leaderboard.
¿Cuál debería usar?
Trátalo como enrutamiento, no como un único ganador: Opus 4.8 donde la corrección y la fiabilidad a largo plazo importen más, GPT-5.5 para el ecosistema de OpenAI y el uso amplio de herramientas, y GLM-5.2 donde dominen el coste, la apertura y la programación de contexto largo.
Fuentes
Fuentes independientes y primarias tras las cifras anteriores. Las cifras declaradas por los proveedores se etiquetan como tales a lo largo del artículo.
- Leaderboard de FrontierSWE — comparación a tres bandas: Opus 4.8 75%, GLM-5.2 74%, GPT-5.5 73%.
- Artificial Analysis — Índice de Inteligencia independiente, precios, parámetros y apertura de los tres modelos.
- PostTrainBench — benchmark de automatización de I+D de IA; actualización del 17 de junio de 2026 que coloca primero a GLM-5.2.
- Anthropic — Claude Opus 4.8 — posicionamiento, precios y las afirmaciones sobre honestidad / autorrevisión.
- Z.ai — documentación de GLM-5.2 — ventana de contexto, licencia y cifras de benchmark declaradas por el proveedor.
- OpenAI — presentación de GPT-5.5 — tabla de benchmarks, precios y ventana de contexto.