GLM-5.2 vs GPT-5.5 vs Claude Opus 4.8: la comparación honesta de benchmarks

Q: ¿Es GLM-5.2 mejor que Claude Opus 4.8?

No con claridad. En FrontierSWE, el único leaderboard que clasifica a los tres con el mismo harness, Opus 4.8 lidera con un 75% de dominancia, GLM-5.2 con un 74% y GPT-5.5 con un 73%. Es ajustado, pero Opus va por delante, y el Índice de Inteligencia independiente de Artificial Analysis también sitúa a Opus en primer lugar. GLM-5.2 se describe mejor como el desafío de pesos abiertos más fuerte, no como un ganador claro.

Q: ¿Por qué se considera disruptivo a GLM-5.2?

Coste y apertura. Tiene licencia MIT, una ventana de contexto de un millón de tokens, y el precio de la API propia de Z.ai (unos 1,40 USD de entrada y 4,40 USD de salida por millón de tokens) está muy por debajo de Opus 4.8 y GPT-5.5. Como la programación con agentes consume muchos tokens de salida, un modelo algo más débil pero mucho más barato puede cambiar la decisión de compra.

Q: ¿Se pueden comparar estas cifras de benchmark directamente?

No todas. Varias son cifras declaradas por los proveedores y usan versiones o harnesses de benchmark distintos (por ejemplo Terminal-Bench 2.0 frente a 2.1). FrontierSWE es la comparación más limpia porque los tres modelos aparecen en el mismo leaderboard.

Q: ¿Cuál debería usar?

Trátalo como una decisión de enrutamiento, no como un único ganador: usa Opus 4.8 donde la corrección y la fiabilidad del agente a largo plazo importen más, GPT-5.5 para la integración con el ecosistema de OpenAI y el uso amplio de herramientas, y prueba GLM-5.2 donde dominen el coste, la apertura y la programación de contexto largo.

La comparación más limpia: FrontierSWE
Opus 4.8 sigue siendo el líder en calidad
GLM-5.2: coste más apertura
La trampa de los benchmarks
Veredicto
Fuentes

Por AIHumanLove Editorial · Publicado el 22 de junio de 2026

Durante el último año, el modelo de negocio de la IA de frontera se ha apoyado en un supuesto: si quieres el mejor agente de programación de largo recorrido, pagas por un modelo cerrado. GLM-5.2 debilita ese supuesto. No supera con claridad a Claude Opus 4.8 y no reemplaza universalmente a GPT-5.5, pero está lo bastante cerca en benchmarks importantes de ingeniería de software, y es lo bastante barato, como para cambiar la decisión.

Cómo leer esta comparación. Las cifras de abajo son una instantánea de mediados de junio de 2026. Algunas proceden de evaluadores independientes (FrontierSWE, Artificial Analysis); otras son declaradas por el proveedor (Z.ai, OpenAI o Anthropic) y no han sido auditadas de forma independiente. Y, sobre todo, las versiones y los harnesses de los benchmarks difieren entre proveedores, así que no todas las cifras son comparables directamente. Donde eso importa, lo señalamos en lugar de ocultarlo.

La comparación más limpia: FrontierSWE

El benchmark individual más justo aquí es FrontierSWE, porque los tres modelos están en el mismo leaderboard y bajo el mismo harness. Claude Opus 4.8 es primero con un 75% de dominancia, GLM-5.2 le sigue con un 74% y GPT-5.5 con un 73%.

Representado en un eje real de 0 a 100 para no exagerar la diferencia: todo el grupo está separado por dos puntos porcentuales. Más alto es mejor. Fuente: leaderboard de FrontierSWE.

La lectura honesta no es «GLM gana». Es que GLM-5.2 está ahora a un paso de los mejores modelos cerrados de agentes de programación en un benchmark difícil de ingeniería de software de largo recorrido. Para un modelo de pesos abiertos, esa es la verdadera noticia. La propia Z.ai presenta a GLM como un punto por detrás de Opus 4.8 en FrontierSWE, una afirmación que coincide con el leaderboard independiente.

Opus 4.8 sigue siendo el líder en calidad

No conviene descartar a Claude Opus 4.8. Con los datos públicos actuales, parece el más fuerte de los tres para programación con agentes seria y tareas de software de larga duración. Lidera en FrontierSWE, y Artificial Analysis también lo coloca en lo alto de su Índice de Inteligencia más amplio.

Un compuesto amplio, no una puntuación solo de programación, por lo que pondera tareas distintas a FrontierSWE: útil como contraste, no como criterio decisivo. Fuente: Artificial Analysis.

La parte menos obvia es la honestidad. Anthropic afirma que Opus 4.8 es más propenso a señalar incertidumbre, a discrepar y a detectar fallos en su propio trabajo, y sostiene que es unas cuatro veces menos probable que Opus 4.7 que deje pasar sin comentar fallos en su propio código. Son afirmaciones del proveedor, así que conviene tomarlas como posicionamiento, no como prueba. Pero para los agentes de programación el fondo importa: un modelo que escribe código impresionante mientras deja en silencio supuestos rotos puede salir caro de usar, aunque la factura de tokens parezca razonable.

La versión más fuerte del argumento a favor de Opus: recurre a Opus 4.8 cuando la corrección, el criterio y la fiabilidad del agente a largo plazo importen más que el precio.

GPT-5.5: fuerte, pero con un panorama mixto

GPT-5.5 no es débil. Puntúa muy bien en el propio conjunto de OpenAI: Terminal-Bench, GDPval, OSWorld-Verified, BrowseComp y evaluaciones de uso de herramientas. La complicación es que la comparación GPT-5.5 frente a Opus 4.8 no siempre es limpia: los materiales de lanzamiento de OpenAI comparan sobre todo con Claude Opus 4.7, porque la 4.8 aún no había salido. Datos posteriores de terceros (FrontierSWE, Artificial Analysis) hacen que Opus 4.8 parezca más fuerte en algunas áreas de agentes.

Eso no hace malo a GPT-5.5: significa que hay que describirlo con precisión. GPT-5.5 luce especialmente fuerte para el uso amplio de herramientas, el trabajo profesional del conocimiento, los flujos de terminal y la integración con el ecosistema de OpenAI, y puede ser más eficiente en tokens en algunos flujos. Pero en las comparaciones públicas actuales de agentes de programación de largo recorrido, tanto Opus 4.8 como GLM-5.2 le presionan de verdad.

GLM-5.2: coste más apertura

La mayor fortaleza de GLM-5.2 no es vencer a todos los modelos de frontera: no lo hace. Su fortaleza es que se acerca siendo abierto y mucho más barato de ejecutar. Según Artificial Analysis tiene licencia MIT, es un modelo de mezcla de expertos de 744.000 millones de parámetros totales / 40.000 millones activos, con una ventana de contexto de un millón de tokens, y un precio en la API propia de Z.ai de unos 1,40 USD de entrada y 4,40 USD de salida por millón de tokens. Opus 4.8 cuesta 5 / 25 USD y GPT-5.5, 5 / 30 USD.

Precios de lista publicados por los proveedores (GLM-5.2 en la API propia de Z.ai). Los tokens de salida dominan la factura del trabajo con agentes; el gasto real depende de la carga de trabajo, el caché y el proveedor. Fuente: Artificial Analysis; páginas de precios de los proveedores.

Esa diferencia importa porque los agentes de programación son fábricas de tokens. Planifican, inspeccionan archivos, escriben código, ejecutan pruebas, leen errores, corrigen y repiten, así que el precio del token de salida marca el coste real. Si un modelo es algo más débil pero entre cinco y siete veces más barato en salida, la economía puede darse la vuelta rápido. GLM-5.2 no necesita ser el mejor modelo del mundo; solo necesita ser lo bastante bueno en suficientes tareas de agentes como para que los equipos empiecen a enrutar hacia él una parte importante del trabajo. Nuestro directorio de herramientas de desarrollo y programación recoge las herramientas de agentes donde esa decisión de enrutamiento se juega de verdad.

Ideal para: cargas de agentes de alto volumen y sensibles al coste, despliegues on-premise o autoalojados, y programación de contexto largo donde la factura de salida es la restricción que manda.

La trampa de los benchmarks: no compares cada cifra directamente

El punto de transparencia más importante: no todas las cifras deben tratarse como comparables uno a uno. La tabla siguiente mantiene a la vista, a propósito, los detalles de versión y harness.

Benchmark	Cifras declaradas	Por qué hay que ser prudente
SWE-Bench Pro	GLM-5.2 62,1 (Z.ai) · GPT-5.5 58,6 (OpenAI)	Declaradas por cada proveedor; la propia OpenAI señala indicios de memorización en este benchmark.
Terminal-Bench	GLM-5.2 81,0 en v2.1 (Z.ai) · GPT-5.5 82,7 en v2.0 (OpenAI)	Versiones y harnesses de benchmark distintos: no son comparables directamente.
PostTrainBench	GLM-5.2 #1; Opus 4.8 Max en 34,1% tras la actualización del 17 de junio de 2026	Un benchmark especializado de automatización de I+D de IA (mejorar un modelo pequeño en una H100 en 10 horas), no una puntuación general de programación.

La conclusión segura es buscar señales repetidas entre varios benchmarks en lugar de coronar un único leaderboard. Una afirmación de una línea del tipo «GPT gana a GLM» o «GLM gana a GPT» es fácil de hacer y fácil de equivocar.

Qué respaldan de verdad los datos

Afirmación	Qué respaldan los datos	Confianza
GLM-5.2 está cerca de Opus 4.8 en programación de largo recorrido	FrontierSWE: Opus 75% vs GLM 74%; Z.ai también declara una diferencia de ~1 punto.	Alta
GLM-5.2 supera a GPT-5.5 en algunos benchmarks de agentes	FrontierSWE: GLM 74% vs GPT 73%; SWE-Bench Pro favorece a GLM, pero con matices de versión/harness.	Media-alta
Opus 4.8 es el más fuerte de los tres para programación con agentes seria	Encabeza FrontierSWE y el Índice de Inteligencia de Artificial Analysis (61 vs 60 vs 51).	Alta
GLM-5.2 tiene la mejor historia de coste/apertura	Licencia MIT, 1M de contexto, ~1,40/4,40 USD por 1M de tokens frente a 5/25 y 5/30.	Alta
PostTrainBench favorece a GLM-5.2	GLM #1 tras la actualización del 17 de junio; benchmark especializado de I+D, no de programación general.	Media
Opus 4.8 se promociona en torno a la honestidad	Anthropic afirma que señala más la incertidumbre y deja pasar menos fallos de su propio código.	Media-alta (proveedor)

Veredicto

Claude Opus 4.8 parece la opción de calidad más fuerte para el trabajo difícil de agentes de programación de larga duración. GPT-5.5 sigue siendo un modelo cerrado muy fuerte, sobre todo para flujos del ecosistema de OpenAI, tareas profesionales amplias y trabajo intensivo en herramientas. GLM-5.2 es el disruptor: no es claramente mejor que Opus 4.8, ni universalmente mejor que GPT-5.5, pero está lo bastante cerca en varios benchmarks importantes de agentes, es lo bastante abierto para desplegarse con libertad y lo bastante barato para forzar una revisión.

El mercado de modelos de frontera ya no es simplemente «paga más para obtener lo único que funciona». Se está convirtiendo en un problema de enrutamiento: usa Opus 4.8 cuando la calidad importe más, usa GPT-5.5 donde ganen el ecosistema de herramientas y la fiabilidad general de OpenAI, y prueba GLM-5.2 con decisión donde importen el coste, la apertura y la programación de contexto largo. GLM-5.2 no acaba con el modelo de negocio cerrado: lo hace más difícil de defender. Si quieres entender por qué las sesiones largas se degradan independientemente del modelo que elijas, nuestro artículo sobre el deterioro del contexto en agentes de IA es un buen complemento.

Preguntas frecuentes

¿Es GLM-5.2 mejor que Claude Opus 4.8?

No con claridad. En FrontierSWE —el único leaderboard que clasifica a los tres con el mismo harness— Opus 4.8 lidera con un 75% y GLM-5.2 con un 74%. Las puntuaciones compuestas independientes también sitúan a Opus en primer lugar. A GLM se le describe mejor como el desafío de pesos abiertos más fuerte, no como un ganador claro.

¿Por qué se considera disruptivo a GLM-5.2?

Coste y apertura. Tiene licencia MIT con un contexto de un millón de tokens, y el precio de la API propia de Z.ai (~1,40 USD de entrada / 4,40 USD de salida por millón de tokens) está muy por debajo de Opus 4.8 y GPT-5.5. Como la programación con agentes consume tokens de salida, ser «lo bastante bueno» por una fracción del coste cambia la decisión de compra.

¿Se pueden comparar estas cifras directamente?

No todas. Varias son declaradas por el proveedor y usan versiones o harnesses distintos (por ejemplo Terminal-Bench 2.0 frente a 2.1). FrontierSWE es la más limpia porque los tres aparecen en el mismo leaderboard.

¿Cuál debería usar?

Trátalo como enrutamiento, no como un único ganador: Opus 4.8 donde la corrección y la fiabilidad a largo plazo importen más, GPT-5.5 para el ecosistema de OpenAI y el uso amplio de herramientas, y GLM-5.2 donde dominen el coste, la apertura y la programación de contexto largo.

Fuentes

Fuentes independientes y primarias tras las cifras anteriores. Las cifras declaradas por los proveedores se etiquetan como tales a lo largo del artículo.

Leaderboard de FrontierSWE — comparación a tres bandas: Opus 4.8 75%, GLM-5.2 74%, GPT-5.5 73%.
Artificial Analysis — Índice de Inteligencia independiente, precios, parámetros y apertura de los tres modelos.
PostTrainBench — benchmark de automatización de I+D de IA; actualización del 17 de junio de 2026 que coloca primero a GLM-5.2.
Anthropic — Claude Opus 4.8 — posicionamiento, precios y las afirmaciones sobre honestidad / autorrevisión.
Z.ai — documentación de GLM-5.2 — ventana de contexto, licencia y cifras de benchmark declaradas por el proveedor.
OpenAI — presentación de GPT-5.5 — tabla de benchmarks, precios y ventana de contexto.

💬 Chatea sobre esta página con tu IA favorita

GLM-5.2 vs GPT-5.5 vs Claude Opus 4.8: la comparación honesta de benchmarks

La comparación más limpia: FrontierSWE

Opus 4.8 sigue siendo el líder en calidad

GPT-5.5: fuerte, pero con un panorama mixto

GLM-5.2: coste más apertura

La trampa de los benchmarks: no compares cada cifra directamente

Qué respaldan de verdad los datos

Veredicto

Preguntas frecuentes

¿Es GLM-5.2 mejor que Claude Opus 4.8?

¿Por qué se considera disruptivo a GLM-5.2?

¿Se pueden comparar estas cifras directamente?

¿Cuál debería usar?

Fuentes

Artículos relacionados