No último ano, o modelo de negócio da IA de fronteira se apoiou em uma premissa: se você quer o melhor agente de programação de longo prazo, paga por um modelo fechado. O GLM-5.2 enfraquece essa premissa. Ele não supera com clareza o Claude Opus 4.8 e não substitui universalmente o GPT-5.5, mas está perto o suficiente em benchmarks importantes de engenharia de software, e barato o suficiente, para mudar a decisão.
A comparação mais limpa: FrontierSWE
O benchmark individual mais justo aqui é o FrontierSWE, porque os três modelos estão no mesmo placar e sob o mesmo harness. O Claude Opus 4.8 é o primeiro, com 75% de dominância, o GLM-5.2 vem em seguida com 74% e o GPT-5.5 com 73%.
A leitura honesta não é «o GLM vence». É que o GLM-5.2 está agora a um passo dos melhores modelos fechados de agentes de programação em um benchmark difícil de engenharia de software de longo prazo. Para um modelo de pesos abertos, essa é a verdadeira notícia. A própria Z.ai descreve o GLM como ficando cerca de um ponto atrás do Opus 4.8 no FrontierSWE — uma afirmação que coincide com o placar independente.
O Opus 4.8 ainda é o líder em qualidade
O Claude Opus 4.8 não deve ser descartado. Nos dados públicos atuais, ele parece o mais forte dos três para programação com agentes séria e tarefas de software de longa duração. Lidera no FrontierSWE, e a Artificial Analysis também o coloca no topo do seu Índice de Inteligência mais amplo.
A parte menos óbvia é a honestidade. A Anthropic afirma que o Opus 4.8 tem mais probabilidade de sinalizar incerteza, discordar e detectar falhas no próprio trabalho, e sustenta que ele tem cerca de quatro vezes menos probabilidade do que o Opus 4.7 de deixar passar sem comentário falhas no próprio código. São afirmações do fornecedor, então trate-as como posicionamento, não como prova. Mas, para agentes de programação, o ponto de fundo importa: um modelo que escreve código impressionante enquanto deixa em silêncio premissas quebradas pode sair caro de usar, mesmo quando a conta de tokens parece razoável.
GPT-5.5: forte, mas um cenário misto de benchmarks
O GPT-5.5 não é fraco. Pontua muito bem na própria suíte da OpenAI: Terminal-Bench, GDPval, OSWorld-Verified, BrowseComp e avaliações de uso de ferramentas. A complicação é que a comparação GPT-5.5 versus Opus 4.8 nem sempre é limpa: os materiais de lançamento da OpenAI comparam principalmente com o Claude Opus 4.7, porque a 4.8 ainda não havia sido lançada. Dados posteriores de terceiros (FrontierSWE, Artificial Analysis) fazem o Opus 4.8 parecer mais forte em algumas áreas de agentes.
Isso não torna o GPT-5.5 ruim: significa que ele deve ser descrito com precisão. O GPT-5.5 parece especialmente forte para uso amplo de ferramentas, trabalho profissional do conhecimento, fluxos de terminal e integração com o ecossistema da OpenAI, e pode ser mais eficiente em tokens em alguns fluxos. Mas nas comparações públicas atuais de agentes de programação de longo prazo, tanto o Opus 4.8 quanto o GLM-5.2 o pressionam de verdade.
GLM-5.2: custo mais abertura
A maior força do GLM-5.2 não é vencer todos os modelos de fronteira: ele não vence. Sua força é chegar perto sendo aberto e muito mais barato de executar. Segundo a Artificial Analysis, tem licença MIT, é um modelo de mistura de especialistas com 744 bilhões de parâmetros totais / 40 bilhões ativos, com uma janela de contexto de um milhão de tokens, e preço na API própria da Z.ai de cerca de US$ 1,40 de entrada e US$ 4,40 de saída por milhão de tokens. O Opus 4.8 custa US$ 5 / 25 e o GPT-5.5, US$ 5 / 30.
Essa diferença importa porque agentes de programação são fábricas de tokens. Eles planejam, inspecionam arquivos, escrevem código, rodam testes, leem erros, revisam e repetem, então o preço do token de saída define o custo real. Se um modelo é um pouco mais fraco, mas de cinco a sete vezes mais barato na saída, a economia pode virar rápido. O GLM-5.2 não precisa ser o melhor modelo do mundo; só precisa ser bom o suficiente em tarefas de agentes suficientes para que as equipes comecem a rotear para ele uma parcela grande do trabalho. Nosso diretório de ferramentas de desenvolvimento e programação reúne as ferramentas de agentes onde essa decisão de roteamento realmente acontece.
A armadilha dos benchmarks: não compare cada número diretamente
O ponto de transparência mais importante: nem todo número deve ser tratado como comparável um a um. A tabela abaixo mantém à vista, de propósito, os detalhes de versão e harness.
| Benchmark | Números informados | Por que é preciso cautela |
|---|---|---|
| SWE-Bench Pro | GLM-5.2 62,1 (Z.ai) · GPT-5.5 58,6 (OpenAI) | Informados por cada fornecedor; a própria OpenAI aponta indícios de memorização neste benchmark. |
| Terminal-Bench | GLM-5.2 81,0 na v2.1 (Z.ai) · GPT-5.5 82,7 na v2.0 (OpenAI) | Versões e harnesses de benchmark diferentes: não são comparáveis diretamente. |
| PostTrainBench | GLM-5.2 #1; Opus 4.8 Max em 34,1% após a atualização de 17 de junho de 2026 | Um benchmark especializado de automação de P&D de IA (melhorar um modelo pequeno em uma H100 em 10 horas), não uma pontuação geral de programação. |
A conclusão segura é procurar sinais repetidos entre vários benchmarks, em vez de coroar um único placar. Uma afirmação de uma linha do tipo «GPT vence GLM» ou «GLM vence GPT» é fácil de fazer e fácil de errar.
O que as evidências realmente sustentam
| Afirmação | O que os dados sustentam | Confiança |
|---|---|---|
| GLM-5.2 está perto do Opus 4.8 em programação de longo prazo | FrontierSWE: Opus 75% vs GLM 74%; a Z.ai também informa uma diferença de ~1 ponto. | Alta |
| GLM-5.2 supera o GPT-5.5 em alguns benchmarks de agentes | FrontierSWE: GLM 74% vs GPT 73%; o SWE-Bench Pro favorece o GLM, mas com ressalvas de versão/harness. | Média-alta |
| Opus 4.8 é o mais forte dos três para programação com agentes séria | Lidera o FrontierSWE e o Índice de Inteligência da Artificial Analysis (61 vs 60 vs 51). | Alta |
| GLM-5.2 tem a melhor história de custo/abertura | Licença MIT, contexto de 1M, ~US$ 1,40/4,40 por 1M de tokens frente a 5/25 e 5/30. | Alta |
| PostTrainBench favorece o GLM-5.2 | GLM #1 após a atualização de 17 de junho; benchmark especializado de P&D, não de programação geral. | Média |
| Opus 4.8 é promovido em torno da honestidade | A Anthropic afirma que ele sinaliza mais a incerteza e deixa passar menos falhas do próprio código. | Média-alta (fornecedor) |
Veredito
O Claude Opus 4.8 parece a escolha de qualidade mais forte para o trabalho difícil de agentes de programação de longa duração. O GPT-5.5 continua um modelo fechado muito forte, sobretudo para fluxos do ecossistema da OpenAI, tarefas profissionais amplas e trabalho intensivo em ferramentas. O GLM-5.2 é o disruptor: não é claramente melhor que o Opus 4.8, nem universalmente melhor que o GPT-5.5, mas está perto o suficiente em vários benchmarks importantes de agentes, é aberto o suficiente para implantar com liberdade e barato o suficiente para forçar uma revisão.
O mercado de modelos de fronteira não é mais simplesmente «pague mais para obter a única coisa que funciona». Está virando um problema de roteamento: use o Opus 4.8 quando a qualidade importar mais, use o GPT-5.5 onde o ecossistema de ferramentas e a confiabilidade geral da OpenAI vencerem, e teste o GLM-5.2 com decisão onde custo, abertura e programação de contexto longo importarem. O GLM-5.2 não acaba com o modelo de negócio fechado: torna-o mais difícil de defender. Se você quer entender por que as sessões longas se degradam independentemente do modelo escolhido, nosso texto sobre a deterioração de contexto em agentes de IA é um bom complemento.
Perguntas frequentes
O GLM-5.2 é melhor que o Claude Opus 4.8?
Não com clareza. No FrontierSWE — o único placar que classifica os três com o mesmo harness — o Opus 4.8 lidera com 75% e o GLM-5.2 com 74%. As pontuações compostas independentes também colocam o Opus em primeiro. O GLM é melhor descrito como o desafiante de pesos abertos mais forte, não como um vencedor claro.
Por que o GLM-5.2 é considerado disruptivo?
Custo e abertura. Tem licença MIT com contexto de um milhão de tokens, e o preço da API própria da Z.ai (~US$ 1,40 de entrada / 4,40 de saída por milhão de tokens) está bem abaixo do Opus 4.8 e do GPT-5.5. Como a programação com agentes consome tokens de saída, ser «bom o suficiente» por uma fração do custo muda a decisão de compra.
Esses números podem ser comparados diretamente?
Nem todos. Vários são informados pelo fornecedor e usam versões ou harnesses diferentes (por exemplo, Terminal-Bench 2.0 versus 2.1). O FrontierSWE é o mais limpo porque os três aparecem no mesmo placar.
Qual devo usar?
Trate como roteamento, não como um único vencedor: Opus 4.8 onde a correção e a confiabilidade em longo prazo importarem mais, GPT-5.5 para o ecossistema da OpenAI e uso amplo de ferramentas, e GLM-5.2 onde custo, abertura e programação de contexto longo dominarem.
Fontes
Fontes independentes e primárias por trás dos números acima. Os números informados pelos fornecedores estão rotulados como tais ao longo do artigo.
- Placar do FrontierSWE — comparação a três: Opus 4.8 75%, GLM-5.2 74%, GPT-5.5 73%.
- Artificial Analysis — Índice de Inteligência independente, preços, parâmetros e abertura dos três modelos.
- PostTrainBench — benchmark de automação de P&D de IA; atualização de 17 de junho de 2026 que coloca o GLM-5.2 em primeiro.
- Anthropic — Claude Opus 4.8 — posicionamento, preços e as afirmações sobre honestidade / autorrevisão.
- Z.ai — documentação do GLM-5.2 — janela de contexto, licença e números de benchmark informados pelo fornecedor.
- OpenAI — apresentação do GPT-5.5 — tabela de benchmarks, preços e janela de contexto.