GLM-5.2 de la startup china Z.ai supera a GPT-5.5 en codificación a 1/6 del costo
Z.ai (anteriormente Zhipu AI), una startup con sede en Pekín, lanzó GLM-5.2, un modelo de código abierto de 753 mil millones de parámetros que muestra un desempeño superior a GPT-5.5 en varios benchmarks de codificación de horizonte largo mientras cuesta aproximadamente un sexto. En SWE-bench Pro, GLM-5.2 puntuó 62.1 versus 58.6 de GPT-5.5; en FrontierSWE (simulando tareas de ingeniería de varias horas), alcanzó 74.4% versus 72.6% de GPT-5.5. En el leaderboard crowdsourced de Design Arena, GLM-5.2 se clasificó en #1 con un Elo de 1360, superando a Claude Fable 5. El modelo cuesta $1.40 entrada / $4.40 salida por millón de tokens versus $5 entrada / $30 salida de GPT-5.5.
GLM-5.2 extiende un contexto estable de 1 millón de tokens e introduce IndexShare, una técnica de atención dispersa que reutiliza índices entre capas de transformadores para reducir el cálculo por token en 2.9x en ventanas de contexto largo. Se lanza bajo una licencia MIT sin restricciones, permitiendo que las empresas descarguen pesos, hagan fine-tuning y auto-hospedarse sin dependencias de API. Benchmarks independientes (Semgrep) encontraron que GLM-5.2 superó a Claude Code en detección de vulnerabilidades IDOR a $0.17 por bug encontrado.
El lanzamiento marca el primer modelo de código abierto que genuinamente estrecha la brecha de frontera en tareas de codificación en producción, presionando directamente la economía de modelos cerrados. El CEO de Snowflake probó GLM-5.2 contra Opus 4.7 en benchmarks internos y lo encontró competitivo a pesar del mayor gasto de tokens. Con modelos OpenAI y Anthropic restringidos por revisión gubernamental y precios en tasas premium ($30–$50/M tokens), los precios agresivos de Z.ai y licenciamiento MIT crean una frontera costo-calidad que las empresas implementando modelos personalizados a escala encontrarán difícil ignorar.
Fuentes
- Primary source
- the-decoder.com
“On FrontierSWE, a benchmark for hours-long coding tasks, the open-source model trails Anthropic's Claude Opus 4.8 by just one percentage point”
- semgrep.dev
“GLM 5.2 beat Claude Code by seven points (39% vs. 32%)”
- cnbc.com
“Zhipu's GLM 5.2 artificial intelligence model landed last week with the kind of Silicon Valley buzz that followed DeepSeek's launch”