La empresa china Z.ai ha actualizado su emblemático modelo lingüístico de peso abierto, y la nueva versión GLM-5.1 reescribe las reglas del juego en el campo de la IA agente, es decir, la inteligencia artificial capaz de realizar tareas complejas durante largos periodos de tiempo sin supervisión humana continua. Mientras que la mayoría de los modelos actuales funcionan con un presupuesto fijo de fichas o se rinden una vez que evalúan que seguir razonando no cambiará el resultado, GLM-5.1 puede trabajar de forma autónoma en una sola tarea hasta ocho horas.

La clave es un enfoque diferente del pensamiento. El modelo pasa por un bucle de planificación, ejecución, evaluación de los resultados intermedios y reevaluación de la estrategia elegida, y repite este bucle cientos de veces hasta que decide que la tarea está completa. Si reconoce que el enfoque actual no conduce al objetivo, cambia toda la estrategia.

En pruebas internas, los modelos de Z.ai utilizaron miles de llamadas a herramientas a lo largo de varias horas. Los expertos afirman que es esta capacidad de reconocer los callejones sin salida y desviarse de ellos lo que los puntos de referencia actuales no consiguen captar de forma fiable.

Desde un punto de vista técnico, es una máquina impresionante. GLM-5.1 se basa en una arquitectura de transformadores de mezcla de expertos con un total de 754.000 millones de parámetros, con 40.000 millones de parámetros activos por token. La ventana contextual puede contener hasta 200.000 tokens de entrada, y la salida alcanza los 128.000 tokens. El modelo gestiona el razonamiento, las llamadas a funciones y la salida estructurada. Los pesos están disponibles gratuitamente a través de HuggingFace bajo licencia MIT, para uso comercial y no comercial.

Los resultados en las pruebas comparativas son convincentes, especialmente en el área de programación. En el Índice de Inteligencia de Análisis Artificial, GLM-5.1 obtiene 51 puntos en el modo de razonamiento, la puntuación más alta entre los modelos de código abierto, aunque por detrás de los modelos propietarios Gemini 3.1 Pro Preview y GPT-5.4 (ambos con 57 puntos) y Claude Opus 4.6 (53 puntos).

En la tabla clasificatoria Arena Code, donde los modelos compiten en batallas anónimas por parejas puntuadas por programadores, GLM-5.1 quedó tercero con una puntuación Elo de 1.530, por detrás de Claude Opus 4.6 (1.542) y Claude Opus 4.6 en modo razonamiento (1.548). En los problemas de software reales de GitHub probados por el benchmark SWE-Bench Pro, GLM-5.1 incluso lideró con un 58,4 por ciento, por delante de GPT-5.4 (57,7 %), Claude Opus 4.6 (57,3 %) y Gemini 3.1 Pro (54,2 %).

Los puntos débiles son evidentes en matemáticas y razonamiento científico. En el GPQA Diamond, una prueba de preguntas científicas de nivel universitario, GLM-5.1 obtuvo un 86,2 por ciento, mientras que Gemini 3.1 Pro obtuvo un 94,3 por ciento. En los problemas de matemáticas de la competición AIME 2026, GLM-5.1 terminó con un 95,3 por ciento, por detrás de GPT-5.4, con un 98,7 por ciento.

El precio por rendimiento sigue siendo significativamente inferior al de las alternativas propietarias: 1,40 dólares por millón de tokens de entrada frente a los 5 dólares de Claude Opus 4.6. Sin embargo, Z.ai ha aumentado los precios con respecto a la versión anterior: los tokens, en torno a un 40%, y las suscripciones de programadores, en torno al doble. La diferencia se está reduciendo.

El contexto más amplio del informe es crucial. Según la organización independiente de pruebas METR, la duración de las tareas que los agentes de IA pueden completar de forma autónoma se duplica aproximadamente cada siete meses. Sin embargo, incluso los mejores modelos sólo completan con éxito una cuarta parte de las tareas de programación a largo plazo en las pruebas de referencia diseñadas para medir la persistencia. GLM-5.1 supera ese techo, y si su capacidad de reevaluación estratégica se confirma en pruebas independientes, será un cambio cualitativo, no sólo un aumento del rendimiento.

deeplearning.ai/gnews.cz - GH