中国公司Z.ai更新了其旗舰开放重量语言模型,新版GLM-5.1改写了代理人工智能领域的游戏规则--人工智能能够在没有人类持续监督的情况下长时间执行复杂任务。当今的大多数模型都是在固定的代币预算内运行,或者在评估进一步推理不会改变结果时就放弃,而 GLM-5.1 则可以在单个任务上自主工作长达 8 小时。.
关键在于不同的思维方式。该模型经历了计划、执行、评估中间结果和重新评估所选战略的循环,并重复这个循环数百次,直到它认为任务已经完成。如果它发现当前的方法无法实现目标,就会改变整个战略。.
在内部测试中,Z.ai 模型在数小时内使用了数千次工具调用。专家认为,这种识别死胡同并偏离死胡同的能力正是当今基准无法可靠捕捉到的。.
从技术角度来看,这是一台令人印象深刻的机器。GLM-5.1 采用专家混合转换器架构,共有 7 540 亿个参数,每个标记有 400 亿个有效参数。上下文窗口可容纳多达 20 万个输入标记,输出达 12.8 万个标记。该模型可处理推理、函数调用和结构化输出。在 MIT 许可下,HuggingFace 可免费提供权重,用于商业和非商业用途。.
基准测试的结果令人信服,尤其是在编程领域。在人工分析智能指数方面,GLM-5.1 的推理模式得分 51 分,是开源模型中最高的,尽管落后于专有模型 Gemini 3.1 Pro Preview 和 GPT-5.4(均为 57 分)以及 Claude Opus 4.6(53 分)。.
在竞技场代码排行榜(Arena Code)上,在由程序员评定的匿名配对对战中,GLM-5.1 以 1530 的 Elo 值排名第三,落后于 Claude Opus 4.6(1542)和推理模式下的 Claude Opus 4.6(1548)。在 SWE-Bench Pro 基准测试的 GitHub 真实软件问题中,GLM-5.1 甚至以 58.4% 的成绩遥遥领先于 GPT-5.4(57.7 %)、Claude Opus 4.6(57.3 %)和 Gemini 3.1 Pro(54.2 %)。.
数学和科学推理方面的弱点很明显。在研究生水平的科学问题测试 GPQA Diamond 中,GLM-5.1 的得分率为 86.2%,而 Gemini 3.1 Pro 的得分率为 94.3%。在 AIME 2026 竞争性数学问题中,GLM-5.1 的得分是 95.3%,落后于 GPT-5.4 的 98.7%。.
不过,Z.ai 的价格比上一版本提高了:代币价格提高了约 40%,程序员订阅费用提高了约一倍。差距正在缩小。.
报告的大背景至关重要。根据独立测试机构 METR 的数据,人工智能代理能够自主完成的任务长度大约每七个月翻一番。然而,即使是最好的模型,也只能成功完成旨在衡量持久性的基准测试中约四分之一的长期编程任务。GLM-5.1 突破了这一上限--如果它的战略再评估能力在独立测试中得到证实,这将是一次质的转变,而不仅仅是性能的提升。.
deeplearning.ai/gnews.cz - GH
评论
登录 · 注册
请登录或注册后再评论。
…