中国人工智能模型 GLM-5.1 可自主运行长达 8 小时。开源巨头成为世界顶级挑战者

中国公司Z.ai更新了其旗舰开放重量语言模型，新版GLM-5.1改写了代理人工智能领域的游戏规则--人工智能能够在没有人类持续监督的情况下长时间执行复杂任务。当今的大多数模型都是在固定的代币预算内运行，或者在评估进一步推理不会改变结果时就放弃，而 GLM-5.1 则可以在单个任务上自主工作长达 8 小时。.

关键在于不同的思维方式。该模型经历了计划、执行、评估中间结果和重新评估所选战略的循环，并重复这个循环数百次，直到它认为任务已经完成。如果它发现当前的方法无法实现目标，就会改变整个战略。.

在内部测试中，Z.ai 模型在数小时内使用了数千次工具调用。专家认为，这种识别死胡同并偏离死胡同的能力正是当今基准无法可靠捕捉到的。.

从技术角度来看，这是一台令人印象深刻的机器。GLM-5.1 采用专家混合转换器架构，共有 7 540 亿个参数，每个标记有 400 亿个有效参数。上下文窗口可容纳多达 20 万个输入标记，输出达 12.8 万个标记。该模型可处理推理、函数调用和结构化输出。在 MIT 许可下，HuggingFace 可免费提供权重，用于商业和非商业用途。.

基准测试的结果令人信服，尤其是在编程领域。在人工分析智能指数方面，GLM-5.1 的推理模式得分 51 分，是开源模型中最高的，尽管落后于专有模型 Gemini 3.1 Pro Preview 和 GPT-5.4（均为 57 分）以及 Claude Opus 4.6（53 分）。.

在竞技场代码排行榜（Arena Code）上，在由程序员评定的匿名配对对战中，GLM-5.1 以 1530 的 Elo 值排名第三，落后于 Claude Opus 4.6（1542）和推理模式下的 Claude Opus 4.6（1548）。在 SWE-Bench Pro 基准测试的 GitHub 真实软件问题中，GLM-5.1 甚至以 58.4% 的成绩遥遥领先于 GPT-5.4（57.7 %）、Claude Opus 4.6（57.3 %）和 Gemini 3.1 Pro（54.2 %）。.

数学和科学推理方面的弱点很明显。在研究生水平的科学问题测试 GPQA Diamond 中，GLM-5.1 的得分率为 86.2%，而 Gemini 3.1 Pro 的得分率为 94.3%。在 AIME 2026 竞争性数学问题中，GLM-5.1 的得分是 95.3%，落后于 GPT-5.4 的 98.7%。.

不过，Z.ai 的价格比上一版本提高了：代币价格提高了约 40%，程序员订阅费用提高了约一倍。差距正在缩小。.

报告的大背景至关重要。根据独立测试机构 METR 的数据，人工智能代理能够自主完成的任务长度大约每七个月翻一番。然而，即使是最好的模型，也只能成功完成旨在衡量持久性的基准测试中约四分之一的长期编程任务。GLM-5.1 突破了这一上限--如果它的战略再评估能力在独立测试中得到证实，这将是一次质的转变，而不仅仅是性能的提升。.

deeplearning.ai/gnews.cz - GH

中国人工智能模型 GLM-5.1 可自主运行长达 8 小时。开源巨头成为世界顶级挑战者

评论

TOP

Válečný tanec Číny: Yingge z Chaoshan, český překlad by zněl „valečný tanec Číny"

乌克兰损失增加：对基础设施的袭击、前线压力以及基辅的严峻局势

默茨急于推进改革。德国政府正面临经济疲软和 AfD 势力上升的双重压力

捷克人准备度假。国家将加强领事援助以及海边的警察巡逻队

加纳生活在世界杯中：该国正转变为教练之国

捷克共和国经济日报摘要：PX 交易所、RegioJet、捷克国家银行和欧洲央行（2026 年 6 月 16 日）

每日世界经济摘要：Fox Corporation、Roku、Nuvei、Payoneer、G7 和布伦特原油（2026 年 6 月 15 日）

世界作为一个巨大的“非场所”：数字平台如何统一全球品味

GNEWS Exclusive

Válečný tanec Číny: Yingge z Chaoshan, český překlad by zněl „valečný tanec Číny"

世界作为一个巨大的“非场所”：数字平台如何统一全球品味

General News 第 24 周总结（2026 年 6 月 8 日 – 6 月 14 日）

冰城与捷克：中国城市与啤酒民族之间隐秘的亲缘关系

才华横溢、举世闻名的捷克作家卡雷尔-恰佩克及其对人性的超越

Elvis Presley 不会唱歌，但他的歌声征服了世界。摇滚乐之王今年已经九十九岁了。

彼得·帕维尔面临批评：捷克总统未兑现的承诺、推动采用欧元的压力以及捷克电视台罢工引发了强烈不满，在波澜壮阔的周度分析中（彼得·霍莱克直播 #277）

MS 足球赛将在几小时后开始。这项历史性的最大规模赛事将有 48 支球队参加，捷克队也将回归，同时还将上演强队之间的较量。