Das chinesische Unternehmen Z.ai hat sein Flaggschiff, das Open-Weight-Sprachmodell, aktualisiert. Die neue Version GLM-5.1 schreibt die Spielregeln im Bereich der Agenten-KI neu - künstliche Intelligenz, die in der Lage ist, komplexe Aufgaben über lange Zeiträume hinweg ohne ständige menschliche Aufsicht auszuführen. Während die meisten heutigen Modelle innerhalb eines festen Token-Budgets arbeiten oder aufgeben, sobald sie feststellen, dass weitere Überlegungen das Ergebnis nicht verändern werden, kann GLM-5.1 bis zu acht Stunden lang autonom an einer einzigen Aufgabe arbeiten.
Der Schlüssel ist ein anderer Denkansatz. Das Modell durchläuft eine Schleife aus Planung, Ausführung, Bewertung der Zwischenergebnisse und Neubewertung der gewählten Strategie - und wiederholt diese Schleife hunderte Male, bis es entscheidet, dass die Aufgabe abgeschlossen ist. Wenn es erkennt, dass der aktuelle Ansatz nicht zum Ziel führt, ändert es die gesamte Strategie.
In internen Tests verwendeten die Z.ai-Modelle Tausende von Toolaufrufen über mehrere Stunden hinweg. Es ist diese Fähigkeit, Sackgassen zu erkennen und von ihnen abzuweichen, die Experten zufolge von den heutigen Benchmarks nicht zuverlässig erfasst wird.
Aus technischer Sicht ist es eine beeindruckende Maschine. GLM-5.1 basiert auf einer Mixture-of-Experts-Transformer-Architektur mit insgesamt 754 Milliarden Parametern, wobei 40 Milliarden Parameter pro Token aktiv sind. Das Kontextfenster kann bis zu 200.000 Eingabe-Token aufnehmen, und die Ausgabe erreicht 128.000 Token. Das Modell verarbeitet Schlussfolgerungen, Funktionsaufrufe und strukturierte Ausgaben. Die Gewichte sind über HuggingFace unter der MIT-Lizenz frei verfügbar - für kommerzielle und nicht-kommerzielle Nutzung.
Die Ergebnisse in den Benchmarks sind überzeugend, insbesondere im Bereich der Programmierung. Im Artificial Analysis Intelligence Index erreicht GLM-5.1 mit 51 Punkten im Reasoning-Modus den höchsten Wert unter den Open-Source-Modellen, wenn auch hinter den proprietären Modellen Gemini 3.1 Pro Preview und GPT-5.4 (beide 57 Punkte) und Claude Opus 4.6 (53 Punkte).
In der Arena-Code-Rangliste, in der Modelle in anonymen, paarweisen Kämpfen gegeneinander antreten, die von Programmierern bewertet werden, belegte GLM-5.1 mit einer Elo-Bewertung von 1.530 den dritten Platz hinter Claude Opus 4.6 (1.542) und Claude Opus 4.6 im Reasoning-Modus (1.548). Bei echten Software-Problemen von GitHub, die mit dem SWE-Bench Pro Benchmark getestet wurden, lag GLM-5.1 mit 58,4 Prozent sogar vorn - vor GPT-5.4 (57,7 %), Claude Opus 4.6 (57,3 %) und Gemini 3.1 Pro (54,2 %).
Schwächen zeigen sich in den Bereichen Mathematik und wissenschaftliches Denken. Beim GPQA Diamond, einem Test mit wissenschaftlichen Fragen für Hochschulabsolventen, erreichte GLM-5.1 86,2 Prozent, während Gemini 3.1 Pro 94,3 Prozent erzielte. Bei den mathematischen Aufgaben der AIME 2026 lag GLM-5.1 mit 95,3 Prozent hinter GPT-5.4 mit 98,7 Prozent.
Der Preis pro Leistung ist nach wie vor deutlich niedriger als bei den proprietären Alternativen - 1,40 $ pro Million Eingabetoken gegenüber 5 $ für Claude Opus 4.6. Allerdings hat Z.ai die Preise gegenüber der Vorgängerversion erhöht: Token um etwa 40 Prozent und Abonnements für Programmierer um etwa das Doppelte. Die Lücke wird kleiner.
Der breitere Kontext des Berichts ist entscheidend. Nach Angaben der unabhängigen Prüforganisation METR verdoppelt sich die Länge der Aufgaben, die KI-Agenten eigenständig erledigen können, etwa alle sieben Monate. Doch selbst die besten Modelle bewältigen nur etwa ein Viertel der langfristigen Programmieraufgaben in Benchmarks, die zur Messung der Ausdauer entwickelt wurden. GLM-5.1 verschiebt diese Grenze - und wenn seine Fähigkeit zur strategischen Neubewertung in unabhängigen Tests bestätigt wird, wird dies eine qualitative Veränderung sein, nicht nur ein Leistungsgewinn.
deeplearning.ai/gnews.cz - GH
Kommentare
Anmelden · Registrieren
Melden Sie sich an oder registrieren Sie sich, um zu kommentieren.
…