Das chinesische KI-Modell GLM-5.1 kann bis zu acht Stunden lang autonom arbeiten. Der Open-Source-Riese wird zum weltbesten Herausforderer

Das chinesische Unternehmen Z.ai hat sein Flaggschiff, das Open-Weight-Sprachmodell, aktualisiert. Die neue Version GLM-5.1 schreibt die Spielregeln im Bereich der Agenten-KI neu - künstliche Intelligenz, die in der Lage ist, komplexe Aufgaben über lange Zeiträume hinweg ohne ständige menschliche Aufsicht auszuführen. Während die meisten heutigen Modelle innerhalb eines festen Token-Budgets arbeiten oder aufgeben, sobald sie feststellen, dass weitere Überlegungen das Ergebnis nicht verändern werden, kann GLM-5.1 bis zu acht Stunden lang autonom an einer einzigen Aufgabe arbeiten.

Der Schlüssel ist ein anderer Denkansatz. Das Modell durchläuft eine Schleife aus Planung, Ausführung, Bewertung der Zwischenergebnisse und Neubewertung der gewählten Strategie - und wiederholt diese Schleife hunderte Male, bis es entscheidet, dass die Aufgabe abgeschlossen ist. Wenn es erkennt, dass der aktuelle Ansatz nicht zum Ziel führt, ändert es die gesamte Strategie.

In internen Tests verwendeten die Z.ai-Modelle Tausende von Toolaufrufen über mehrere Stunden hinweg. Es ist diese Fähigkeit, Sackgassen zu erkennen und von ihnen abzuweichen, die Experten zufolge von den heutigen Benchmarks nicht zuverlässig erfasst wird.

Aus technischer Sicht ist es eine beeindruckende Maschine. GLM-5.1 basiert auf einer Mixture-of-Experts-Transformer-Architektur mit insgesamt 754 Milliarden Parametern, wobei 40 Milliarden Parameter pro Token aktiv sind. Das Kontextfenster kann bis zu 200.000 Eingabe-Token aufnehmen, und die Ausgabe erreicht 128.000 Token. Das Modell verarbeitet Schlussfolgerungen, Funktionsaufrufe und strukturierte Ausgaben. Die Gewichte sind über HuggingFace unter der MIT-Lizenz frei verfügbar - für kommerzielle und nicht-kommerzielle Nutzung.

Die Ergebnisse in den Benchmarks sind überzeugend, insbesondere im Bereich der Programmierung. Im Artificial Analysis Intelligence Index erreicht GLM-5.1 mit 51 Punkten im Reasoning-Modus den höchsten Wert unter den Open-Source-Modellen, wenn auch hinter den proprietären Modellen Gemini 3.1 Pro Preview und GPT-5.4 (beide 57 Punkte) und Claude Opus 4.6 (53 Punkte).

In der Arena-Code-Rangliste, in der Modelle in anonymen, paarweisen Kämpfen gegeneinander antreten, die von Programmierern bewertet werden, belegte GLM-5.1 mit einer Elo-Bewertung von 1.530 den dritten Platz hinter Claude Opus 4.6 (1.542) und Claude Opus 4.6 im Reasoning-Modus (1.548). Bei echten Software-Problemen von GitHub, die mit dem SWE-Bench Pro Benchmark getestet wurden, lag GLM-5.1 mit 58,4 Prozent sogar vorn - vor GPT-5.4 (57,7 %), Claude Opus 4.6 (57,3 %) und Gemini 3.1 Pro (54,2 %).

Schwächen zeigen sich in den Bereichen Mathematik und wissenschaftliches Denken. Beim GPQA Diamond, einem Test mit wissenschaftlichen Fragen für Hochschulabsolventen, erreichte GLM-5.1 86,2 Prozent, während Gemini 3.1 Pro 94,3 Prozent erzielte. Bei den mathematischen Aufgaben der AIME 2026 lag GLM-5.1 mit 95,3 Prozent hinter GPT-5.4 mit 98,7 Prozent.

Der Preis pro Leistung ist nach wie vor deutlich niedriger als bei den proprietären Alternativen - 1,40 $ pro Million Eingabetoken gegenüber 5 $ für Claude Opus 4.6. Allerdings hat Z.ai die Preise gegenüber der Vorgängerversion erhöht: Token um etwa 40 Prozent und Abonnements für Programmierer um etwa das Doppelte. Die Lücke wird kleiner.

Der breitere Kontext des Berichts ist entscheidend. Nach Angaben der unabhängigen Prüforganisation METR verdoppelt sich die Länge der Aufgaben, die KI-Agenten eigenständig erledigen können, etwa alle sieben Monate. Doch selbst die besten Modelle bewältigen nur etwa ein Viertel der langfristigen Programmieraufgaben in Benchmarks, die zur Messung der Ausdauer entwickelt wurden. GLM-5.1 verschiebt diese Grenze - und wenn seine Fähigkeit zur strategischen Neubewertung in unabhängigen Tests bestätigt wird, wird dies eine qualitative Veränderung sein, nicht nur ein Leistungsgewinn.

deeplearning.ai/gnews.cz - GH

Das chinesische KI-Modell GLM-5.1 kann bis zu acht Stunden lang autonom arbeiten. Der Open-Source-Riese wird zum weltbesten Herausforderer

TOP

Die tschechische Regierung zieht eine Bilanz für die erste Hälfte des Jahres. Der Ministerpräsident erklärt, dass sie das versprochene Programm umsetzen.

Denken Sie das? Und glauben Sie, dass Sie richtig handeln? Wenn wir in unserem Leben etwas ändern wollen, eine Situation anders lösen möchten...

Der Chat Control kommt durch die Hintertür zurück: Europaparlamentarier haben einen juristischen Kniff genutzt und eine umstrittene Ausnahme erneut aktiviert.

Wöchentliches Update zur chinesischen Wirtschaft und Technologie: DeepSeek beschleunigt KI um 85 %, 11.000 humanoide Roboter wurden verkauft, Chinesische Elektroautos in EU-Fabriken.

Die britische Sängerin Bonnie Tyler ist im Alter von 75 Jahren gestorben. Die Sängerin verstarb in einem Krankenhaus in Portugal an einer Krankheit, gegen die sie behandelt wurde.

Tagesüberblick zur Weltwirtschaft: Apple, Broadcom, Meta, OpenAI, UniCredit, Steadfast, Öl (9. Juli 2026)

Der deutsche Export überraschte mit einem Wachstum: Die Wirtschaft erhielt ein starkes Signal aus der Industrie.

Petr Holec deckt Waffenhandelstransaktionen des Präsidenten Petr Pavel mit der NATO auf, eine skandalöse Entscheidung des Verfassungsgerichts, Fiala wird wegen verfassungswidriger Zensur schuldig befunden und die Voreingenommenheit tschechischer Staatsmedien (Petr Holec live #279).

GNEWS Exclusive

Die britische Sängerin Bonnie Tyler ist im Alter von 75 Jahren gestorben. Die Sängerin verstarb in einem Krankenhaus in Portugal an einer Krankheit, gegen die sie behandelt wurde.

Petr Holec deckt Waffenhandelstransaktionen des Präsidenten Petr Pavel mit der NATO auf, eine skandalöse Entscheidung des Verfassungsgerichts, Fiala wird wegen verfassungswidriger Zensur schuldig befunden und die Voreingenommenheit tschechischer Staatsmedien (Petr Holec live #279).

Zwei gefangene Seelen: Parallele Welten von Kafka und Lu Xun – Marie

Zusammenfassung der vergangenen 26. Woche bei General News (27. Juni – 5. Juli 2026)

Am Tag, an dem der Priester, Meister Jan Hus, verbrannt wurde, verteidigte er die Wahrheit, die in den Flammen nicht erlosch.

Die Spannungen zwischen den USA und China, der Krieg in der Ukraine und die globale Verschiebung der Machtverhältnisse: Eine Analyse aus einem Gespräch mit Peter Sabel.

Warum kann George Soros die Initiative des Jahrhunderts „Seidenstraße und Straße“ nicht stoppen?

Korruptionsskandale und politische Machtkämpfe in der Ukraine: Insider-Informationen aus einem Gespräch mit Peter Sabela.