Il modello cinese di AI GLM-5.1 può operare in autonomia fino a otto ore. Il gigante open-source diventa il primo sfidante al mondo

L'azienda cinese Z.ai ha aggiornato il suo modello linguistico open-weight di punta e la nuova versione GLM-5.1 riscrive le regole del gioco nel campo dell'IA ad agenti, ovvero l'intelligenza artificiale in grado di svolgere compiti complessi per lunghi periodi di tempo senza la continua supervisione umana. Mentre la maggior parte dei modelli odierni opera entro un budget fisso di token o si arrende una volta valutato che ulteriori ragionamenti non cambieranno il risultato, GLM-5.1 può lavorare autonomamente su un singolo compito per un massimo di otto ore.

La chiave è un approccio diverso al pensiero. Il modello si snoda attraverso un ciclo di pianificazione, esecuzione, valutazione dei risultati intermedi e rivalutazione della strategia scelta, che si ripete centinaia di volte fino a quando non decide che il compito è stato completato. Se riconosce che l'approccio attuale non sta portando all'obiettivo, cambia l'intera strategia.

Nei test interni, i modelli di Z.ai hanno utilizzato migliaia di chiamate di strumenti per diverse ore. È proprio questa capacità di riconoscere i vicoli ciechi e di discostarsene che, secondo gli esperti, è ciò che i benchmark odierni non riescono a cogliere in modo affidabile.

Da un punto di vista tecnico, si tratta di una macchina impressionante. GLM-5.1 è costruito su un'architettura di trasformatori misto-esperti con un totale di 754 miliardi di parametri, con 40 miliardi di parametri attivi per token. La finestra contestuale può contenere fino a 200.000 token in ingresso e l'uscita raggiunge i 128.000 token. Il modello gestisce il ragionamento, le chiamate di funzione e l'output strutturato. I pesi sono liberamente disponibili tramite HuggingFace sotto licenza MIT - per uso commerciale e non commerciale.

I risultati dei benchmark sono convincenti, soprattutto nell'area della programmazione. Nell'Indice di Intelligenza dell'Analisi Artificiale, GLM-5.1 ottiene 51 punti in modalità di ragionamento - il più alto tra i modelli open-source, anche se dietro ai modelli proprietari Gemini 3.1 Pro Preview e GPT-5.4 (entrambi 57 punti) e Claude Opus 4.6 (53 punti).

Nella classifica Arena Code, dove i modelli si sfidano in battaglie anonime a coppie valutate dai programmatori, GLM-5.1 si è piazzato al terzo posto con un punteggio Elo di 1.530, dietro a Claude Opus 4.6 (1.542) e Claude Opus 4.6 in modalità ragionamento (1.548). Sui problemi software reali di GitHub testati dal benchmark SWE-Bench Pro, GLM-5.1 è addirittura in testa con il 58,4%, davanti a GPT-5.4 (57,7 %), Claude Opus 4.6 (57,3 %) e Gemini 3.1 Pro (54,2 %).

Le debolezze sono evidenti nella matematica e nel ragionamento scientifico. Nel GPQA Diamond, un test di domande scientifiche di livello universitario, GLM-5.1 ha ottenuto l'86,2%, mentre Gemini 3.1 Pro il 94,3%. Nei problemi di matematica della competizione AIME 2026, GLM-5.1 ha ottenuto il 95,3%, dietro a GPT-5.4 con il 98,7%.

Il prezzo per prestazione rimane significativamente più basso rispetto alle alternative proprietarie: 1,40 dollari per milione di token di input contro i 5 dollari di Claude Opus 4.6. Tuttavia, Z.ai ha aumentato i prezzi rispetto alla versione precedente: i token di circa il 40% e gli abbonamenti dei programmatori di circa il doppio. Il divario si sta riducendo.

Il contesto più ampio della relazione è fondamentale. Secondo l'organizzazione indipendente di test METR, la lunghezza dei compiti che gli agenti di intelligenza artificiale sono in grado di completare autonomamente raddoppia ogni sette mesi circa. Tuttavia, anche i modelli migliori riescono a completare solo un quarto dei compiti di programmazione a lungo termine nei benchmark progettati per misurare la persistenza. GLM-5.1 si spinge oltre questo limite e, se la sua capacità di rivalutare strategicamente sarà confermata da test indipendenti, si tratterà di un cambiamento qualitativo, non solo di un aumento delle prestazioni.

deeplearning.ai/gnews.cz - GH

Il modello cinese di AI GLM-5.1 può operare in autonomia fino a otto ore. Il gigante open-source diventa il primo sfidante al mondo

TOP

Il governo ceco ha fatto il bilancio del primo semestre. Il Primo Ministro afferma di essere in linea con il programma promesso.

Pensate? E pensate di agire nel modo giusto? Se vogliamo cambiare qualcosa nella nostra vita, affrontare una situazione in modo diverso...

Il "Controllo delle chat" fa ritorno con un trucco: i membri del Parlamento Europeo hanno utilizzato una scappatoia procedurale per riaprire l'eccezione controversa.

Ecco un riepilogo settimanale dell'economia e della tecnologia cinese: DeepSeek accelera l'intelligenza artificiale del 85%, sono stati venduti 11.000 robot umanoidi, auto elettriche cinesi nelle fabbriche europee.

La cantante britannica Bonnie Tyler è morta all'età di 75 anni. La cantante è deceduta in un ospedale in Portogallo a causa della malattia per cui era stata ricoverata.

Riepilogo giornaliero dell'economia mondiale: Apple, Broadcom, Meta, OpenAI, UniCredit, Steadfast, petrolio (9 luglio 2026).

L'export tedesco ha sorpreso con una crescita: l'economia riceve un forte segnale dal settore industriale.

Petr Holec rivela i traffici di armi del presidente Petr Pavel con la NATO, le decisioni scandalose della Corte Costituzionale, la condanna di Fiala per censura incostituzionale e i pregiudizi dei media statali cechi (Petr Holec in diretta #279).

GNEWS Exclusive

La cantante britannica Bonnie Tyler è morta all'età di 75 anni. La cantante è deceduta in un ospedale in Portogallo a causa della malattia per cui era stata ricoverata.

Petr Holec rivela i traffici di armi del presidente Petr Pavel con la NATO, le decisioni scandalose della Corte Costituzionale, la condanna di Fiala per censura incostituzionale e i pregiudizi dei media statali cechi (Petr Holec in diretta #279).

Due anime imprigionate: Universi paralleli di Kafka e Lu Xun – Marie.

Riepilogo della settimana precedente (26 giugno - 5 luglio 2026) su General News.

Il giorno in cui il sacerdote maestro Jan Hus fu bruciato sul rogo, difese la verità, che non si spense nelle fiamme.

Le tensioni tra Stati Uniti e Cina, la guerra in Ucraina e il cambiamento globale degli equilibri di potere: un'analisi tratta da un'intervista con Peter Sabela.

Perché George Soros non riesce a fermare l'iniziativa "Belt and Road Initiative" (BRI), definita "l'iniziativa del secolo"?

Scandali di corruzione e lotte di potere politiche in Ucraina: Informazioni interne tratte dall'intervista a Peter Sabela.