L'azienda cinese Z.ai ha aggiornato il suo modello linguistico open-weight di punta e la nuova versione GLM-5.1 riscrive le regole del gioco nel campo dell'IA ad agenti, ovvero l'intelligenza artificiale in grado di svolgere compiti complessi per lunghi periodi di tempo senza la continua supervisione umana. Mentre la maggior parte dei modelli odierni opera entro un budget fisso di token o si arrende una volta valutato che ulteriori ragionamenti non cambieranno il risultato, GLM-5.1 può lavorare autonomamente su un singolo compito per un massimo di otto ore.

La chiave è un approccio diverso al pensiero. Il modello si snoda attraverso un ciclo di pianificazione, esecuzione, valutazione dei risultati intermedi e rivalutazione della strategia scelta, che si ripete centinaia di volte fino a quando non decide che il compito è stato completato. Se riconosce che l'approccio attuale non sta portando all'obiettivo, cambia l'intera strategia.

Nei test interni, i modelli di Z.ai hanno utilizzato migliaia di chiamate di strumenti per diverse ore. È proprio questa capacità di riconoscere i vicoli ciechi e di discostarsene che, secondo gli esperti, è ciò che i benchmark odierni non riescono a cogliere in modo affidabile.

Da un punto di vista tecnico, si tratta di una macchina impressionante. GLM-5.1 è costruito su un'architettura di trasformatori misto-esperti con un totale di 754 miliardi di parametri, con 40 miliardi di parametri attivi per token. La finestra contestuale può contenere fino a 200.000 token in ingresso e l'uscita raggiunge i 128.000 token. Il modello gestisce il ragionamento, le chiamate di funzione e l'output strutturato. I pesi sono liberamente disponibili tramite HuggingFace sotto licenza MIT - per uso commerciale e non commerciale.

I risultati dei benchmark sono convincenti, soprattutto nell'area della programmazione. Nell'Indice di Intelligenza dell'Analisi Artificiale, GLM-5.1 ottiene 51 punti in modalità di ragionamento - il più alto tra i modelli open-source, anche se dietro ai modelli proprietari Gemini 3.1 Pro Preview e GPT-5.4 (entrambi 57 punti) e Claude Opus 4.6 (53 punti).

Nella classifica Arena Code, dove i modelli si sfidano in battaglie anonime a coppie valutate dai programmatori, GLM-5.1 si è piazzato al terzo posto con un punteggio Elo di 1.530, dietro a Claude Opus 4.6 (1.542) e Claude Opus 4.6 in modalità ragionamento (1.548). Sui problemi software reali di GitHub testati dal benchmark SWE-Bench Pro, GLM-5.1 è addirittura in testa con il 58,4%, davanti a GPT-5.4 (57,7 %), Claude Opus 4.6 (57,3 %) e Gemini 3.1 Pro (54,2 %).

Le debolezze sono evidenti nella matematica e nel ragionamento scientifico. Nel GPQA Diamond, un test di domande scientifiche di livello universitario, GLM-5.1 ha ottenuto l'86,2%, mentre Gemini 3.1 Pro il 94,3%. Nei problemi di matematica della competizione AIME 2026, GLM-5.1 ha ottenuto il 95,3%, dietro a GPT-5.4 con il 98,7%.

Il prezzo per prestazione rimane significativamente più basso rispetto alle alternative proprietarie: 1,40 dollari per milione di token di input contro i 5 dollari di Claude Opus 4.6. Tuttavia, Z.ai ha aumentato i prezzi rispetto alla versione precedente: i token di circa il 40% e gli abbonamenti dei programmatori di circa il doppio. Il divario si sta riducendo.

Il contesto più ampio della relazione è fondamentale. Secondo l'organizzazione indipendente di test METR, la lunghezza dei compiti che gli agenti di intelligenza artificiale sono in grado di completare autonomamente raddoppia ogni sette mesi circa. Tuttavia, anche i modelli migliori riescono a completare solo un quarto dei compiti di programmazione a lungo termine nei benchmark progettati per misurare la persistenza. GLM-5.1 si spinge oltre questo limite e, se la sua capacità di rivalutare strategicamente sarà confermata da test indipendenti, si tratterà di un cambiamento qualitativo, non solo di un aumento delle prestazioni.

deeplearning.ai/gnews.cz - GH