GLM-5 avec des agents de codage : scores compétitifs, fiabilité faible
Le GLM-5 de Zhipu AI domine SWE-bench et LiveCodeBench. Je l'ai testé sur un problème d'optimisation NP-difficile inédit et 89 tâches de codage. Le meilleur cas est compétitif. Le cas typique ne l'est pas.