Blog

Articles

Réflexions sur les systèmes d'IA, la culture de l'ingénierie et la construction de solutions efficaces.

/ 21 min de lecture

J'ai benchmarké 4 agents CLI sur un problème d'optimisation NP-difficile que j'avais résolu à la main il y a 8 ans. L'un d'eux m'a battu.

Claude Code (Opus 4.6), Codex (GPT-5.3-Codex xhigh), Gemini CLI (Gemini-3-Pro-Preview) et Mistral (Devstral-2) s'attaquent à un problème d'optimisation de réseau fibre. Claude Code a battu ma solution C++ vieille de 8 ans de 62 points. Mis à jour avec les résultats GLM-5 sur deux frameworks d'agents et Terminal-Bench.