J'ai forké 4 agents de codage pour exécuter le même modèle. Le meilleur a scoré 2x le pire.
Plongée dans l'architecture de Codex, Gemini CLI, Mistral Vibe et OpenCode. Même modèle, écart de performance 2x — c'est le scaffolding qui compte.
Blog
Réflexions sur les systèmes d'IA, la culture de l'ingénierie et la construction de solutions efficaces.
Plongée dans l'architecture de Codex, Gemini CLI, Mistral Vibe et OpenCode. Même modèle, écart de performance 2x — c'est le scaffolding qui compte.
Claude Code, Codex, Gemini CLI et Mistral s'attaquent à un problème d'optimisation de réseau fibre. Claude Code a battu ma solution C++ vieille de 8 ans de 62 points.
Comment j'ai construit omniagents, un framework Python de ~2000 lignes pour des agents de codage IA multi-tenants, pour découvrir qu'OpenHands existait déjà. Leçons sur l'architecture des agents, l'isolation, la persistance et les coûts.
Nous avons benchmarké notre système RAG de production sur plusieurs modèles d'embedding, tailles de chunks, stratégies de découpage et modes de recherche. Les résultats contredisent la sagesse populaire.
Un benchmark en direct qui teste la capacité des modèles d'IA à prédire des événements réels via les marchés de prédiction. Chaque jour, nous laissons les modèles d'IA parier 1 $ sur les principaux événements de Polymarket.
Nous sommes de brillants ingénieurs — pourtant nous luttons avec des docs Word, des fichiers Excel et des chaînes d'e-mails sans fin. Il est temps de reprendre le contrôle de notre métier.