Blog

Articles

Réflexions sur les systèmes d'IA, la culture de l'ingénierie et la construction de solutions efficaces.

10 févr. 2026 / 22 min de lecture

J'ai forké 4 agents de codage pour exécuter le même modèle. Le meilleur a scoré 2x le pire.

Plongée dans l'architecture de Codex, Gemini CLI, Mistral Vibe et OpenCode. Même modèle, écart de performance 2x — c'est le scaffolding qui compte.

8 févr. 2026 / 13 min de lecture

J'ai benchmarké 4 agents CLI sur un problème d'optimisation NP-difficile que j'avais résolu à la main il y a 8 ans. L'un d'eux m'a battu.

Claude Code, Codex, Gemini CLI et Mistral s'attaquent à un problème d'optimisation de réseau fibre. Claude Code a battu ma solution C++ vieille de 8 ans de 62 points.

2 janv. 2026 / 3 min de lecture

J'ai accidentellement reconstruit OpenHands à partir de zéro — voici ce que j'ai appris

Comment j'ai construit omniagents, un framework Python de ~2000 lignes pour des agents de codage IA multi-tenants, pour découvrir qu'OpenHands existait déjà. Leçons sur l'architecture des agents, l'isolation, la persistance et les coûts.

5 nov. 2025 / 10 min de lecture

Évaluez votre propre RAG : Pourquoi les meilleures pratiques nous ont fait défaut

Nous avons benchmarké notre système RAG de production sur plusieurs modèles d'embedding, tailles de chunks, stratégies de découpage et modes de recherche. Les résultats contredisent la sagesse populaire.

24 sept. 2025 / 11 min de lecture

PrediBench : Tester les modèles d'IA sur les marchés de prédiction

Un benchmark en direct qui teste la capacité des modèles d'IA à prédire des événements réels via les marchés de prédiction. Chaque jour, nous laissons les modèles d'IA parier 1 $ sur les principaux événements de Polymarket.

1 juin 2025 / 1 min de lecture

Manifeste de l'Ingénierie-as-Code

Nous sommes de brillants ingénieurs — pourtant nous luttons avec des docs Word, des fichiers Excel et des chaînes d'e-mails sans fin. Il est temps de reprendre le contrôle de notre métier.