

Au milieu d’une poussée vers les agents d’IA, avec Anthropic et OpenAI livrant cette semaine des outils multi-agents, Anthropic est plus que prêt à montrer certaines de ses expériences de codage d’IA les plus audacieuses. Mais comme d’habitude avec les affirmations de réalisations liées à l’IA, vous trouverez quelques mises en garde clés à venir.
Jeudi, le chercheur d’Anthropic Nicholas Carlini a publié un article de blog décrivant comment il a mis en liberté 16 instances du modèle d’IA Claude Opus 4.6 de l’entreprise sur une base de code partagée avec une supervision minimale, leur chargeant de créer un compilateur C à partir de zéro.
En deux semaines et près de 2 000 sessions Claude Code coûtant environ 20 000 $ en frais d’API, les agents du modèle d’IA auraient produit un compilateur basé sur Rust de 100 000 lignes capable de créer un noyau Linux 6.9 amorçable sur les architectures x86, ARM et RISC-V.
Carlini, chercheur scientifique au sein de l’équipe Safeguards d’Anthropic qui a passé sept ans chez Google Brain et DeepMind, a utilisé une nouvelle fonctionnalité lancée avec Claude Opus 4.6 appelée « équipes d’agents ». En pratique, chaque instance Claude s’exécutait dans son propre conteneur Docker, clonant un référentiel Git partagé, réclamant des tâches en écrivant des fichiers de verrouillage, puis en repoussant le code terminé en amont. Aucun agent d’orchestration n’a dirigé le trafic. Chaque instance a identifié indépendamment le problème qui semblait le plus évident sur lequel travailler ensuite et a commencé à le résoudre. Lorsque des conflits de fusion survenaient, les instances du modèle d’IA les résolvaient d’elles-mêmes.
Le compilateur résultant, publié par Anthropic sur GitHub, peut compiler une gamme de projets open source majeurs, notamment PostgreSQL, SQLite, Redis, FFmpeg et QEMU. Il a obtenu un taux de réussite de 99 pour cent à la suite de tests de torture du GCC et, dans ce que Carlini a appelé « le test décisif ultime du développeur », a compilé et exécuté Perte.
Il convient de noter qu’un compilateur C est une tâche presque idéale pour le codage de modèles d’IA semi-autonomes : la spécification date de plusieurs décennies et des suites de tests complètes et bien définies existent déjà, et il existe un bon compilateur de référence connu pour vérifier. La plupart des projets logiciels du monde réel ne présentent aucun de ces avantages. La partie la plus difficile de la plupart des développements n’est pas d’écrire du code qui réussit les tests ; il s’agit de déterminer quels devraient être les tests en premier lieu.