

Des chercheurs de Google Cloud et de l’UCLA ont proposé un nouveau cadre d’apprentissage par renforcement qui améliore considérablement la capacité des modèles de langage à apprendre des tâches de raisonnement en plusieurs étapes très difficiles. Apprentissage par renforcement supervisé (SRL) reformule la résolution de problèmes comme une séquence d’« actions » logiques, fournissant de riches signaux d’apprentissage au cours du processus de formation.
Cette approche permet à des modèles plus petits d’apprendre des problèmes complexes qui étaient auparavant hors de portée pour d’autres techniques de formation courantes. Les expériences montrent que le SRL excelle non seulement dans les tests de raisonnement mathématique, mais se généralise également efficacement aux tâches d’ingénierie logicielle agentique.
Le SRL est un cadre de formation polyvalent qui peut élever des modèles plus petits et moins coûteux à des capacités de raisonnement plus élevées.
Les limites de la formation actuelle au raisonnement LLM
Les progrès récents dans la formation de grands modèles de langage (LLM) pour le raisonnement ont été largement motivés par l’apprentissage par renforcement avec récompenses vérifiables (RLVR), une méthode dans laquelle un modèle est récompensé en fonction de l’exactitude de sa réponse finale. En essayant à plusieurs reprises de résoudre les problèmes et en obtenant des commentaires sur le résultat final, le modèle apprend progressivement des stratégies efficaces de résolution de problèmes.
Cependant, le succès de cette approche basée sur les résultats dépend de la capacité du modèle à découvrir une solution correcte en un nombre limité de tentatives, ou "déploiements." Étant donné que chaque déploiement est coûteux en termes de calcul, les modèles ne peuvent pas être essayés indéfiniment. Cette méthode se heurte à un mur lorsque les problèmes sont si difficiles que le modèle trouve rarement, voire jamais, la bonne réponse dans les limites de son budget.
Cela crée un goulot d’étranglement critique en matière d’apprentissage. Dans de nombreux problèmes de raisonnement en plusieurs étapes, un modèle peut résoudre correctement plusieurs étapes mais dérailler à cause d’une seule erreur, conduisant à une réponse incorrecte. Avec RLVR, tout cet effort reçoit une récompense négative et le modèle n’apprend rien de son travail partiellement correct. Il s’agit d’une approche tout ou rien qui ne parvient pas à fournir un feedback granulaire et offre des récompenses rares.
Une méthode alternative est le réglage fin supervisé (SFT), dans lequel le modèle apprend à partir d’exemples contenant le processus de raisonnement complet présenté par des experts. Bien que la SFT puisse inculquer des capacités de raisonnement, elle conduit souvent à un surajustement (le modèle apprend simplement à imiter les trajectoires dans les données d’entraînement au lieu d’apprendre à généraliser aux problèmes au-delà des exemples qu’il a vus). Ce problème est aggravé par le fait que les données de formation de haute qualité créées par l’homme sont à la fois rares et coûteuses à produire.
Comme le note le document, ces limitations laissent "une lacune critique pour former de petits modèles open source afin d’apprendre efficacement des problèmes difficiles."
Comment fonctionne l’apprentissage par renforcement supervisé
SRL introduit un cadre qui reformule la résolution de problèmes comme un "processus décisionnel séquentiel," trouver un équilibre entre la RL pure basée sur les résultats et l’apprentissage pur par imitation. Au lieu d’optimiser uniquement pour la réponse finale ou de forcer le modèle à imiter l’intégralité du processus de pensée d’un expert, le SRL apprend au modèle à reproduire une séquence d’actions clés qui constituent l’épine dorsale du raisonnement expert. Cela permet au modèle d’apprendre à prendre des mesures similaires à celles d’un expert tout en développant son propre style de raisonnement interne.
Dans le cadre du SRL, les démonstrations d’experts se décomposent en une série d’actions intermédiaires et concrètes, chacune représentant une étape significative. Pour un problème mathématique, une action peut être une manipulation algébrique. Pour un agent de génie logiciel, il peut s’agir d’une commande exécutée dans un référentiel de code. Pour générer des données de formation, SRL utilise un modèle d’enseignant puissant pour créer des trajectoires de solution, qui sont ensuite utilisées pour former un modèle plus petit.
Selon I-Hung Hsu, chercheur chez Google et co-auteur de l’article, cette approche intermédiaire est la clé de son efficacité dans des scénarios du monde réel. "Le SRL se situe au milieu : il capture la flexibilité structurée de la résolution de problèmes du monde réel, où il existe de multiples stratégies valides mais aussi des notions claires de ce à quoi ressemble un « bon raisonnement » à chaque étape." Hsu a déclaré à VentureBeat. "Cela rend le SRL adapté à des domaines tels que l’automatisation de la science des données ou probablement l’optimisation de la chaîne d’approvisionnement – des tâches qui récompensent un raisonnement intermédiaire solide plutôt que de simples réponses finales."
Pendant la formation, le modèle génère d’abord un "monologue intérieur" (son processus de raisonnement interne, enfermé dans des balises
La SRL en action
Les expériences des chercheurs montrent que le SRL surpasse considérablement les bases de référence solides en matière de raisonnement mathématique complexe et de références en matière d’ingénierie logicielle agentique. Ils ont également observé que le SRL encourage des schémas de raisonnement plus flexibles et plus sophistiqués dans les modèles, tels que la planification entrelacée et l’auto-vérification, qui améliorent la qualité des solutions sans simplement allonger les résultats.
Pour les dirigeants d’entreprise, les gains de performances ne sont utiles que s’ils ne s’accompagnent pas de coûts incontrôlables. Hsu précise que les modèles formés au SRL sont plus efficaces dans leur raisonnement. "Les gains proviennent d’une meilleure qualité et d’une meilleure structure du raisonnement, et non de la verbosité," dit-il. "En termes d’efficacité, les modèles formés par SRL sont à peu près comparables au modèle de base en termes d’utilisation des jetons… même si le SRL n’est pas conçu pour réduire le coût d’inférence, il permet d’obtenir de meilleures performances de raisonnement sans l’augmenter."
Pour les épreuves de mathématiques, l’équipe a peaufiné Qwen2.5-7B-Instruct sur un ensemble de données de 1 000 questions mathématiques difficiles. Ils ont comparé ses performances à celles de modèles formés avec SFT et RLVR (en utilisant l’algorithme GRPO commun dans les modèles comme DeepSeek-R1) sur quatre tests mathématiques de niveau compétition. Le modèle formé par le SRL a obtenu une amélioration moyenne substantielle de 3,0 % des performances par rapport aux autres méthodes.
L’équipe a étendu la SRL à l’ingénierie logicielle agentique, un domaine essentiel pour l’automatisation d’entreprise. Ils ont formé un modèle spécialisé dans le codage, Qwen2.5-Coder-7B-Instructsur 5 000 trajectoires expertes d’agents interagissant avec un environnement de codage. Le modèle formé par le SRL a été comparé au modèle de base original et au SWE-Gym-7B, une base de référence solide affinée avec SFT. SRL a atteint un taux de résolution de tâches de 14,8 %, ce qui représente une amélioration relative de 74 % par rapport au modèle basé sur SFT. Cela montre la capacité du SRL à former des agents d’IA plus compétents pour des tâches de programmation complexes et réelles.
Un nouveau standard pour une IA à enjeux élevés ?
Les résultats les plus marquants de l’article sont venus de la combinaison de méthodes : d’abord, en utilisant le SRL pour enseigner le raisonnement fondamental, puis en utilisant le RLVR pour affiner cette compétence. Dans leurs expériences, lorsque les chercheurs ont utilisé le SRL comme pré-formation et appliqué le RLVR en post-formation, ils ont observé une augmentation moyenne de 3,7 %, démontrant une puissante stratégie d’apprentissage du programme.
Cela soulève la question de savoir si cela pourrait devenir un nouveau modèle pour construire une IA spécialisée.
"Nous considérons le SRL comme une base solide," dit Hsu. "Dans un sens, le SRL propose un programme – des modèles pédagogiques pour penser et agir étape par étape – avant d’affiner ces comportements avec un apprentissage par renforcement basé sur les résultats. Cette approche axée sur le SRL stabilise non seulement l’étape ultérieure du RL, mais rend également le raisonnement plus interprétable et généralisable, ce qui est essentiel pour les applications à enjeux élevés."
Pour l’avenir, Hsu reconnaît que la mise à l’échelle de ce pipeline reste confrontée à des défis, en particulier le coût élevé et la complexité du RLVR de bout en bout pour les tâches agentiques. Il se montre néanmoins optimiste quant à la voie à suivre. "Même si les parcours experts de haute qualité restent importants," il a conclu, "nous pensons que le prochain grand pas viendra de l’automatisation de leur génération et de leur filtrage, en tirant parti de modèles d’enseignants solides ou même de modèles d’étudiants auto-améliorés pour amorcer de nouvelles données."