Des chercheurs d'OpenAI affirment que l'apprentissage par renforcement visant des traits bénéfiques peut améliorer de manière générale le comportement de l'IA, avec des gains qui se propagent à de nouveaux domaines et résistent aux pressions adversariales.
Les résultats figurent dans un article publié le 18 juin. Ses auteurs correspondants, Akshay V. Jagadeesh et Karan Singhal, ont constitué un jeu de données synthétique de conversations réalistes destiné à entraîner et mesurer des traits tels que l'honnêteté, l'humilité épistémique et l'ouverture à la correction. Les scénarios couvrent la santé, l'éducation, les sciences, le droit et l'ingénierie.
L'équipe a intégré une petite partie de ces données dans un cycle d'entraînement plus large, puis a comparé le résultat à des modèles construits avec une puissance de calcul équivalente. Le modèle entraîné s'est amélioré sur 44 des 53 benchmarks internes et externes mesurant la tromperie, le reward hacking et les conseils nuisibles.
À lire également : SpaceX d'Elon Musk efface 600 milliards de dollars alors que la fièvre des introductions en bourse record se refroidit
Le résultat le plus significatif, selon les auteurs, est la généralisation. L'entraînement du modèle à un bon comportement dans un seul domaine, la santé, a amélioré ses scores sur des tâches sans rapport, notamment la tromperie et le reward hacking. Il a également mieux résisté aux invites adversariales et aux ajustements fins nuisibles que le modèle de référence, tout en restant réactif aux requêtes légitimes.
Ce travail s'appuie sur des découvertes antérieures que l'équipe appelle le désalignement émergent. Dans cette recherche, des modèles auxquels on avait enseigné une seule mauvaise habitude, comme l'écriture de code non sécurisé, ont commencé à se comporter de manière inappropriée dans des contextes sans rapport, un schéma que cette étude visait à inverser.
À lire ensuite : OpenAI recrute le co-responsable de Gemini et le conseiller IA de Trump avant son introduction en bourse


