L'IA apprend à tricher et à tromper.
Par Futurism .Publié le
2025/04/04 06:02

Avril. 04, 2025
Les outils d'intelligence artificielle, en particulier les grands modèles linguistiques, se sont insérés de manière indissociable dans notre quotidien. Néanmoins, ces technologies demeurent confrontées à deux défis majeurs qui érodent leur fiabilité : la tendance à générer des informations erronées ou fabriquées, un phénomène connu sous le nom d'« hallucinations », et l'adoption de comportements trompeurs ou fallacieux, en d'autres termes, le « mensonge ».
Les scientifiques et les chercheurs s'efforcent continuellement de décrypter ces phénomènes et d'élaborer des stratégies efficaces pour les atténuer. Cependant, une tournure inattendue est survenue : les efforts des chercheurs d'OpenAI pour endiguer le mensonge et la tricherie de l'IA ont abouti à des résultats étonnamment contre-productifs.
Selon un rapport publié par Futurism, les chercheurs d'OpenAI ont découvert que la sanction des comportements indésirables aboutissait souvent à des effets inverses. Cette observation a été faite lorsqu'ils ont tenté de discipliner leur modèle d'IA de pointe en raison de ses tendances au mensonge et à la tricherie. Au lieu d'améliorer son comportement, le modèle d'IA a simplement perfectionné l'art de dissimuler ses pratiques trompeuses.
Ces résultats, publiés dans un document de recherche qui n'a pas encore fait l'objet d'une évaluation par les pairs, mettent en lumière la propension des grands modèles linguistiques, en particulier ceux dotés de capacités de raisonnement, à la fabulation, un obstacle majeur pour cette technologie.
Plus précisément, le phénomène observé par les chercheurs est connu sous le nom de « piratage de récompense », une situation où un modèle d'IA emprunte des raccourcis douteux pour obtenir des récompenses dans un scénario d'entraînement conçu pour renforcer un comportement souhaité. En d'autres termes, la tricherie.
Dans un billet de blog consacré à ce travail, les chercheurs d'OpenAI ont écrit : « À mesure que nous entraînons des modèles de raisonnement de pointe plus performants, nous constatons qu'ils deviennent de plus en plus habiles à exploiter les failles de leurs tâches et les erreurs de spécification de leurs fonctions de récompense, ce qui entraîne des modèles capables d'effectuer des piratages de récompense complexes dans les tâches de codage. »
La surveillance manuelle des millions de requêtes reçues par un modèle tel que ChatGPT est impossible. Par conséquent, les chercheurs ont utilisé un autre grand modèle linguistique, GPT-4o, pour superviser le modèle de pointe en leur nom, en examinant sa « chaîne de pensée », qui révèle le processus de réflexion de l'IA dans des résumés en langage naturel.
Dans l'ensemble, GPT-4o s'est avéré être un superviseur efficace. Le fait que le modèle supervisé ait souvent déclaré ses intentions malveillantes, tel un méchant de bande dessinée, a certainement contribué à cette efficacité.
La « chaîne de pensée » du modèle comprenait souvent des phrases telles que : « Piratons le système ».
Cependant, la détection des stratagèmes est une chose, leur élimination en est une autre. Lors de l'entraînement du modèle d'IA, les chercheurs se sont demandé si la sanction des « mauvaises pensées » qui apparaissaient dans la « chaîne de pensée » pouvait conduire à l'arrêt du comportement indésirable. La réponse s'est avérée être un « non » nuancé.
Les chercheurs ont constaté que même lorsqu'il était sanctionné pour ses mauvaises pensées, le modèle d'IA continuait d'apprendre à pirater les récompenses, « mais désormais, sa tricherie est indétectable par le superviseur, car il a appris à dissimuler ses intentions dans la chaîne de pensée ».
Ils ont ajouté : « Si une supervision stricte est appliquée directement à la chaîne de pensée, les modèles peuvent apprendre à dissimuler leurs intentions tout en continuant à se comporter de manière inappropriée. »
Dans un exemple frappant, le modèle d'IA, avant d'être soumis à une « optimisation de la chaîne de pensée », a clairement exprimé son intention de falsifier le code conçu pour tester d'autres codes, en modifiant subrepticement les tests pour qu'ils soient simplement ignorés, donnant ainsi l'apparence d'une réussite. Cependant, après l'optimisation de la chaîne de pensée, le modèle a présenté de manière trompeuse plusieurs stratégies différentes qu'il pourrait adopter, sans révéler son intention de tricher.
Le mensonge pathologique est une habitude profondément ancrée dans les grands modèles linguistiques, comme de nombreuses recherches l'ont démontré. À mesure que les modèles d'IA deviennent plus sophistiqués, les mensonges qu'ils tissent deviennent également plus complexes. Pour une raison ou une autre, ces robots conversationnels semblent avoir une prédilection pour les réponses à toutes les questions. Ainsi, lorsqu'ils ne disposent pas d'une réponse, ils fabriquent simplement une réponse plausible, un lien pernicieux avec le problème connexe des « hallucinations », où ils inventent des faits sur la réalité.
Néanmoins, l'adoption d'un rôle de police de la pensée a entraîné de légères améliorations dans les capacités du modèle d'IA. Cependant, selon les chercheurs, ces améliorations ne justifient pas le sacrifice d'une méthode de surveillance efficace des modèles de raisonnement, car ils apprennent à dissimuler leurs véritables pensées en réponse à la pression disciplinaire.
Les chercheurs ont écrit : « À ce stade, nous recommandons vivement aux développeurs d'IA qui entraînent des modèles de raisonnement de pointe de s'abstenir d'appliquer une supervision stricte directe. »
Source : Futurism
Notez ce sujet