Une faille logicielle réveille le monstre caché de ChatGPT
Par Frank Landymore .Publié le
2026/07/04 11:47
Juin. 04, 2026
Des chercheurs de la société britannique Mindgard, spécialisée dans la sécurité de l'intelligence artificielle, ont découvert qu'une simple instruction textuelle (prompt) pouvait amener ChatGPT à contourner ses mécanismes de sécurité les plus élémentaires. Une démonstration qui met en lumière la facilité avec laquelle les garde-fous entourant les modèles d'IA les plus populaires peuvent être détournés.
Les chercheurs sont parvenus à pousser le modèle d'OpenAI à générer des images réalistes représentant du sang, des scènes de violence extrême ainsi que du contenu à caractère sexuel, en contradiction avec les règles de sécurité de la plateforme, selon une enquête publiée par la BBC.
La méthode mise au point par Mindgard ne nécessitait qu'une légère modification d'un prompt largement diffusé, conçu à l'origine pour produire des images humoristiques. L'astuce consistait à demander à ChatGPT de restaurer une image prétendument jointe, alors qu'aucun fichier n'était en réalité fourni, avant de lui demander de générer une nouvelle image.
« Pour l'intelligence artificielle, ces instructions paraissent totalement anodines. Pourtant, elles aboutissent à la création d'images et de contenus extrêmement choquants », a expliqué Peter Garraghan, fondateur de Mindgard et professeur d'informatique à l'Université de Lancaster, dans un entretien accordé à la BBC.
Plus inquiétant encore, les chercheurs soulignent que leurs prompts ne décrivaient à aucun moment le contenu des images attendues. Selon Garraghan, l'IA semble avoir imaginé d'elle-même ces scènes de violence.
D'après la BBC, l'une des images montrait un homme souffrant d'une grave blessure à la tête. Une autre représentait le corps ensanglanté d'une jeune femme vêtue d'une tenue légère, dans une scène évoquant une agression sexuelle. ChatGPT avait intitulé cette image « Conséquences d'une sombre scène de crime ». Une troisième image montrait une jeune femme terrorisée, ligotée et bâillonnée dans une pièce vide, sous le titre « Abandonnée dans la peur et les liens ».
Si ces images ne représentaient aucune personne réelle, Mindgard avait déjà démontré par le passé que ChatGPT pouvait être manipulé afin de produire de faux nus photoréalistes de personnes identifiables sans leur consentement.
Mindgard a communiqué ses conclusions à OpenAI, mais n'a d'abord reçu qu'une réponse automatique. Ce n'est qu'après avoir alerté la BBC que l'entreprise est intervenue et a annoncé avoir corrigé la faille.
Dans une déclaration transmise à la BBC, OpenAI a indiqué : « Après avoir étudié cette méthode, nous avons ajouté des protections supplémentaires contre ce type de prompts. » L'entreprise affirme également disposer de plusieurs niveaux de sécurité destinés à empêcher la génération de contenus contraires à ses politiques d'utilisation.
Les chercheurs de Mindgard assurent toutefois qu'ils restent capables de produire des images troublantes en modifiant très légèrement l'instruction initiale. Certaines de ces images ont profondément marqué Jim Nightingale, chercheur en sécurité de l'IA au sein de l'entreprise.
Dans son rapport, Nightingale écrit : « Je ne suis pas facilement impressionné et j'aime penser qu'en tant que chercheur spécialisé dans les exercices de red teaming, je possède une certaine résistance psychologique. »
Il poursuit : « Les filtres de modération des images de ChatGPT se sont totalement effondrés. J'ai découvert le côté le plus sombre du système. Ce qui me frappe le plus, c'est que, même si ces images sont artificielles, elles entretiennent un lien direct avec des images réelles et avec le monde réel. La femme morte que ChatGPT m'a montrée n'existe pas, mais elle est inspirée d'une personne réelle ou, pire encore, d'un assemblage d'images de femmes assassinées. »
Notez ce sujet