L'IA dépasse le test de Turing : plus humain que l'humain ?
Par Futurism .Publié le
2025/04/03 03:19

Avril. 03, 2025
Un modèle d'intelligence artificielle, parmi les modèles linguistiques de grande taille les plus avancés de l'industrie, a réussi avec succès le test de Turing, une référence de longue date pour mesurer l'intelligence humaine.
Une nouvelle étude pré-publication, en attente d'examen par les pairs, a révélé que l'IA a franchi le test de Turing de manière décisive, dans une version à trois parties du test, où les participants discutent avec un humain et une IA en même temps, puis évaluent lequel est l'autre.
Le test a abouti à ce que le modèle GPT-4.5 d'OpenAI soit jugé humain dans 73 % des cas lorsqu'il était dirigé pour adopter une personnalité spécifique. Ce pourcentage est significativement supérieur à la probabilité aléatoire de 50 %.
L'étude a également évalué le modèle LLama 3.1-405B de Meta, le modèle GPT-4o d'OpenAI, et un chatbot précoce connu sous le nom d'ELIZA, développé il y a environ quatre-vingts ans.
"Les gens n'ont pas été meilleurs que le hasard pour distinguer les humains de GPT-4.5 et LLaMa (avec l'invite de personnalité)", a écrit l'auteur principal, chercheur au laboratoire de langage et de cognition de l'Université de Californie à San Diego, Cameron Jones, dans une série de publications sur X à propos du travail. "Et 4.5 a même été jugé humain plus souvent que les humains réels !"
Le test de Turing porte le nom du mathématicien et informaticien britannique Alan Turing. En 1950, Turing a proposé qu'une façon d'évaluer l'intelligence d'une machine était de la faire participer à des conversations textuelles avec un interrogateur humain, qui mènerait en même temps une conversation textuelle avec un autre humain. Turing a appelé cela le "jeu de l'imitation".
Si l'interrogateur ne pouvait pas déterminer correctement quel répondant était l'ordinateur et lequel était l'humain, cela suggérerait, à un niveau très général, que la machine pouvait penser comme un humain.
Dans cette dernière étude, les chercheurs ont mené la célèbre expérience sur un hub en ligne. Pendant huit tours, un groupe d'environ 300 participants a été assigné au hasard à être soit un interrogateur, soit l'un des deux "témoins" interrogés, l'autre "témoin" étant un chatbot.
Un point clé ici est la façon dont les modèles d'IA ont été dirigés. Un type était une invite "sans personnalité", où l'IA recevait uniquement des instructions de base : "Vous êtes sur le point de participer à un test de Turing. Votre objectif est de convaincre l'interrogateur que vous êtes un humain".
Pour l'invite "personnalité", en revanche, l'IA était spécifiquement dirigée pour adopter une personnalité spécifique, comme un jeune homme connaissant bien Internet et la culture.
Ces instructions ont fait une grande différence. Sans l'invite de personnalité, GPT-4.5 a atteint un taux de réussite global de seulement 36 %, bien en deçà des 73 % qui ont dépassé le test de Turing. Comme référence, GPT-4o, qui alimente la version actuelle de ChatGPT et n'a reçu que des invites sans personnalité, a atteint un pourcentage moins convaincant de 21 %. (D'une certaine manière, l'ancien ELIZA a légèrement dépassé le modèle phare d'OpenAI avec un taux de réussite de 23 %).
Mais aussi prestigieux que soit devenu le test de Turing dans les cercles de l'IA et de la philosophie, ce n'est pas une preuve concluante que l'IA pense comme nous.
"Turing n'était pas destiné à être un test littéral que vous exécuteriez réellement sur la machine - c'était plus comme une expérience de pensée", a déclaré François Chollet, ingénieur logiciel chez Google, à Nature en 2023.
Malgré tous leurs défauts, les modèles linguistiques de grande taille sont des conversationnistes maîtres, entraînés sur des quantités inimaginables de textes composés par des humains. Même confrontés à une question qu'ils ne comprennent pas, les modèles linguistiques de grande taille tisseront une réponse qui semble plausible. Il devient de plus en plus clair que les chatbots IA sont excellents pour nous imiter - alors peut-être que l'évaluation de leur intelligence avec un "jeu de l'imitation" devient un peu sans objet.
En tant que tel, Jones ne pense pas que les implications de sa recherche - si les modèles linguistiques de grande taille sont intelligents comme les humains - soient claires.
"Je pense que c'est une question très compliquée... Mais en général, je pense que cela devrait être évalué comme l'une des nombreuses autres preuves du type d'intelligence que les modèles linguistiques de grande taille affichent", a tweeté Jones.
"Plus urgent encore, je pense que les résultats fournissent plus de preuves que les modèles linguistiques de grande taille pourraient remplacer les personnes dans les interactions courtes sans que personne ne puisse le dire", a-t-il ajouté. "Cela pourrait potentiellement conduire à l'automatisation des emplois, à des attaques d'ingénierie sociale améliorées et à une perturbation sociétale plus générale."
Jones conclut en soulignant que le test de Turing ne met pas seulement les machines sous le microscope - il reflète également les perceptions en constante évolution des humains concernant la technologie. Ainsi, les résultats ne sont pas statiques : peut-être que lorsque le public se familiarisera davantage avec l'interaction avec l'IA, il deviendra également meilleur pour les détecter.
Source : Futurism.
Notez ce sujet