Intelligence artificielle en échec face à un jeu d'enfant
Par Futurism .Publié le
2025/03/22 16:47

Mars. 22, 2025
Anthropic, un géant de l'IA, a lancé une expérience étonnante : diffuser en direct la tentative de son modèle Claude 3.7 Sonnet de terminer le jeu Pokémon Rouge. Cette expérience, intitulée 'Claude Joue à Pokémon', vise à démontrer les capacités des 'agents IA', des modèles autonomes d'intelligence artificielle capables d'interagir avec leur environnement."
Progression Lente et Impasse Inattendue
Claude a réussi à progresser étonnamment loin, obtenant trois badges d'arène et atteignant, cette semaine, la ville d'Azuria. Mais sa progression est laborieuse, avec des pauses de "réflexion" après chaque mouvement, parfois très longues. Par exemple, il a fallu près de 80 heures à Claude pour trouver la sortie du Mont Sélénite, au grand soulagement des spectateurs de Twitch.
La progression ne semble pas s'accélérer. L'exploration de Kanto par l'IA d'Anthropic s'est transformée en un circuit sans fin, sans savoir où aller. Il doit emprunter la Route 5 pour la prochaine étape, mais où et comment ?
Une fenêtre de texte du flux en direct révèle que Claude utilise un processus d'élimination pour déterminer les endroits qui ne sont pas l'entrée de la Route 5. Mais comprendra-t-il qu'il doit utiliser la CS "Coupe" sur quelques arbres destructibles pour accéder à ce chemin légendaire ? Cela semble improbable : il répète sans cesse qu'il doit trouver la "porte" de la route.
En bref, Claude est bloqué. L'un des modèles d'IA les plus avancés du secteur est mis en échec par un jeu que des enfants maîtrisent depuis des générations.
Défis Visuels et Compréhension de l'Environnement
Selon les ingénieurs, le principal défi pour Claude est le traitement visuel du jeu. Claude excelle dans l'interprétation des parties textuelles, y compris les combats Pokémon. Il a également accès à la RAM du jeu pour obtenir des informations telles que ses coordonnées. Mais il ne parvient pas à interpréter de manière cohérente le faible nombre de pixels qui composent son environnement à basse résolution.
"Claude n'est toujours pas très doué pour comprendre ce qui est à l'écran," a déclaré David Hershey, l'ingénieur d'Anthropic derrière l'expérience Pokémon, dans une récente interview à Ars Technica. "Vous le verrez essayer de traverser les murs tout le temps." Ironiquement, Hershey suggère que si Claude jouait à un jeu plus réaliste visuellement, il pourrait mieux s'en sortir.
"Il est assez facile pour moi de comprendre qu'un bâtiment [dans le jeu] est un bâtiment et que je ne peux pas le traverser," a ajouté Hershey. "Et c'est [quelque chose] que Claude a du mal à comprendre."
Des Éclairs de Génie au Milieu des Difficultés
Cependant, Claude fait parfois preuve d'une intelligence surprenante, comme lorsqu'il réagit à des indices trompeurs dans le jeu.
"C'est assez drôle qu'ils vous disent d'aller trouver le Professor Oak à côté et qu'il n'y soit pas," a déclaré Hershey à Ars, décrivant l'une des premières missions du jeu. "Enfant de 5 ans, c'était très déroutant pour moi. Mais Claude passe généralement par les mêmes étapes : il parle à sa mère, va au laboratoire, ne trouve pas [Oak ] et se dit : 'Je dois trouver une solution'."
"Il est assez sophistiqué pour reproduire la façon dont [les humains] sont censés apprendre," a ajouté Hershey.
Tout n'est donc peut-être pas perdu. Claude 3.7 Sonnet a encore le temps de renverser la situation. Il a progressé bien plus loin que son prédécesseur 3.0 Sonnet, qui n'a même pas réussi à sortir de Bourg Palette, la zone de départ du jeu. Ses difficultés montrent cependant que la technologie a encore un long chemin à parcourir pour devenir véritablement "agentique", et encore moins pour réaliser sa promesse de dépasser un jour les capacités humaines.
Source: Futurism
Notez ce sujet