• Mardi 20 Mai 2025 - 11:36 AM

Soutenez Bonjour

Soutien Journalisme indépendant

Accessible à tous, financé par les lecteurs

Soutenez-nous

Intelligence artificielle : les chatbots moins fiables qu'annoncé pour synthétiser les données scientifiques


Par Futurism .Publié le 2025/05/18 13:37
 Intelligence artificielle : les chatbots moins fiables qu'annoncé pour synthétiser les données scientifiques
Mai. 18, 2025
  1. 0
  2. 3

L'engouement autour de l'intelligence artificielle (IA) et de son potentiel disruptif ne faiblit pas. Les promesses d'une technologie capable de transformer radicalement nos vies, de révolutionner l'accès au savoir, et d'accélérer les découvertes scientifiques sont omniprésentes. Pourtant, une étude récente, publiée par la prestigieuse Royal Society, vient jeter une ombre significative sur ces perspectives idylliques. Les conclusions sont alarmantes : jusqu'à 73% des réponses fournies par les chatbots d'IA, souvent perçues comme fiables, pourraient en réalité s'avérer inexactes.

Malgré les discours optimistes des dirigeants de start-ups spécialisées dans l'IA, qui vantent la capacité de leurs créations à "métamorphoser le travail" et à "bouleverser notre manière d'acquérir des connaissances", la réalité semble plus nuancée. Si l'on nous assure que l'IA ne cesse de gagner en intelligence, promettant une accélération des avancées scientifiques, une simplification des tests médicaux et l'émergence d'une nouvelle forme d'érudition, une recherche met en lumière une régression préoccupante.

L'étude collaborative en question a scruté près de 5 000 résumés de travaux scientifiques produits par dix modèles linguistiques de grande taille (LLM) parmi les plus utilisés, incluant ChatGPT-4o, ChatGPT-4.5, DeepSeek et LLaMA 3.3 70B. Le constat est sans appel : même en les incitant explicitement à fournir des informations exactes, les réponses générées par l'IA manquaient de détails essentiels à un rythme cinq fois supérieur à celui des synthèses rédigées par des humains.

"Lors de la synthèse de textes scientifiques, les LLM peuvent omettre des détails qui limitent la portée des conclusions de la recherche, entraînant des généralisations de résultats plus larges que ce que l'étude originale justifie", soulignent les chercheurs dans leur publication.

Plus inquiétant encore, le taux d'erreur des LLM s'est avéré augmenter avec la nouveauté du chatbot – une tendance diamétralement opposée aux assurances des leaders de l'industrie de l'IA. S'ajoute à cela une corrélation entre la propension d'un LLM à la sur-généralisation et son niveau d'utilisation, "posant un risque significatif de mauvaises interprétations à grande échelle des résultats de la recherche", mettent en garde les auteurs de l'étude.

À titre d'exemple frappant, l'utilisation des deux modèles ChatGPT mentionnés dans l'étude a doublé chez les adolescents américains entre 2023 et 2025, passant de 13% à 26%. Bien que l'ancien ChatGPT-4 Turbo ait été environ 2,6 fois plus susceptible d'omettre des détails clés par rapport aux textes originaux, les modèles ChatGPT-4o plus récents se sont montrés neuf fois plus enclins à cette lacune. Cette tendance a également été observée chez LLaMA 3.3 70B de Meta, dont la propension à la sur-généralisation était 36,4 fois supérieure à celle des versions antérieures.

La tâche de condenser d'immenses quantités de données en quelques phrases concises représente un défi de taille. Si cette opération semble relativement aisée pour un être humain adulte, elle s'avère d'une complexité redoutable à programmer dans un chatbot.

Alors que le cerveau humain peut instinctivement tirer des leçons générales d'expériences spécifiques – comme le danger de toucher une plaque chauffante – les nuances complexes rendent difficile pour les chatbots de déterminer les faits sur lesquels se concentrer. Un humain comprend rapidement que les cuisinières peuvent brûler, contrairement aux réfrigérateurs, mais un LLM pourrait déduire que tous les appareils de cuisine chauffent, sauf indication contraire. En transposant cette métaphore au monde scientifique, la complexité s'accroît exponentiellement.

Cependant, la synthèse d'informations est également une activité chronophage pour les humains. Les chercheurs citent les contextes médicaux cliniques comme un domaine où les résumés produits par les LLM pourraient avoir un impact considérable sur l'efficacité du travail. Mais l'inverse est également vrai : dans le domaine clinique, la précision des détails est primordiale, et la moindre omission peut avoir des conséquences désastreuses.

C'est pourquoi l'intégration massive des LLM dans tous les domaines possibles, des devoirs scolaires aux pharmacies en passant par l'ingénierie mécanique, est d'autant plus préoccupante, et ce malgré un corpus croissant de travaux révélant des problèmes d'exactitude généralisés inhérents à l'IA.

Les scientifiques ont toutefois souligné certaines limites importantes à leurs conclusions. Premièrement, les instructions (prompts) fournies aux LLM peuvent avoir un impact significatif sur la réponse générée. La question de savoir si cela affecte les résumés de documents scientifiques produits par les LLM reste en suspens, suggérant une voie de recherche future.

Quoi qu'il en soit, les tendances sont claires. À moins que les développeurs d'IA ne parviennent à remettre leurs nouveaux LLM sur la bonne voie, il faudra continuer à s'en remettre aux humbles blogueurs humains pour obtenir des synthèses fiables des rapports scientifiques.

Source : Futurism

Notez ce sujet



sport

Référendum

Les principaux obstacles auxquels sont confrontés les immigrants

  1. 80%
  2. 20%
  3. 0%

5 Votes

DESSUS