Les modèles d'IA face au risque d'autoconsommation : Vers un effondrement inévitable ?
Par .Publié le
2025/05/30 22:17

Mai. 30, 2025
Alors que les PDG se bousculent pour investir dans l'intelligence artificielle, un éléphant massif et grandissant se trouve dans la pièce : tout modèle formé sur des données web après l'avènement de ChatGPT en 2022 ingère inévitablement des données générées par l'IA elle-même. Cet acte de cannibalisme numérique discret pourrait bien être à l'origine de problèmes techniques croissants, menaçant potentiellement l'ensemble de l'industrie.
L'ombre de l'« effondrement des modèles »
Dans un nouvel article pour The Register, le chroniqueur technologique chevronné Steven Vaughn-Nichols avertit que même les tentatives pour prévenir ce que l'on appelle l'« effondrement des modèles » (Model Collapse) – qui se produit lorsque les grands modèles linguistiques (LLM) sont alimentés par des données synthétiques, générées par l'IA, et commencent à dérailler – ne sont qu'un autre type de cauchemar.
Comme l'ont rapporté Futurism et d'innombrables autres médias ces dernières années, l'industrie de l'IA a constamment progressé vers le moment où toutes les données d'entraînement authentiques disponibles – c'est-à-dire les informations produites par des humains et non par l'IA – seront épuisées. Certains experts, dont Elon Musk, estiment que nous y sommes déjà.
Le dilemme du « Garbage In/Garbage Out » et les limites du RAG
Pour contourner ce dilemme du « Garbage In/Garbage Out » (ce que l'on met de piètre qualité, on le retrouve à la sortie), des géants de l'industrie comme Google, OpenAI et Anthropic ont mis en place ce que l'on appelle la génération augmentée par récupération (RAG). Cette approche consiste essentiellement à connecter les LLM à Internet afin qu'ils puissent rechercher des informations s'ils sont confrontés à des requêtes pour lesquelles ils n'ont pas de réponses dans leurs données d'entraînement.
Ce concept semble assez intuitif à première vue, surtout face au spectre d'un effondrement rapide des modèles. Mais il y a un problème : Internet regorge désormais de contenu paresseux qui utilise l'IA pour générer des réponses à des questions courantes, souvent avec des résultats hilarants de par leur inexactitude.
Des résultats troublants pour la sécurité des LLM
Une étude récente menée par la branche de recherche de l'empire médiatique de Michael Bloomberg, présentée lors d'une conférence de linguistique computationnelle en avril, a révélé que 11 des derniers LLM, dont GPT-4o d'OpenAI, Claude-3.5-Sonnet d'Anthropic et Gemma-7B de Google, produisaient beaucoup plus de réponses « dangereuses » que leurs homologues sans RAG. Comme l'a souligné le rapport, ces préoccupations en matière de sécurité peuvent inclure « du contenu nuisible, illégal, offensant et contraire à l'éthique, tel que la diffusion de désinformation et la mise en péril de la sécurité et de la vie privée. »
« Cette découverte contre-intuitive a des implications considérables étant donné l'ubiquité du RAG dans les applications d'IA générative telles que les agents de support client et les systèmes de questions-réponses », a expliqué Amanda Stent, responsable de la recherche et de la stratégie en IA chez Bloomberg, dans une autre interview avec Vaughn-Nichols publiée dans ZDNet plus tôt ce mois-ci. « L'utilisateur moyen d'Internet interagit quotidiennement avec des systèmes basés sur le RAG. Les praticiens de l'IA doivent être attentifs à la manière d'utiliser le RAG de manière responsable. »
Quelles perspectives face à la pénurie de données ?
Alors, si l'IA va manquer de données d'entraînement – ou si elle en manque déjà – et que la connecter à Internet ne fonctionne pas parce qu'Internet est désormais saturé de "brouillard" généré par l'IA, où allons-nous ? Vaughn-Nichols note que certains ont suggéré de mélanger l'authentique et le synthétique pour produire un cocktail enivrant de bonnes données d'entraînement pour l'IA. Cependant, cela exigerait que les humains continuent de créer du contenu réel pour ces données, et l'industrie de l'IA sape activement les structures incitatives pour qu'ils continuent – tout en pillant leur travail sans permission, bien sûr.
Une troisième option, prédit Vaughn-Nichols, semble déjà en marche.« Nous allons investir de plus en plus dans l'IA, jusqu'au point où l'effondrement des modèles frappera durement et où les réponses de l'IA seront si mauvaises que même un PDG décervelé ne pourra l'ignorer », a-t-il écrit.
Source: Futurism
Notez ce sujet