Meta accusée d’avoir volé 7,5 millions de livres pour entraîner son intelligence artificielle
Par Futurism .Publié le
2025/03/23 09:01

Mars. 23, 2025
Dans un monde où l’intelligence artificielle (IA) promet une révolution technologique sans précédent, des coûts exorbitants émergent, souvent passés inaperçus. Outre la consommation énergétique massive des centres de données dédiés à l’IA, qui engloutissent des quantités astronomiques de ressources naturelles et génèrent d’importantes émissions de carbone, un autre aspect, moins visible mais tout aussi préoccupant, se dessine : l’appétit insatiable de l’IA pour les données.
Les grands modèles linguistiques (LLMs), comme ceux qui alimentent des produits tels que ChatGPT d’OpenAI, nécessitent des quantités colossales de textes pour entraîner leurs algorithmes à comprendre et à générer du langage. Mais avec la demande croissante pour ces données, les sources originales se font de plus en plus rares.
Le chercheur en informatique Stuart Russell l’affirme : "Nous sommes littéralement en train d’épuiser les textes disponibles pour entraîner ces systèmes." En 2025, ce problème est devenu encore plus critique.
C’est dans ce contexte que Meta, la maison mère de Facebook et Instagram, a révélé un aspect sombre de ses pratiques de collecte de données. En janvier dernier, Meta a perdu une bataille judiciaire majeure face à un groupe d’auteurs qui l’accusaient d’avoir utilisé leurs livres sans autorisation pour entraîner son intelligence artificielle.
L’affaire a révélé que Meta avait téléchargé illégalement la célèbre bibliothèque pirate "LibGen" pour se procurer des millions de textes protégés par des droits d’auteur. Ces livres ont ensuite été utilisés pour entraîner le modèle linguistique Lamma de Meta, après que Mark Zuckerberg lui-même ait donné son accord. En d’autres termes, l’une des plus grandes entreprises au monde n’a même pas pris la peine d’acheter une seule copie des livres qu’elle a utilisés pour construire son IA.
Cette semaine, le magazine The Atlantic a développé un moteur de recherche capable d’explorer les fichiers de "LibGen" pour révéler quels livres ont été volés par Meta. L’ampleur de l’opération de collecte de données est stupéfiante : plus de 7,5 millions de livres et 81 millions d’articles académiques ont été aspirés, sans compter les œuvres publiées par des musées, des architectes et des artistes.
L’affaire, menée par des auteurs comme Ta-Nehisi Coates et Sarah Silverman, a suscité un débat intense autour des lois sur le droit d’auteur, de l’éthique de l’IA et de la piraterie numérique. Justin Ling, journaliste chez Wired, a déclaré : "Mon livre est là-dedans — et tant mieux ! LibGen rend des textes accessibles à des personnes qui n’y auraient pas accès autrement. Le problème, selon moi, n’est pas que LibGen propose du contenu gratuitement, mais que Meta vole ces matériaux à des fins lucratives."
Il reste à voir si Meta devra indemniser les auteurs concernés, une décision étant attendue pour cet été. Quoi qu’il en soit, le mal est déjà fait : Lamma fonctionne librement sur des plateformes comme Facebook, Instagram et WhatsApp, soulevant d’importantes questions sur l’avenir des données dans un monde dominé par les géants de la tech.
Ce scandale ne se limite pas à une simple affaire juridique. Il sonne comme un avertissement sur la manière dont les grandes entreprises traitent les données et la propriété intellectuelle à l’ère de l’intelligence artificielle. Si la technologie a le potentiel de changer le monde, la façon dont les données sont collectées et utilisées reste une question éthique et légale urgente, nécessitant une réflexion approfondie.
Source: Futurism
Notez ce sujet