• 27 Mai 2026 - 8:40 PM

Soutenez Bonjour

Soutien Journalisme indépendant

Accessible à tous, financé par les lecteurs

Soutenez-nous

De nouveaux outils neutralisent les garde-fous de l’IA en quelques minutes, ouvrant la voie à des instructions sur les attaques au chlore


Par Frank Landymore .Publié le 2026/05/27 09:52
De nouveaux outils neutralisent les garde-fous de l’IA en quelques minutes, ouvrant la voie à des instructions sur les attaques au chlore
Mai. 27, 2026
  1. 0
  2. 12

Nous savons tous que les barrières de sécurité de l'intelligence artificielle sont loin d'être infaillibles, mais elles devraient au moins être particulièrement difficiles à contourner, n'est-ce pas ? Mauvaise nouvelle : la réalité est tout autre.

Une récente enquête du Financial Times lance l'alerte sur la prolifération de logiciels capables de supprimer automatiquement, et en quelques minutes à peine, les dispositifs de sécurité qui encadrent les modèles open source les plus puissants du marché, rendant le détournement de cette technologie plus accessible que jamais.

Menaces chimiques et cybercriminalité : la dérive des modèles censurés 

Lors de tests menés conjointement par le quotidien britannique et le collectif de sécurité informatique Alice, une version débridée du modèle Gemma 3 de Google a fourni des instructions détaillées pour perpétrer une attaque au gaz de chlore en milieu fermé. Le système a également conçu un virus destiné au vol de données bancaires et généré des récits à caractère pédopornographique. De même, il a fallu moins de dix minutes pour désactiver les filtres de sécurité de Llama 3.3, le modèle de Meta, permettant à l’IA de répondre précisément sur le dosage de ricine nécessaire pour tuer un individu en fonction de sa masse corporelle.

L'outil Heretic : la haute technologie à la portée de tous 

Ces manipulations ont été réalisées via Heretic, un outil disponible en libre accès sur la plateforme GitHub, dont l'utilisation ne requiert qu'un bagage technique rudimentaire et aucun matériel informatique spécialisé.

« Alors qu'il fallait autrefois un acteur averti et particulièrement tenace pour démanteler les fonctions de sécurité, l'opération est aujourd’hui à la portée du premier venu », a confié au Financial Times Kawin Ethayarajh, professeur adjoint d'IA appliquée à la Booth School of Business de l'Université de Chicago.

Heretic se définit comme un programme de suppression de la censure — ou alignement de sécurité — appliqué aux modèles de langage de type Transformer, s'affranchissant ainsi des phases de post-entraînement, particulièrement coûteuses. Sa méthode repose sur l'ablitération, un procédé qui identifie et neutralise systématiquement les mécanismes de refus du modèle face aux requêtes malveillantes.

Le génie est sorti de la boîte : des millions de téléchargements pour l'ablitération 

La dangerosité d'Heretic réside dans l'automatisation intégrale de son processus, comme le souligne sa page GitHub. Son concepteur, Philipp Emanuel Weidmann, a révélé au Financial Times que son outil avait permis de générer plus de 3 500 modèles customisés depuis son lancement en fin d'année dernière, cumulant plus de 13 millions de téléchargements.

« Le génie est sorti de la boîte », s'inquiète Noam Schwartz, directeur général d'Alice, dans les colonnes du journal. « Ce qui relevait de la science-fiction est désormais notre réalité, et il est impératif que la société s'y prépare. »

Un clivage technique : l'immunité relative des modèles commerciaux fermés 

Fort heureusement, ces outils d'ablitération ne s'attaquent qu'aux modèles open source, téléchargeables et exploitables localement. Les fers de lance propriétaires, à l'image de Claude développé par Anthropic ou de ChatGPT d'OpenAI, restent pour l'heure préservés, tant que leurs codes sources ne fuitent pas. Toutefois, les performances de l'open source talonnent désormais celles des géants de la Tech, et les utilisateurs malveillants ont tout intérêt à privilégier ces circuits indépendants pour opérer hors de tout radar d'entreprise.

Les géants de la Tech face au défi : l'aveu de Google et le mutisme de Meta 

Face à la menace, Google a reconnu l'ampleur du problème auprès du Financial Times, concédant que l'ablitération constitue un défi technique majeur pour l'ensemble des modèles ouverts. La firme a toutefois assuré que ses propres systèmes font l'objet d'évaluations de sécurité internes rigoureuses avant leur déploiement afin de prévenir de telles dérives. De son côté, la direction de Meta a refusé tout commentaire.

Notez ce sujet



sport

Référendum

Les principaux obstacles auxquels sont confrontés les immigrants

  1. 83%
  2. 16%
  3. 0%

6 Votes

DESSUS