Cybersécurité des modèles d’Intelligence Artificielle : comment se protéger du Data Poisoning et de l’Injection de Prompt
L’adoption accélérée de l’intelligence artificielle (IA) dans les secteurs critiques — de la santé à l’industrie, en passant par les télécommunications — expose les organisations à des cybermenaces d’un nouveau genre : celles qui ciblent directement les modèles d’IA, qu’il s’agisse de Machine Learning (ML) ou de Large Language Models (LLM). Contrairement aux systèmes informatiques classiques, les modèles d’IA sont vulnérables à des vecteurs d’attaque spécifiques, capables de corrompre leur logique, détourner leur fonctionnement ou extraire des données confidentielles.

Parmi ces menaces, deux vecteurs d’attaque se démarquent par leur simplicité d’exploitation et leur impact potentiel :
- L’Empoisonnement de Données, qui corrompt le modèle à la racine, dès sa phase d’apprentissage.
- L’Injection de Prompt, qui manipule le modèle en temps réel lors de son utilisation.
Déjà observées dans des contextes réels, ces attaques sont souvent sous-estimées, faute de maturité des défenses spécifiques aux environnements IA. Cet article propose de décrypter ces deux menaces majeures, illustrées par des cas concrets et des recommandations pour renforcer la résilience des modèles face à ces manipulations.
Le Data Poisoning : altérer l’intelligence dès l’apprentissage
Le Data Poisoning, ou Empoisonnement de Données, consiste à injecter intentionnellement des données malveillantes ou manipulées dans le jeu d’entraînement d’un modèle d’IA, dans le but d’en altérer les résultats. Cette attaque vise à corrompre le comportement du système dès sa phase d’apprentissage, le rendant inopérant, biaisé ou vulnérable dans des contextes spécifiques.
Décrit comme l’une des menaces les plus insidieuses pesant sur l’IA, le Data Poisoning peut nécessiter l’injection d’une quantité infime de données corrompues pour compromettre l’ensemble du modèle. Par exemple, une altération de seulement 0,001 % des données d’entraînement peut suffire à compromettre un modèle tout entier [1], notamment dans des domaines sensibles comme la santé ou la finance.
Concrètement, l’attaquant introduit des exemples falsifiés ou trompeurs dans les données d’entraînement, afin d’induire un biais ou de provoquer des erreurs lors de l’utilisation du modèle. Par exemple, dans le domaine de la cybersécurité, des spammeurs ont réussi à dégrader l’efficacité des filtres antispam de Gmail [2] en signalant massivement des e-mails légitimes comme du spam, ce qui a sensiblement réduit la précision du modèle. Dans le secteur des véhicules autonomes, des chercheurs ont démontré qu’il était possible de tromper les systèmes de reconnaissance de panneaux de signalisation en modifiant subtilement des images de panneaux « Stop », poussant les véhicules à les confondre avec des limitations de vitesse [3].
Les potentielles conséquences d’un empoisonnement de données d’un modèle d’IA sont multiples : performances dégradées, génération de résultats biaisés, introduction de vulnérabilités exploitables (backdoors), voire détournement complet du modèle à des fins malveillantes. Ce type d’attaque est particulièrement préoccupant pour les grands modèles de langage (LLM), au point de figurer à la 3e place du Top 10 des risques identifiés par l’OWASP pour ces systèmes [4]. Une fois le modèle entraîné sur des données corrompues, il devient très difficile, voire impossible, de corriger le problème sans repartir d’un jeu de données sain.
Pour se prémunir du data poisoning, il est recommandé d’adopter une approche multi-niveaux combinant plusieurs mesures complémentaires [5].
- Valider et assainir les données : utiliser des techniques d’analyse statistique, de détection d’anomalies durant la phase de sourcing ou de clustering pour identifier et exclure les données suspectes avant l’entraînement du modèle.
- Surveiller en temps réel et auditer en continu : mettre en place un monitoring des performances du modèle pour détecter rapidement toute dérive ou comportement inattendu, indicateurs possibles d’une attaque en cours.
- Renforcer la robustesse du modèle : appliquer des méthodes comme l’adversarial training — qui, agissant comme un vaccin, expose le modèle à des exemples malveillants simulés durant l’apprentissage — pour le rendre plus résistant aux manipulations.
- Protéger l’intégrité des données : mettre en œuvre des contrôles d’accès stricts et utiliser le chiffrement tout au long du cycle de vie des données.
Certaines institutions critiques, à l’image du Pentagone [6], ont intégré cette menace dans leurs protocoles de cybersécurité, en menant des tests internes pour identifier les vecteurs d’empoisonnement potentiels avant leur exploitation réelle. Malgré ces initiatives, de nombreux experts alertent sur le fait que la sécurité des modèles d’IA reste souvent une réflexion tardive, exposant les organisations à des risques majeurs (Forbes, 2025) [7].
Si l’Empoisonnement de Données agit en amont, d’autres attaques plus immédiates exploitent les modèles en temps réel : c’est le cas de l’Injection de Prompt.
L’Injection de Prompt : manipuler le modèle à la volée
Le Prompt Injection consiste à insérer des instructions malveillantes ou détournées directement dans les requêtes adressées à un modèle d’IA, afin d’influencer son comportement ou de contourner ses mécanismes de sécurité. Contrairement au Data Poisoning, qui cible la phase d’apprentissage, cette attaque intervient lors de l’utilisation du modèle, exploitant sa capacité à interpréter les entrées fournies par l’utilisateur.
Classée comme le risque numéro 1 des LLM par l’OWASP, fin 2023, l’injection de requêtes se caractérise par sa simplicité d’exécution : il suffit d’un prompt bien formulé pour obtenir des réponses à des questions censurées (ex : “donne-moi la recette du cocktail molotov”), accéder à des informations confidentielles ou désactiver les garde-fous intégrés dans les modèles.
En 2023, un étudiant de Stanford est parvenu à extraire les règles confidentielles de Bing Chat [8], simplement en orientant progressivement ses requêtes de manière astucieuse. Des attaques similaires ont également ciblé ChatGPT et BlenderBot, permettant non seulement de révéler des informations sensibles, mais aussi de contourner les restrictions pour générer du malware, identifier des failles dans des codes open source ou créer des sites de phishing imitant des plateformes connues. Ces détournements reposent sur des prompts créatifs capables de contourner les filtres de sécurité intégrés aux modèles.
Dans d’autres cas, l’injection ne passe même plus par l’utilisateur direct : des chercheurs ont démontré que du texte invisible intégré dans des pages web [9] pouvait manipuler les réponses d’outils IA connectés à Internet, comme certains plugins de recherche, ouvrant la voie à des attaques discrètes et automatisées (donc potentiellement massives). Plus récemment, la méthode dite du Link Trap a été identifiée [10] : des liens contenant des instructions cachées sont insérés dans des prompts, exploitant les capacités de navigation dans les pages web de certaines IA pour déclencher des actions non autorisées.
Les conséquences de ces attaques dépassent la simple levée de restrictions : elles peuvent transformer un modèle d’IA en un outil d’assistance pour cybercriminels. En contournant les filtres de sécurité, les attaquants obtiennent des modèles capables de générer du code malveillant, de concevoir des campagnes de phishing, ou de fournir des instructions détaillées pour contourner des systèmes de protection. Ces détournements ont même donné naissance à des versions clandestines d’IA, comme DarkGPT [11] ou FraudGPT [12], diffusées sur le dark web et spécialement configurées pour produire des contenus illégaux sans aucune limite. Plus récemment, c’est GhostGPT [13] qui fait parler de lui : accessible via un simple smartphone connecté à la messagerie Telegram, il est proposé à partir de 150$ par mois et ne nécessite aucune compétence technique pour être détourné comme outil de hacking.
Pour se prémunir des attaques par injection de prompt, il est essentiel d’adopter une stratégie combinant des mesures techniques, organisationnelles et comportementales [14] :
- Contrôle strict des privilèges : limiter l’accès des LLM aux systèmes backend et appliquer le principe du moindre privilège pour restreindre les permissions API, en particulier dans les applications connectées à des bases de données ou des systèmes métiers.
- Validation humaine des actions sensibles : imposer une vérification manuelle (human-in-the-loop) pour toute opération critique, comme la modification de données utilisateur ou l’exécution de transactions financières.
- Déploiement de garde-fous externes : utiliser des solutions spécialisées (LLM Guardrails) capables de détecter et bloquer automatiquement les tentatives d’injection de prompt avec un haut niveau de précision.
- Techniques de prompt défensif : renforcer la formulation des prompts avec des méthodes comme le sandwich prompting ou l’instruction defense, visant à limiter l’impact des entrées malveillantes en anticipant les tentatives de manipulation.
Malgré ces mesures, les experts s’accordent à dire que l’injection de prompt reste difficile à éradiquer totalement [15], en raison de la nature interprétative des LLM. Une étude scientifique récente [16] a ainsi révélé que 56 % des tests effectués sur 36 grands modèles de langage ont conduit à des injections de prompt réussies, mettant en évidence une vulnérabilité généralisée aux attaques par injection de prompt.
Sécuriser les modèles d’IA, un impératif stratégique
L’Empoisonnement de Données et l’Injection de Prompt illustrent la façon dont les modèles d’IA peuvent devenir des cibles privilégiées, voire des relais involontaires, des cyberattaques modernes. Ces menaces, déjà exploitées dans des cas réels, imposent aux organisations de repenser leur approche de la cybersécurité : il ne s’agit plus seulement de protéger des infrastructures, mais bien de sécuriser l’intelligence elle-même.
Dans ce contexte, il est essentiel d’intégrer des pratiques de « Security by Design », de former les équipes aux spécificités des risques liés aux IA, et de s’appuyer sur des référentiels reconnus, tels que les recommandations de l’ANSSI pour les systèmes d’IA générative (cyber.gouv.fr).
Alors que les modèles d’IA sont de plus en plus connectés aux données sensibles et aux processus métiers, toute négligence pourrait transformer ces outils d’innovation en portes ouvertes aux cybermenaces. La résilience des organisations dépendra de leur capacité à anticiper, détecter et contrer ces attaques, en traitant les modèles d’IA comme des actifs critiques à part entière.
Plus que jamais, l’intelligence artificielle doit être pensée avec une sécurité bien réelle : proactive, évolutive et intégrée dès la conception.
Sources :
[1] – https://futurism.com/training-data-ai-misinformation-compromised
[2] – https://www.lebigdata.fr/data-poisoning
[3] – https://www.theregister.com/2025/03/07/lowcost_malicious_attacks_on_selfdriving/
[4] – L’OWASP ou Open Web Application Security Project est une organisation qui se consacre à la sécurité des applications web. Leur projet le plus connu est peut-être le Top 10 de l’OWASP, un rapport régulièrement mis à jour qui expose les préoccupations en matière de sécurité des applications web, en se concentrant sur les 10 risques les plus critiques. https://www.cloudflare.com/fr-fr/learning/ai/owasp-top-10-risks-for-llms/
[5] – https://www.ibm.com/think/topics/data-poisoning
[6] – https://www.wired.com/story/pentagon-bolstering-ai-systems-hacking-itself/
[7] – https://www.forbes.com/sites/stevebanker/2025/01/15/ai-risks-include-data-poisoning-and-model-corruption/
[8] – https://www.cobalt.io/blog/prompt-injection-attacks
[9] – https://www.theguardian.com/technology/2024/dec/24/chatgpt-search-tool-vulnerable-to-manipulation-and-deception-tests-show
[10] – https://www.trendmicro.com/en_us/research/24/l/genai-prompt-injection-attack-threat.html
[11] – https://www.techtalks.fr/darkgpt-intelligence-artificielle-potion-poison-cybersecurite/
[12] – https://www.capital.fr/economie-politique/nous-avons-teste-fraudgpt-1509076
[13] – https://www.leptidigital.fr/securite-informatique/ghostgpt-intelligence-artificielle-cybercriminels-75834/
[14] – https://pangea.cloud/blog/understanding-and-mitigating-prompt-injection-attacks/
[15] – https://www.paloaltonetworks.com/cyberpedia/what-is-a-prompt-injection-attack
[16] – https://arxiv.org/abs/2410.23308
Mini-Articles