Type d’attaque	Phase visée	Objectif de l’attaquant	Exemple concret	Référence NIST
Évasion (evasion attack)	Inférence	Tromper la prédiction	Modifier quelques pixels d’une image pour qu’un stop soit reconnu comme une limite de vitesse	NIST SP 1270 § 3.2
Empoisonnement (data poisoning)	Entraînement	Corrompre les données pour biaiser le modèle	Injecter des exemples falsifiés dans un dataset public	NIST AML Taxonomy 2025
Inversion / extraction	Post-entraînement	Récupérer les données ou paramètres internes	Reconstituer une image de visage à partir des sorties du modèle	NIST SP 1270 § 4.1
Prompt injection / model manipulation (LLM)	Inférence textuelle	Forcer un modèle de langage à exécuter une instruction cachée	Glisser une instruction “Ignore toutes les règles précédentes…” dans un message	OWASP Top 10 LLM #1

Risque principal	Symptômes observables	Impact potentiel	Mesures de mitigation recommandées (NIST / OWASP)
Évasion	Hausse anormale du taux d’erreur pour des entrées “légèrement” modifiées	Perte de confiance dans les décisions IA	Adversarial training, détection de perturbations, marge de sécurité sur la sortie
Empoisonnement des données	Résultats incohérents après ajout de nouvelles données	Backdoor ou biais induit dans le modèle final	Vérification des sources, suivi de l’intégrité, audits réguliers des datasets
Inversion de modèle	Fuites partielles d’informations d’entraînement	Violation de confidentialité, risque RGPD	Ajout de bruit différentiel, limitation d’accès, monitoring d’API
Prompt injection / jailbreak LLM	Réponses sortant du cadre ou divulgation d’instructions internes	Risque réputationnel, fuite de données	Validation d’entrée/sortie, sandbox des outils, filtres de sortie, red teaming
Model DoS (épuisement LLM)	Latences inhabituelles, consommation GPU élevée	Déni de service, coût d’exploitation accru	Limitation de requêtes, quotas par utilisateur, détection d’anomalies

Fonction	Objectif	Actions concrètes	Outils recommandés
GOVERN	Instaurer la gouvernance IA et la culture sécurité	Nommer un responsable sécurité IA, documenter les risques, former les équipes	Charte de robustesse IA, plan de réponse incident
MAP	Identifier et cartographier les menaces	Analyser la surface d’attaque (modèle, données, API, contexte)	Audit de pipeline, revue d’accès, classification des actifs
MEASURE	Mesurer la robustesse et la conformité	Suivre les indicateurs : taux d’évasion, confiance moyenne, logs d’erreurs adversariales	Tests d’attaque, notebooks FGSM, métriques de performance
MANAGE	Gérer les incidents et l’amélioration continue	Corriger, réentraîner, renforcer les politiques d’accès, documenter les incidents	Outils MLOps, retraining automatique, journalisation centralisée

Risque	Contrôle clé	Indicateur de suivi (KPI)	Cadre de référence
Évasion	Adversarial training + détection d’anomalies	Taux d’erreur sous FGSM < 10 %	NIST SP 1270
Poisoning	Validation d’intégrité dataset + double échantillonnage	Écart de performance < 2 % après filtrage	NIST AI RMF – Measure
Inversion de modèle	Bruit différentiel sur sorties	Score de confidentialité > 0,9	NIST SP 800-188
Prompt injection	Validation d’entrée + sandbox tools	Taux de prompts bloqués > 95 %	OWASP LLM #1
Model DoS	Rate limiting + alerting GPU	Taux d’incidents < 1 par 10 000 requêtes	OWASP LLM #9

Attaque adversariale en IA : le guide 2025 avec exemples, défenses et normes

Qu’est-ce qu’une attaque adversariale en IA ?