Sécurité & Attaques

Adversarial attack (IA)

Une attaque antagoniste (adversarial attack) consiste à manipuler volontairement les données d'entrée d'un modèle d'IA pour provoquer une erreur de prédiction ou contourner ses défenses.

Définition officielle

Une attaque antagoniste (adversarial attack) est une technique utilisée pour tromper un modèle d'intelligence artificielle, en particulier les réseaux de neurones profonds. Elle repose sur la création d'exemples dits *adversariaux* : des données d'entrée modifiées de manière imperceptible pour l'humain mais suffisante pour induire une mauvaise classification par le modèle. Par exemple, une image légèrement altérée peut être reconnue à tort par un système de vision (un panneau STOP interprété comme un panneau de limitation de vitesse). Ces attaques se divisent en plusieurs catégories : attaques en boîte blanche (l'attaquant connaît l'architecture et les paramètres du modèle), en boîte noire (il n'a accès qu'aux prédictions), attaques ciblées (viser une classe précise) ou non ciblées (provoquer n'importe quelle erreur). Elles représentent un risque majeur pour la sécurité des applications sensibles (santé, conduite autonome, biométrie). Des recherches portent sur des défenses comme la régularisation, l'entraînement adversarial, ou la détection d'inputs suspects.

Catégorie

Sécurité & Attaques

Synonymes

attaque adversariale, attaque antagoniste, adversarial attack

Avantages

Utilisées en recherche, elles permettent de tester la robustesse des modèles
Peuvent aider à identifier et corriger des failles de sécurité en IA

Limites

Exploitent les vulnérabilités des modèles complexes
Difficiles à détecter pour les systèmes de défense actuels
Menacent directement les applications critiques (santé, transport, sécurité)

Envie d'approfondir vos connaissances en IA ?

Découvrez tous nos termes et concepts dans le lexique complet

Explorer le lexique complet Nous contacter