Une attaque antagoniste (adversarial attack) consiste à manipuler volontairement les données d'entrée d'un modèle d'IA pour provoquer une erreur de prédiction ou contourner ses défenses.
Une attaque antagoniste (adversarial attack) est une technique utilisée pour tromper un modèle d'intelligence artificielle, en particulier les réseaux de neurones profonds. Elle repose sur la création d'exemples dits *adversariaux* : des données d'entrée modifiées de manière imperceptible pour l'humain mais suffisante pour induire une mauvaise classification par le modèle. Par exemple, une image légèrement altérée peut être reconnue à tort par un système de vision (un panneau STOP interprété comme un panneau de limitation de vitesse). Ces attaques se divisent en plusieurs catégories : attaques en boîte blanche (l'attaquant connaît l'architecture et les paramètres du modèle), en boîte noire (il n'a accès qu'aux prédictions), attaques ciblées (viser une classe précise) ou non ciblées (provoquer n'importe quelle erreur). Elles représentent un risque majeur pour la sécurité des applications sensibles (santé, conduite autonome, biométrie). Des recherches portent sur des défenses comme la régularisation, l'entraînement adversarial, ou la détection d'inputs suspects.
Découvrez tous nos termes et concepts dans le lexique complet