Sécurité & Attaques

Adversarial attack (IA)

Une attaque antagoniste (adversarial attack) consiste à manipuler volontairement les données d'entrée d'un modèle d'IA pour provoquer une erreur de prédiction ou contourner ses défenses.

Définition officielle

Une attaque antagoniste (adversarial attack) est une technique utilisée pour tromper un modèle d'intelligence artificielle, en particulier les réseaux de neurones profonds. Elle repose sur la création d'exemples dits *adversariaux* : des données d'entrée modifiées de manière imperceptible pour l'humain mais suffisante pour induire une mauvaise classification par le modèle. Par exemple, une image légèrement altérée peut être reconnue à tort par un système de vision (un panneau STOP interprété comme un panneau de limitation de vitesse). Ces attaques se divisent en plusieurs catégories : attaques en boîte blanche (l'attaquant connaît l'architecture et les paramètres du modèle), en boîte noire (il n'a accès qu'aux prédictions), attaques ciblées (viser une classe précise) ou non ciblées (provoquer n'importe quelle erreur). Elles représentent un risque majeur pour la sécurité des applications sensibles (santé, conduite autonome, biométrie). Des recherches portent sur des défenses comme la régularisation, l'entraînement adversarial, ou la détection d'inputs suspects.

Catégorie

Sécurité & Attaques

Synonymes

attaque adversariale, attaque antagoniste, adversarial attack

Avantages

  • Utilisées en recherche, elles permettent de tester la robustesse des modèles
  • Peuvent aider à identifier et corriger des failles de sécurité en IA

Limites

  • Exploitent les vulnérabilités des modèles complexes
  • Difficiles à détecter pour les systèmes de défense actuels
  • Menacent directement les applications critiques (santé, transport, sécurité)

Envie d'approfondir vos connaissances en IA ?

Découvrez tous nos termes et concepts dans le lexique complet