Données & Vie privée

Augmentation de données (IA)

L'augmentation de données est une technique qui consiste à générer artificiellement de nouvelles données à partir de données existantes afin d'améliorer l'entraînement d'un modèle d'IA.

Définition officielle

L'augmentation de données (data augmentation) regroupe l'ensemble des méthodes permettant de créer de nouveaux exemples d'apprentissage à partir de données existantes. En vision par ordinateur, cela peut inclure la rotation, le recadrage, le bruit, la symétrie ou la modification de luminosité d'images. En traitement du langage, il s'agit par exemple de traductions, synonymes ou reformulations automatiques. En audio, on peut ajouter du bruit de fond, changer la vitesse ou le ton. L'objectif est de rendre les modèles plus robustes, de réduire le surapprentissage et d'améliorer la généralisation. Avec l'essor des modèles génératifs, des techniques avancées comme le GAN-based augmentation ou le mixup sont utilisées. Cette approche est particulièrement utile quand les données annotées sont rares ou coûteuses. Toutefois, une mauvaise augmentation peut introduire du bruit ou biaiser l'apprentissage.

Catégorie

Données & Vie privée

Synonymes

data augmentation, enrichissement de données

Avantages

  • Améliore la robustesse et la généralisation des modèles
  • Réduit le risque de surapprentissage
  • Permet de compenser un manque de données annotées

Limites

  • Peut introduire du bruit ou des artefacts irréalistes
  • Toutes les augmentations ne sont pas pertinentes selon la tâche
  • Augmente le temps d'entraînement et la complexité du pipeline

Envie d'approfondir vos connaissances en IA ?

Découvrez tous nos termes et concepts dans le lexique complet