L'augmentation de données est une technique qui consiste à générer artificiellement de nouvelles données à partir de données existantes afin d'améliorer l'entraînement d'un modèle d'IA.
L'augmentation de données (data augmentation) regroupe l'ensemble des méthodes permettant de créer de nouveaux exemples d'apprentissage à partir de données existantes. En vision par ordinateur, cela peut inclure la rotation, le recadrage, le bruit, la symétrie ou la modification de luminosité d'images. En traitement du langage, il s'agit par exemple de traductions, synonymes ou reformulations automatiques. En audio, on peut ajouter du bruit de fond, changer la vitesse ou le ton. L'objectif est de rendre les modèles plus robustes, de réduire le surapprentissage et d'améliorer la généralisation. Avec l'essor des modèles génératifs, des techniques avancées comme le GAN-based augmentation ou le mixup sont utilisées. Cette approche est particulièrement utile quand les données annotées sont rares ou coûteuses. Toutefois, une mauvaise augmentation peut introduire du bruit ou biaiser l'apprentissage.
Découvrez tous nos termes et concepts dans le lexique complet