Approche hybride qui combine données étiquetées et non étiquetées pour entraîner un modèle. Elle permet de réduire le coût d'annotation tout en améliorant les performances.
L'apprentissage semi-supervisé est une méthode d'intelligence artificielle qui exploite à la fois un petit ensemble de données annotées et un grand volume de données non annotées. L'idée est de tirer parti des informations structurelles présentes dans les données non étiquetées tout en guidant l'apprentissage grâce aux labels disponibles. Cette approche est utile lorsque l'annotation humaine est coûteuse, comme en santé ou en droit, mais que de grandes quantités de données brutes existent. Les techniques incluent le pseudo‑étiquetage (générer des étiquettes automatiques avec un modèle initial), la régularisation par consistance, et les modèles génératifs. Les applications sont nombreuses : reconnaissance vocale, NLP multilingue, classification d'images médicales. Le semi-supervisé constitue un compromis efficace entre les approches supervisées, très performantes mais coûteuses en labels, et non supervisées, moins guidées mais sans annotation.
Découvrez tous nos termes et concepts dans le lexique complet