Approche d'intelligence artificielle où un agent apprend en interagissant avec un environnement et en recevant des récompenses ou pénalités selon ses actions. Inspiré de la psychologie comportementale, il est utilisé pour l'optimisation de décisions séquentielles.
L'apprentissage par renforcement (reinforcement learning, RL) est une branche du machine learning dans laquelle un agent prend des décisions en explorant un environnement. À chaque étape, il observe un état, choisit une action et reçoit une récompense (positive ou négative). Son objectif est de maximiser la récompense cumulative à long terme. Le RL repose sur des concepts de base : états, actions, récompenses, politique (policy), fonction de valeur et modèle de transition. Des algorithmes comme Q-learning, SARSA ou les méthodes par gradient de politique (Policy Gradient, PPO) permettent d'entraîner ces agents. Avec l'essor du deep learning, le deep reinforcement learning a permis des percées spectaculaires, comme AlphaGo de DeepMind. Le RL est appliqué dans les jeux vidéo, la robotique, la gestion de ressources, et plus récemment dans le fine‑tuning de modèles de langage (RLHF).
Découvrez tous nos termes et concepts dans le lexique complet