Composante
ENSEIRB-MATMECA
Code interne
EI9IS320
Description
Ce cours est une introduction à une branche de l'apprentissage automatique ("machine learning") appelée apprentissage par récompense ("reinforcement learning", RL). Dans ce cours nous aborderons les modèles principaux utilisés en RL : les bandits manchots ("multi-armed bandits"), les processus de décision Markoviens ("Markov decision process"), et leurs extensions multi-agents et à observation partielle, à la fois dans le cadre dynamique et dans le cadre d'approximation de fonctions (par réseaux de neurones en particulier). Nous étudierons les algorithmes les plus importants : value iteration, strategy iteration, Q-learning, DQN (Deep Q-learning). Ils seront implémentés en Python.
Syllabus
Ce cours est une introduction à une branche de l'apprentissage automatique ("machine learning") appelée apprentissage par récompense ("reinforcement learning", RL). Dans ce cours nous aborderons les modèles principaux utilisés en RL : les bandits manchots ("multi-armed bandits"), les processus de décision Markoviens ("Markov decision process"), et leurs extensions multi-agents et à observation partielle, à la fois dans le cadre dynamique et dans le cadre d'approximation de fonctions (par réseaux de neurones en particulier). Nous étudierons les algorithmes les plus importants : value iteration, strategy iteration, Q-learning, DQN (Deep Q-learning). Ils seront implémentés en Python.
Modalités de contrôle des connaissances
Évaluation initiale / Session principale - Épreuves
Type d'évaluation | Nature de l'épreuve | Durée (en minutes) | Nombre d'épreuves | Coefficient de l'épreuve | Note éliminatoire de l'épreuve | Remarques |
---|---|---|---|---|---|---|
Contrôle Continu Intégral | Contrôle Continu | 1 |