• Votre sélection est vide.

    Enregistrez les diplômes, parcours ou enseignements de votre choix.

Apprentissage par renforcement

  • Composante

    ENSEIRB-MATMECA

Code interne

EI9IS320

Description

Ce cours est une introduction à une branche de l'apprentissage automatique ("machine learning") appelée apprentissage par récompense ("reinforcement learning", RL). Dans ce cours nous aborderons les modèles principaux utilisés en RL : les bandits manchots ("multi-armed bandits"), les processus de décision Markoviens ("Markov decision process"), et leurs extensions multi-agents et à observation partielle, à la fois dans le cadre dynamique et dans le cadre d'approximation de fonctions (par réseaux de neurones en particulier). Nous étudierons les algorithmes les plus importants : value iteration, strategy iteration, Q-learning, DQN (Deep Q-learning). Ils seront implémentés en Python.

Lire plus

Syllabus

Ce cours est une introduction à une branche de l'apprentissage automatique ("machine learning") appelée apprentissage par récompense ("reinforcement learning", RL). Dans ce cours nous aborderons les modèles principaux utilisés en RL : les bandits manchots ("multi-armed bandits"), les processus de décision Markoviens ("Markov decision process"), et leurs extensions multi-agents et à observation partielle, à la fois dans le cadre dynamique et dans le cadre d'approximation de fonctions (par réseaux de neurones en particulier). Nous étudierons les algorithmes les plus importants : value iteration, strategy iteration, Q-learning, DQN (Deep Q-learning). Ils seront implémentés en Python.

Lire plus

Modalités de contrôle des connaissances

Évaluation initiale / Session principale - Épreuves

Type d'évaluationNature de l'épreuveDurée (en minutes)Nombre d'épreuvesCoefficient de l'épreuveNote éliminatoire de l'épreuveRemarques
Contrôle Continu IntégralContrôle Continu1