课程大纲

课程大纲

强化学习

课程编码:085400M02019Y 英文名称:Reinforcement Learning 课时:40 学分:2.00 课程属性:一级学科普及课 主讲教师:岩延

教学目的要求
掌握强化学习的基本概念、基本原理和基本方法

预修课程

大纲内容
第一章 强化学习简介 2学时
第1节 强化学习的基本概念
第二章 马尔科夫决策过程 4学时
第1节 马尔科夫过程、马尔科夫决策过程
第2节 MDP基本元素:策略、回报、值函数、状态行为值函数
第3节 贝尔曼方程
第三章 动态规划方法 4学时
第1节 动态规划概念
第2节 策略评估过程
第3节 策略改进方法
第4节 策略迭代和值迭代
第5节 值迭代与最优控制
第四章 蒙特卡罗方法 4学时
第1节 蒙特卡罗策略评估方法
第2节 蒙特卡罗策略改进方法
第3节 基于蒙特卡罗的强化学习方法
第4节 重要性采样
第五章 时间差分方法 4学时
第1节 DP,MC 和 TD 方法比较
第2节 MC 和 TD 方法偏差与方差平衡
第3节 同策略 TD 方法:Sarsa 方法
第4节 异策略 TD 方法:Qlearning 方法
第5节 N步预测的前向和后向观点
第六章 值函数逼近方法 4学时
第1节 值函数的参数化表示
第2节 值函数的估计过程
第3节 值函数的优化方法,随机梯度下降和半梯度下降法
第4节 值函数的线性逼近
第七章 策略梯度方法 4学时
第1节 策略梯度方法介绍
第2节 REINFORCE算法
第3节 常见的减小方差的方法
第4节 Actor-Critic算法
第八章 深度强化学习 6学时
第1节 基于值函数的深度强化学习算法
第2节 DQN算法
第3节 高级策略梯度方法
第九章 基于模型的深度强化学习 4学时
第1节 蒙特卡洛树搜索
第2节 轨迹优化算法
第3节 Guided Policy Search算法
第十章 其他深度强化学习算法 4学时
第1节 逆向深度强化学习算法
第2节 探索与利用
第3节 多智能体深度强化学习算法

参考书
1、 Algorithms for Reinforcement Learning Csaba Szepesvari 2010年6月 Morgan and Claypool Publishers

课程教师信息
岩延,博士,中国科学院院大学人工智能学院副教授