课程大纲-教务系统

课程大纲

强化学习

课程编码：085400M02019Y 英文名称：Reinforcement Learning 课时：40 学分：2.00 课程属性：一级学科普及课 主讲教师：岩延

教学目的要求

掌握强化学习的基本概念、基本原理和基本方法

预修课程

无

大纲内容

第一章强化学习简介 2学时
第1节强化学习的基本概念
第二章马尔科夫决策过程 4学时
第1节马尔科夫过程、马尔科夫决策过程
第2节 MDP基本元素：策略、回报、值函数、状态行为值函数
第3节贝尔曼方程
第三章动态规划方法 4学时
第1节动态规划概念
第2节策略评估过程
第3节策略改进方法
第4节策略迭代和值迭代
第5节值迭代与最优控制
第四章蒙特卡罗方法 4学时
第1节蒙特卡罗策略评估方法
第2节蒙特卡罗策略改进方法
第3节基于蒙特卡罗的强化学习方法
第4节重要性采样
第五章时间差分方法 4学时
第1节 DP，MC 和 TD 方法比较
第2节 MC 和 TD 方法偏差与方差平衡
第3节同策略 TD 方法：Sarsa 方法
第4节异策略 TD 方法：Qlearning 方法
第5节 N步预测的前向和后向观点
第六章值函数逼近方法 4学时
第1节值函数的参数化表示
第2节值函数的估计过程
第3节值函数的优化方法，随机梯度下降和半梯度下降法
第4节值函数的线性逼近
第七章策略梯度方法 4学时
第1节策略梯度方法介绍
第2节 REINFORCE算法
第3节常见的减小方差的方法
第4节 Actor-Critic算法
第八章深度强化学习 6学时
第1节基于值函数的深度强化学习算法
第2节 DQN算法
第3节高级策略梯度方法
第九章基于模型的深度强化学习 4学时
第1节蒙特卡洛树搜索
第2节轨迹优化算法
第3节 Guided Policy Search算法
第十章其他深度强化学习算法 4学时
第1节逆向深度强化学习算法
第2节探索与利用
第3节多智能体深度强化学习算法

参考书

1、 Algorithms for Reinforcement Learning Csaba Szepesvari 2010年6月 Morgan and Claypool Publishers

课程教师信息

岩延，博士，中国科学院院大学人工智能学院副教授