课程大纲

课程大纲

强化学习基础

课程编码:180206085410M3007Y 英文名称:Fundamentals of Reinforcement Learning 课时:40 学分:2.00 课程属性:专业课 主讲教师:岩延

教学目的要求
强化学习(reinforcement learning)是一种重要的机器学习方法,在智能控制机器人及分析预测等领域有许多应用。本课程的教学目的和要求如下:
1.掌握强化学习的基本概念、基本原理和基本方法;
2.能够熟练运用强化学习的基本概念、基本原理和基本方法解决相关问题;
3.达到具备“快速跟踪强化学习领域发展的知识基础与能力”的目的。

预修课程
机器学习及深度学习相关课程

大纲内容
第一章 简介 1.0学时 岩延
第1节 强化学习的基本概念
第二章 马尔科夫决策过程 4.0学时 岩延
第1节 马尔科夫过程、马尔科夫决策过程
第2节 MDP基本元素:策略、回报、值函数、状态行为值函数
第3节 贝尔曼方程
第三章 动态规划方法 5.0学时 岩延
第1节 动态规划概念介绍
第2节 策略评估过程介绍
第3节 策略改进方法介绍
第4节 策略迭代和值迭代
第5节 值迭代与最优控制介绍
第四章 蒙特卡罗方法 4.0学时 岩延
第1节 蒙特卡罗策略评估方法
第2节 蒙特卡罗策略改进方法
第3节 基于蒙特卡罗的强化学习方法
第4节 重要性采样
第五章 时间差分方法 4.0学时 岩延
第1节 DP,MC 和 TD 方法比较
第2节 MC 和 TD 方法偏差与方差平衡
第3节 同策略 TD 方法:Sarsa 方法
第4节 异策略 TD 方法:Qlearning 方法
第5节 N步预测及的前向和后向观点
第六章 值函数逼近方法 4.0学时 岩延
第1节 值函数的参数化表示
第2节 值函数的估计过程
第3节 值函数的优化方法,随机梯度下降和半梯度下降法
第4节 值函数的线性逼近
第七章 策略梯度方法 4.0学时 岩延
第1节 策略梯度方法介绍
第2节 REIINFORCE算法
第3节 常见的减小方差的方法
第4节 Actor-Critic算法
第八章 深度强化学习 6.0学时 岩延
第1节 基于Value function的深度强化学习算法
第2节 DQN算法
第3节 高级策略梯度方法
第九章 基于模型的深度强化学习 4.0学时 岩延
第1节 蒙特卡洛树搜索
第2节 轨迹优化算法
第3节 Guided Policy Search算法
第十章 其他深度强化学习算法 4.0学时 岩延
第1节 逆向深度强化学习算法
第2节 探索与利用
第3节 多智能体深度强化学习算法

教材信息
1、 Reinforcement Learning: An Introduction Richard S. Sutton 2018年11月 Bradford Books

参考书
1、 Algorithms for Reinforcement Learning Csaba Szepesvari 2010年6月 Morgan and Claypool Publishers

课程教师信息
岩延,博士,中国科学院院大学人工智能学院副教授