强化学习
课程编码:180206081104P3004H
英文名称:Reinforcement Learning
课时:40
学分:2.00
课程属性:专业课
主讲教师:赵冬斌等
教学目的要求
强化学习是人工智能中最活跃的研究领域之一。强化学习不同于监督学习,强化学习根据系统的状态作出动作,由环境给出奖惩信号,通过学习获得使累计奖惩最高的动作策略。也就是一种基于数据通过自学习方式获得最优决策和控制的方法。在棋类博弈、智能驾驶、机器人控制等领域都有广泛成功的应用。希望学生掌握强化学习理论与技术的基本思想与基本方法,了解强化学习的最新研究进展,运用强化学习方法解决工程应用中的实际问题。
预修课程
高等数学,矩阵论,随机过程
大纲内容
第一章 强化学习概述 3学时 赵冬斌
第1节 强化学习介绍
第2节 强化学习与其它机器学习的不同
第3节 强化学习发展历史
第4节 强化学习典型应用
第5节 强化学习基本元素
第6节 强化学习算法分类
第二章 马尔可夫过程 3学时 朱圆恒
第1节 马尔可夫性
第2节 马尔可夫过程
第3节 马尔可夫奖励过程
第4节 马尔可夫决策过程
第5节 策略与价值
第6节 最优化原理
第7节 MDPs扩展
第三章 动态规划 3学时 朱圆恒
第1节 动态规划
第2节 价值迭代
第3节 策略迭代
第4节 迭代策略评估
第5节 广义策略迭代
第6节 维数灾
第四章 无模型预测学习 3学时 朱圆恒
第1节 蒙特卡洛方法
第2节 时间差分学习
第3节 n-步回报
第4节 TD(λ)算法
第5节 资格迹
第五章 无模型控制学习 3学时 朱圆恒
第1节 蒙特卡洛控制
第2节 Sarsa算法
第3节 重要性采样
第4节 Q学习
第5节 Double Q学习
第6节 探索与利用
第六章 价值函数逼近 3学时 朱圆恒
第1节 函数逼近器
第2节 线性函数逼近
第3节 常见的特征表示方法
第4节 价值迭代+离散化方法
第5节 Fitted Q Iteration
第6节 策略迭代+最小二乘
第7节 预测学习+随机梯度下降法
第8节 控制学习+随机梯度下降法
第七章 策略梯度方法 3学时 朱圆恒
第1节 基于策略的强化学习
第2节 有限差分策略梯度
第3节 蒙特卡洛策略梯度
第4节 REINFORCE算法
第5节 Actor-Critic
第6节 自然策略梯度
第八章 多智能体强化学习+小组研讨课1 3学时 朱圆恒
第1节 自然梯度
第2节 确定型Actor-Critic
第3节 多智能体强化学习
第4节 基于价值的博弈强化学习
第5节 基于策略的博弈强化学习
第6节 小组研讨课1
第九章 强化学习在博弈游戏和机器人中的应用 3学时 赵冬斌
第1节 格斗游戏方法介绍
第2节 机器人Sim2Real 比赛方法介绍
第3节 第二次作业介绍
第4节 ModelArts平台和Mindspore介绍
第5节 Mindspore码部署示例
第十章 逆强化学习 3学时 朱圆恒
第1节 神经网络与卷积神经网络回顾
第2节 模仿学习
第3节 学徒学习
第4节 最大熵逆强化学习
第5节 生成对抗模仿学习
第十一章 深度强化学习 3学时 朱圆恒
第1节 基于值函数的深度强化学习(DQN;DDQN;PER;Dueling DQN)
第2节 基于策略的深度强化学习(A3C/A2C;TRPO/PPO/DDPG/SAC)
第十二章 离线强化学习 3学时 朱圆恒
第1节 离线强化学习方法
第2节 离线强化学习与自动驾驶应用
第十三章 小组研讨课2 3学时 赵冬斌
第1节 作业评价
第十四章 考试 1学时 赵冬斌
第1节 考试
参考书
1、
Reinforcement Learning: An Introduction
Sutton Richard S.
2018年11月
Bradford Book
课程教师信息
赵冬斌,博士,IEEE/CAA/AAIA Fellow,中国科学院自动化研究所研究员,中国科学院大学岗位教授,博士生导师。在国际权威期刊会议上发表论文300余篇,包括IEEE TASE/TCDS/TETCI期刊年度唯一优秀论文奖、热点论文和ESI高被引论文等20余篇,得到Nature等论文引用。在国内外主流公开比赛上获得前3名以上奖励20余次,包括2020年IEEE Conference on Games格斗游戏冠军,2020年 RoboMaster人工智能挑战赛中感知、导航与运动规划、决策全部3个赛道最高一等奖等。任领域权威期刊IEEE TCyb, TAI, CIM等编委,领域权威国际会议2022年IEEE Conference on Games大会主席,2019年International Joint Conference on Neural Networks程序委员会协主席等。
朱圆恒副研,2015年毕业于中科院自动化所,获中国科学院朱李月华奖学金, IEEE计算智能学会研究资助奖等。受中国科学院公派出国留学计划资助在美国留学访问一年(领域顶刊IEEE TNNLS主编),在IEEE汇刊等国际期刊会议上发表论文60余篇,包括IEEE汇刊年度唯一最佳论文奖2篇。任IEEE TNNLS编委,IEEE高级会员,主持国家自然科学基金重大项目的课题等多项。主要研究方向为深度强化学习和自适应动态规划、游戏AI。