课程大纲

课程大纲

强化学习

课程编码:081104M05021H 英文名称:Reinforcement Learning 课时:40 学分:2.00 课程属性:专业普及课 主讲教师:赵冬斌等

教学目的要求
强化学习是人工智能中最活跃的研究领域之一。强化学习不同于监督学习,强化学习根据系统的状态作出动作,由环境给出奖惩信号,通过学习获得使累计奖惩最高的动作策略。也就是一种基于数据通过自学习方式获得最优决策和控制的方法。在棋类博弈、智能驾驶、机器人控制等领域都有广泛成功的应用。希望学生掌握强化学习理论与技术的基本思想与基本方法,了解强化学习的最新研究进展,运用强化学习方法解决工程应用中的实际问题。
课程基本要求:建议学生掌握Matlab,Python,或C++等编程语言,学生应掌握强化学习设计的一般过程,运用相关平台搭建系统,分析并解决问题。

预修课程
计算智能,高等数学,矩阵论,随机过程

大纲内容
第一章 强化学习概述 3学时 赵冬斌
第1节 强化学习介绍
第2节 强化学习与其它机器学习的不同
第3节 强化学习发展历史
第4节 强化学习典型应用
第5节 强化学习基本元素
第6节 强化学习算法分类
第二章 马尔可夫过程 3学时 朱圆恒
第1节 马尔可夫性
第2节 马尔可夫过程
第3节 马尔可夫奖励过程
第4节 马尔可夫决策过程
第5节 策略与价值
第6节 最优化原理
第7节 MDPs扩展
第三章 动态规划 3学时 朱圆恒
第1节 动态规划
第2节 价值迭代
第3节 策略迭代
第4节 迭代策略评估
第5节 广义策略迭代
第6节 维数灾
第四章 无模型预测学习 3学时 朱圆恒
第1节 蒙特卡洛方法
第2节 时间差分学习
第3节 n-步回报
第4节 TD(λ)算法
第5节 资格迹
第五章 无模型控制学习 3学时 朱圆恒
第1节 蒙特卡洛控制
第2节 Sarsa算法
第3节 重要性采样
第4节 Q学习
第5节 Double Q学习
第6节 探索与利用
第六章 价值函数逼近 3学时 朱圆恒
第1节 函数逼近器
第2节 线性函数逼近
第3节 常见的特征表示方法
第4节 价值迭代+离散化方法
第5节 Fitted Q Iteration
第6节 策略迭代+最小二乘
第7节 预测学习+随机梯度下降法
第8节 控制学习+随机梯度下降法
第七章 策略梯度方法1 3学时 朱圆恒
第1节 基于策略的强化学习
第2节 有限差分策略梯度
第3节 蒙特卡洛策略梯度
第4节 REINFORCE算法
第5节 Actor-Critic
第6节 自然策略梯度
第八章 策略梯度方法2+小组研讨课1 3学时 朱圆恒
第1节 策略梯度引入基准
第2节 自然梯度
第3节 确定型Actor-Critic
第4节 小组研讨课1
第九章 AutoML与华为云/Atlas介绍 3学时 赵冬斌
第1节 AutoML:背景、主流方法;大作业介绍和主流方法
第2节 华为云介绍
第3节 ModelArt平台介绍
第4节 Enas代码部署示例
第5节 简单VGG网络部署示例、
第6节 上传大数据集到OBS
第十章 逆强化学习 3学时 张启超
第1节 神经网络与卷积神经网络回顾
第2节 模仿学习
第3节 学徒学习
第4节 最大熵逆强化学习
第5节 生成对抗模仿学习
第十一章 深度强化学习 3学时 张启超
第1节 基于值函数的深度强化学习(DQN;DDQN;PER;Dueling DQN)
第2节 基于策略的深度强化学习(A3C/A2C;TRPO/PPO/DDPG/SAC)
第十二章 深度强化学习与智能驾驶 3学时 张启超
第1节 自动驾驶简介
第2节 视觉输入端到端控制
第3节 基于深度强化学习的决策控制(车道保持;换道超车)
第十三章 小组研讨课2 3学时 赵冬斌
第1节 作业评价
第十四章 考试 1学时 赵冬斌
第1节 考试

参考书

课程教师信息
赵冬斌研究员、博士、博士生导师,中国科学院大学岗位教授。任IEEE计算智能学会北京分会主席,曾任自适应动态规划和强化学习技术委员会主席、多媒体委员会主席、新闻委员会主席等。IEEE高级会员、自动化学会高级会员等。任领域顶级期刊IEEE TNNLS,IEEE CIM编委等,国际期刊IEEE TNNLS等特邀编辑10余次,包括深度强化学习专刊首席客座编委。任多个权威国际会议的大会主席和程序委员会主席等。发表论文300余篇,授权国际发明专利1项、国家发明专利29项。主要研究方向为深度强化学习、计算智能、自适应动态规划、智能车辆、游戏AI、机器人、能源系统等。

朱圆恒副研,2015年毕业于中科院自动化所,获中国科学院朱李月华奖学金, IEEE计算智能学会研究资助奖等。受中国科学院公派出国留学计划资助在美国留学访问一年(领域顶刊IEEE TNNLS主编),在IEEE汇刊等国际期刊会议上发表论文30余篇,包括第一作者的前5%国际期刊论文4篇,Google引用200余次。主持国家自然科学基金青年基金等多项。主要研究方向为深度强化学习和自适应动态规划、游戏AI。

主讲教师:张启超副研究员,2017年毕业于中科院自动化所,获北京市优秀毕业生,中科院院长优秀奖,IEEE计算智能学会研究资助奖等,在IEEE汇刊等国际期刊会议上发表论文20余篇,其中ESI高被引论文4篇。主要研究方向为深度强化学习和自适应动态规划、智能驾驶。