课程大纲

课程大纲

强化学习

课程编码:280216081203P3006 英文名称:Reinforcement Learning 课时:40 学分:2.00 课程属性:专业课 主讲教师:张立军等

教学目的要求
强化学习是人工智能中最活跃的研究领域之一,它是一种计算学习方法,通过这种方法,智能体在与复杂、不确定的环境交互时,试图最大限度地获得总回报,以实现自主动态学习和迭代的目的。强化学习是在心理学、最优化方法、机器学习、控制理论等理论基础上建立和发展起来的动态在线学习方法,在智能化算法中起着重要的作用。
作为一门专业普及课程,本课程旨在讲授强化学习的理论和方法,通过课程学习和案例分析,使学生具有应用强化学习方法解决不同类型实际问题的初步技能,并为以后的学习、科研和工作做必要的准备。

基本要求:

1、掌握强化学习的基本概念、相关的原理框架和最常用的算法,注意方法处理的技巧及其与计算机的结合;
2、通过案例分析,学习使用各种强化学习方法解决实际中遇到的问题,提高分析、解决实际问题的能力。

预修课程
《高等数学》、《矩阵论》、《最优化方法》

大纲内容
第一章 绪论
第1节 强化学习与心理和神经学 1学时 张立军
第2节 强化学习与控制理论联系 1学时 张立军
第3节 强化学习发展 1学时 张立军
第二章 基础知识
第1节 马尔科夫决策过程 2学时 张立军
第2节 动态规划 1学时 张立军
第3节 近似动态规划 2学时 张立军
第4节 值迭代 2学时 张立军
第5节 策略迭代 2学时 张立军
第三章 无模型强化学习
第1节 时序差分学习 1.5学时 杨鹏飞
第2节 蒙特卡洛方法 1.5学时 杨鹏飞
第3节 蒙特卡洛策略迭代 1.5学时 杨鹏飞
第4节 时序差分策略迭代 1.5学时 杨鹏飞
第5节 Q值迭代 1学时 杨鹏飞
第四章 基于策略梯度的强化学习
第1节 策略梯度 1.5学时 杨鹏飞
第2节 策略搜索 1.5学时 杨鹏飞
第3节 蒙特卡洛策略搜索 1.5学时 杨鹏飞
第4节 时序差分策略搜索 1.5学时 杨鹏飞
第5节 优势函数Actor-Critic 1学时 杨鹏飞
第五章 连续状态系统基于模型的强化学习
第1节 值函数近似 2学时 杨鹏飞
第2节 近似值迭代学习 2学时 杨鹏飞
第3节 近似策略迭代学习 1.5学时 杨鹏飞
第4节 近似策略搜索 1.5学时 杨鹏飞
第六章 深度强化学习
第1节 深度强化学习算法框架 1学时 杨鹏飞
第2节 DQN算法及演变 3学时 杨鹏飞
第3节 DDPG策略梯度方法及演变 3学时 杨鹏飞

参考书
1、 强化学习 Marco Wiering, Martijn van Otterlo 2018年9月 机械工业出版社

课程教师信息
张立军

中国科学院软件研究所研究员,博士生导师,中国科学院大学特聘教授,中国科学院“百人计划”主要研究方向包括形式化方法、模型检验、可信人工智能、概率并发系统。


杨鹏飞,博士,副研究员。长期从事形式化验证和人工智能安全领域的研究,在深度神经网络验证,概率模型检验等方面取得了多项重要成果。在国际顶级会议和期刊如ICSE、ESEC /FSE、ICCV、AAAI、TACAS、CONCUR、SAS、FAoC、Acta Info等发表多篇高水平论文。主持重庆市重大人才计划项目子课题一项,横向项目一项。2025年在西南大学计信院教授本科生课程线性代数和研究生课程数值分析与应用。曾多次担任国科大本科生课程离散数学和研究生课程强化学习的助教。