课程大纲

课程大纲

算法中的最优化方法与实现

课程编码:180086085404P3002H 英文名称:Optimization Methods and Implementation in Algorithms 课时:40 学分:2.00 课程属性:专业课 主讲教师:林姝

教学目的要求
强化学习是人工智能中最活跃的研究领域之一,它是一种计算学习方法,通过这种方法,智能体在与复杂、不确定的环境交互时,试图最大限度地获得总回报,以实现自主动态学习和迭代的目的。强化学习是在心理学、最优化方法、机器学习、控制理论等理论基础上建立和发展起来的动态在线学习方法,在智能化算法中起着重要的作用。
作为一门专业普及课程,本课程旨在讲授强化学习的理论和方法,通过课程学习和案例分析,使学生具有应用强化学习方法解决不同类型实际问题的初步技能,并为以后的学习、科研和工作做必要的准备。

基本要求:

1、掌握强化学习的基本概念、相关的原理框架和最常用的算法,注意方法处理的技巧及其与计算机的结合;
2、通过案例分析,学习使用各种强化学习方法解决实际中遇到的问题,提高分析、解决实际问题的能力。

预修课程
《高等数学》、《矩阵论》、《最优化方法》

大纲内容
第一章 绪论 林姝
第1节 强化学习历史 1.0学时
第2节 强化学习与心理和神经学 1.0学时
第3节 强化学习发展 1.0学时
第二章 基础知识 林姝
第1节 马尔科夫决策过程 1.0学时
第2节 动态规划 1.0学时
第3节 近似动态规划 1.0学时
第4节 值迭代 1.0学时
第5节 策略迭代 1.0学时
第6节 模型预测及函数逼近 1.0学时
第三章 无模型强化学习 林姝
第1节 时序差分学习 1.5学时
第2节 蒙特卡洛方法 1.5学时
第3节 高效的探索和价值更新 1.5学时
第四章 基于策略梯度的强化学习 林姝
第1节 值迭代学习 1.5学时
第2节 策略迭代学习 1.5学时
第3节 案例分析 1.5学时
第五章 连续状态系统基于模型的强化学习 林姝
第1节 近似值迭代学习 1.5学时
第2节 近似策略迭代学习 1.5学时
第3节 近似策略搜索 1.5学时
第六章 连续动作控制的近似策略迭代 林姝
第1节 最小二乘策略迭代 1.5学时
第2节 连续动作多项式近似 1.5学时
第3节 案例分析 1.5学时
第七章 随机系统强化学习 林姝
第1节 概率模型强化学习 1.5学时
第2节 模糊模型强化学习 1.5学时
第3节 随机切换系统强化学习 1.5学时
第八章 深度强化学习 林姝
第1节 值函数近似 1.5学时
第2节 策略梯度算法 1.5学时
第3节 深度强化学习算法框架 1.5学时

参考书
1、 强化学习 Marco Wiering, Martijn van Otterlo 2018年9月

课程教师信息
林姝,工学博士,现为中国科学院大学计算机与控制学院副教授、IEEE会员。2011年于荷兰代尔夫特理工大学系统与控制研究中心获得博士学位,2011年至2013年于上海交通大学自动化系从事博士后研究,2013年5月进入中国科学院大学计算机与控制学院工作。研究方向为大规模复杂系统的建模、优化与控制,智能交通系统,交通数据分析,车联网等。主持国家级科研项目4项,省部级和校级项目4项,作为主要参与人参与国家级、省部级或国际合作项目等5项。在国内外控制和智能交通领域顶级期刊和会议上发表学术论文30余篇,担任《IEEE Transactions on Intelligent Transportation Systems》、《IEEE Transactions on Control Systems Technology》、《Transportation Research Part C》等顶级国际期刊的审稿人,担任国际自控联交通系统技术委员会成员(Member of the IFAC Technical Committee on Transportation Systems)。担任中国科学院大学研究生课程《最优控制理论》、《预测控制》和《算法中的最优化方法》的主讲教师。