强化学习及其应用
课程编码:180203083900P0005H-1
英文名称:Reinforcement Learning and Applications
课时:20
学分:1.00
课程属性:高级强化课
主讲教师:周晓飞
教学目的要求
强化学习是机器学习与人工智能研究中的重要课题,尤其AlphaGo基于强化学习在围棋比赛中获胜人类棋手之后,更引发学界和工业界的人工智能研究热潮。本课程为网络空间信息安全的高级强化课程,重点讲授强化学习的基础理论、方法和应用。课程目的及任务是:使学生通过本课程的学习,了解强化学习的基本研究问题,掌握学习模型的原理、设计方法和解决途径,为开展信息安全和人工智能相关研究方向奠定理论基础。
预修课程
无
大纲内容
第一章 绪论 2.0学时
第1节 概述
第2节 马尔可夫决策过程
第3节 强化学习问题
第4节 课程内容与安排
第二章 Bellman最优方程 2.0学时
第1节 Bellman迭代公式
第2节 Bellman最优方程
第3节 传统动态规划方法
第4节 值迭代方法
第三章 代价值估计 2.0学时
第1节 随机逼近
第2节 蒙特卡洛值估计
第3节 时序差分值估计
第4节 算法总结
第四章 策略控制 2.0学时
第1节 策略优化
第2节 蒙特卡洛策略控制
第3节 时序差分策略控制
第4节 重要性采样与离线控制
第5节 算法总结
第五章 值函数逼近 2.0学时
第1节 值函数逼近
第2节 增量预测与控制
第3节 批量预测与控制
第4节 算法总结
第六章 策略梯度方法 2.0学时
第1节 策略梯度定理
第2节 策略梯度强化学习
第3节 行动批评的强化机制
第4节 算法总结
第七章 模型与规划 2.0学时
第1节 模型学习
第2节 模型与规划
第3节 算法
第八章 蒙特卡洛树搜索 2.0学时
第1节 Decision Time Planning
第2节 蒙特卡罗树搜索
第3节 AlphaGo
第九章 强化学习及应用 4.0学时
第1节 Policy Evaluation
第2节 Game
第3节 控制过程
第4节 Text Classification
第5节 Visual Target-Driven
第6节 AlphaGo Zero
第7节 AlphaFold
第8节 ChatGPT
参考书
课程教师信息
周晓飞,女,博士,中国科学院信息工程研究所研究员、博士生导师,中国科学院大学网络空间安全学院副教授。主要从事机器学习、自然语言处理等领域的研究工作。近年研究领域包括:知识图谱表示与推理、文本情感分析、媒体的文本描述。曾先后主持和参加了多项国家自然基金、973、863等科研项目的研究工作。在国际刊物和顶级会议TKDE、AAAI、IJCAI、CIKM、WWW等上发表学术论文40余篇。在中国科学院大学主讲智能信息处理领域课程,包括《机器学习》、《强化学习及其应用》、《神经网络与深度学习》、《强化学习导论》等,深受学生欢迎。