自然语言处理基础与大模型
课程编码:180206081100P1003H
英文名称:Fundamentals of Natural Language Processing and Large Language Models
课时:60
学分:3.00
课程属性:学科核心课
主讲教师:宗成庆等
教学目的要求
本课程是人工智能、计算机及其相关专业的专业课程,在高层次人才培养计划中具有举足轻重的地位,是相关专业技术从理论走向实际应用的重要出口,其应用技术和系统已经在以互联网和移动通信技术为典型代表的大数据时代发挥了重要作用,被推崇为“人工智能皇冠上的明珠”。尤其大语言模型发布以来,已经对人工智能各研究方向产生了深刻影响,甚至对整个社会带来了巨大冲击。通过本课程学习,学生可以掌握自然语言处理的基础理论和大语言模型的实现原理及使用方法,学习面向实际应用分析问题、解决问题的基本能力。无论学生以后是否从事该方向研究,都能够通过本课程的学习掌握融合文理学科知识、综合应用自然语言处理和大语言模型技术解决实际问题的基本技能。
预修课程
概率论与数理统计,数据结构,算法设计与分析
大纲内容
第一章 绪论 2学时 宗成庆
第1节 基本概念
第2节 问题挑战
第3节 技术方法
第4节 课程内容
第5节 参考文献
第二章 统计学习基础 4学时 宗成庆
第1节 概率论基础
第2节 信息论基础
第3节 统计学习基本概念
第4节 应用举例
第三章 隐马尔可夫模型与条件随机场 3学时 宗成庆
第1节 马尔科夫模型
第2节 隐马尔可夫模型(HMM)
第3节 前向算法
第4节 后向算法
第5节 维特比算法
第6节 参数学习
第7节 HMM在NLP中的应用
第8节 条件随机场及其应用
第四章 语言模型 6学时 张家俊
第1节 n元文法
第2节 参数估计
第3节 数据平滑
第4节 神经网络概述
第5节 前馈神经网络语言模型
第6节 循环神经网络语言模型
第7节 长时短时记忆网络语言模型
第8节 注意力机制语言模型
第五章 文本表示 3学时 张家俊
第1节 向量空间表示模型
第2节 深度学习表示模型
第3节 词语表示
第4节 句子表示
第5节 文档表示
第六章 词法分析与句法分析 6学时 宗成庆
第1节 汉语自动分词方法
第2节 分词结果评价
第3节 未登录识别
第4节 词性标注
第5节 子词切分
第6节 短语结构分析方法
第7节 依存关系分析方法
第8节 句法分析结果评价
第七章 篇章分析与语义分析 3学时 宗成庆
第1节 篇章表示理论
第2节 篇章关系分析
第3节 篇章关系应用
第4节 语义网络
第5节 语义角色标注
第八章 机器翻译 4学时 张家俊
第1节 机器翻译概论
第2节 统计机器翻译
第3节 神经机器翻译
第4节 译文质量评估
第九章 文本分类和聚类 3学时 张家俊
第1节 基于统计学习的文本分类
第2节 基于深度学习的文本分类
第3节 文本分类性能评估
第4节 文本相似度计算
第5节 文本聚类算法
第6节 文本聚类性能评估
第十章 信息抽取 3学时 张家俊
第1节 信息抽取概述
第2节 命名实体识别
第3节 实体消歧
第4节 关系抽取与知识图谱
第5节 事件抽取与事件图谱
第十一章 预训练语言模型 4学时 张家俊
第1节 词向量表示回顾
第2节 ELMo模型预训练语言模型
第3节 BERT模型预训练语言模型
第4节 GPT模型预训练语言模型
第十二章 大语言模型:训练与对齐 6学时 张家俊
第1节 大语言模型概述
第2节 大语言模型训练数据
第3节 语言模型训练方法
第4节 大语言模型指令微调
第5节 基于人类反馈的对齐
第十三章 多语言大模型 3学时 张家俊
第1节 多语言大模型方法
第2节 多语言大模型训练
第3节 多语言大模型对齐
第十四章 提示学习 3学时 张家俊
第1节 基础体式学习方法
第2节 上下文学习
第3节 思维链提示
第十五章 检索增强的大语言模型 2学时 张家俊
第1节 大语言模型问题分析
第2节 检索增强的大语言模型
第十六章 课程总结与展望 3学时 宗成庆
第1节 课程内容回顾
第2节 学科现状分析
第3节 未来展望
第4节 关于课程考核
第十七章 考核 2学时 宗成庆
第1节 考试
教材信息
1、
自然语言处理基础与大模型- 案例与实践@文本数据挖掘(第2版)@统计自然语言处理(第2版)
宗成庆,赵阳,百度飞桨教材编写组@宗成庆,夏睿,张家俊@宗成庆
2024年2月@2022年11月@2013年8月
清华大学出版社@清华大学出版社@清华大学出版社
参考书
1、
大规模语言模型:从理论到实践@Natural Language Processing@Python 自然语言处理@神经机器翻译
张奇、桂韬等@Yue Zhang and Zhiyang Teng@陈涛,张旭,崔杨等@张家俊,赵阳,宗成庆
2024年1月@2021年1月@2018年8月@2022年3月
电子工业出版社@Cambridge University Press@人民邮电出版社@机械工业出版社
课程教师信息
首席教授宗成庆老师,中国科学院自动化研究所研究员、博士生导师,中国科学院大学岗位教授。主要从事自然语言处理、机器翻译、人机对话系统和文本数据挖掘等相关研究,主持国家项目10余项,发表论文200余篇,出版专著《统计自然语言处理》和《文本数据挖掘》两部及译著两部。2013年当选国际计算语言学委员会(ICCL)委员,目前担任亚洲自然语言处理学会(AFNLP)主席和中国中文信息学会副理事长等职务,是学术期刊ACM TALLIP副主编、《自动化学报》副主编和IEEE Intelligent Systems等期刊的编委,曾任国际顶级学术会议ACL-IJCNLP’2015程序委员会主席和COLING’2020程序委员会主席,IJCAI’2017、IJCAI-ECAI’2018、AAAI’2019和AAAI’2020领域主席。获国家科技进步奖二等奖、中国电子学会科技进步一等奖、“钱伟长中文信息处理科学技术奖”一等奖和中国科学院教育教学成果奖二等奖,获北京市优秀教师、中国科学院优秀导师等荣誉称号。享受国务院政府特殊津贴。
主讲教师张家俊老师,2011年6月毕业于中国科学院自动化研究所,获得博士学位,现为自动化所模式识别国家重点实验室副研究员,研究方向为自然语言处理、机器翻译、跨语言跨模态信息处理等。目前担任中国中文信息学会机器翻译专委会副主任和青年工作委员会执行委员等职务。在国际一流学术期刊和顶级会议上发表论文60余篇,曾四次获得自然语言处理学术会议最佳论文奖。担任国际顶级学术会议IJCAI2017、IJCAI-ECAI’2018和AAAI’2019高级程序委员会委员(SPC)、COLING’2018和EMNLP’2019领域主席。被ACL-IJCNLP’2015和NAACL’2018评为“杰出审稿人”,IJCAI-ECAI’2018杰出高级SPC。2014年和2018年分别获得中国中文信息学会钱伟长中文信息处理科学技术奖一等奖和汉王青年创新奖一等奖。2015年入选中国科协首届“青年人才托举工程”计划。