课程大纲

课程大纲

自然语言处理

课程编码:081100M01005H 英文名称:Natural Language Processing 课时:60 学分:3.00 课程属性:一级学科核心课 主讲教师:宗成庆等

教学目的要求
通过本课程的学习,学生能够掌握自然语言处理的基本概念、学科发展的历史和面临的主要问题和挑战,以及解决问题的理论方法,了解该技术当前应用的主要场景以及未来发展的趋势和方向。同时,通过课程项目实践体会和学习分析问题、解决问题的基本思路和方法。
学生应按时听课,具备基本的编程能力,并能结合课堂讲授的内容根据项目作业的要求按时完成课程作业,提交技术报告和程序实现代码,参加期末考核。
授课方式:以课堂教学为主,辅助课程项目作业练习。

预修课程
概率论与数理统计,算法分析与程序设计

大纲内容
第一章 绪论 2.0学时 宗成庆
第1节 基本概念
第2节 问题挑战
第3节 技术方法
第4节 课程内容
第5节 参考文献
第6节 本章小结
第二章 数学基础 3.0学时 宗成庆
第1节 概率论基础
第2节 信息论基础
第3节 统计学习基本概念
第4节 应用举例
第5节 本章小结
第三章 形式语言与自动机及其在NLP中的应用 2.0学时 宗成庆
第1节 形式语言
第2节 有限自动机与正则文法
第3节 有限自动机在NLP中的应用
第4节 本章小结
第四章 N元语法模型 2.0学时 宗成庆
第1节 n元文法
第2节 语料库概念
第3节 参数估计
第4节 数据平滑
第5节 语言模型自适应
第6节 语言模型应用
第7节 本章小结
第五章 隐马尔可夫与条件随机场 3.0学时 宗成庆
第1节 马尔科夫模型
第2节 隐马尔可夫模型
第3节 前向算法
第4节 后向算法
第5节 维特比算法
第6节 参数学习
第7节 隐马尔可夫模型应用举例
第8节 条件随机场及其应用
第9节 本章小结
第六章 神经网络与语言模型 6.0学时 张家俊
第1节 神经网络概述
第2节 前馈神经网络与语言模型
第3节 循环神经网络与语言模型
第4节 长时短时记忆网络
第5节 注意力机制
第6节 本章小结
第七章 文本表示 3.0学时 张家俊
第1节 向量空间表示模型
第2节 深度学习表示模型
第3节 词语表示
第4节 短语表示
第5节 句子表示
第6节 文档表示
第7节 本章小结
第八章 形态分析与词性标注 3.0学时 宗成庆
第1节 英语形态分析
第2节 汉语自动分词方法
第3节 分词结果评价
第4节 未登录识别
第5节 词性标注
第6节 子词切分
第7节 本章小结
第九章 句法分析 4.0学时 宗成庆
第1节 句法分析概述
第2节 句法树库简介
第3节 短语结构分析方法(重点:CYK,PCFG)
第4节 局部句法分析
第5节 依存关系分析方法(重点:Transition-based)
第6节 基于深度学习的句法分析方法
第7节 短语结构与依存结构之间的关系
第8节 句法分析结果评估
第9节 汉英句子结构特点对比
第10节 本章小结
第十章 语义分析 3.0学时 宗成庆
第1节 概述
第2节 语义网络
第3节 语言知识库
第4节 词义消歧
第5节 语义角色标注
第6节 本章小结
第十一章 篇章分析 2.0学时 宗成庆
第1节 篇章表示理论
第2节 篇章关系分析
第3节 篇章关系应用
第4节 本章小结
第十二章 预训练模型 5.0学时 张家俊
第1节 预训练模型概述
第2节 EMLo模型
第3节 GPT模型
第4节 BERT模型
第5节 预训练模型拓展
第6节 预训练模型与自然语言理解
第7节 预训练模型与自然语言生成
第8节 本章小结
第十三章 机器翻译 6.0学时 张家俊
第1节 机器翻译概论
第2节 统计机器翻译
第3节 神经机器翻译(循环神经网络模型)
第4节 神经机器翻译(Transformer模型)
第5节 译文质量评估
第6节 语音翻译
第7节 本章小结
第十四章 文本分类与聚类 4.0学时 张家俊
第1节 基于统计学习的文本分类
第2节 基于深度学习的文本分类
第3节 文本分类性能评估
第4节 文本相似度计算
第5节 文本聚类算法
第6节 文本聚类性能评估
第7节 本章小结
第十五章 信息抽取 3.0学时 张家俊
第1节 信息抽取概述
第2节 命名实体识别
第3节 实体消岐
第4节 关系抽取与知识图谱
第5节 事件抽取与事件图谱
第6节 本章小结
第十六章 人机对话 3.0学时 张家俊
第1节 人机对话概述
第2节 任务型对话系统
第3节 聊天型对话系统
第4节 问答系统
第5节 系统搭建方法
第6节 本章小结
第十七章 课程总结与展望 3.0学时 宗成庆
第1节 课程内容回顾
第2节 学科现状分析
第3节 内容拓展-语言认知计算
第4节 未来展望
第5节 结束语

教材信息
1、 统计自然语言处理(第2版),Foundations of Statistical Natural Language Processing 宗成庆,C. D. Manning Hinrich Schute 2013年8月,1999年 清华大学出版社,The MIT Press

参考书
1、 文本数据挖掘 宗成庆 夏睿 张家俊 2019年5月 清华大学出版社

课程教师信息
首席教授宗成庆老师,中国科学院自动化研究所研究员、博士生导师,中国科学院大学岗位教授。主要从事自然语言处理、机器翻译、人机对话系统和文本数据挖掘等相关研究,主持国家项目10余项,发表论文200余篇,出版专著《统计自然语言处理》和《文本数据挖掘》两部及译著两部。2013年当选国际计算语言学委员会(ICCL)委员,目前担任亚洲自然语言处理学会(AFNLP)主席和中国中文信息学会副理事长等职务,是学术期刊ACM TALLIP副主编、《自动化学报》副主编和IEEE Intelligent Systems等期刊的编委,曾任国际顶级学术会议ACL-IJCNLP’2015程序委员会主席和COLING’2020程序委员会主席,IJCAI’2017、IJCAI-ECAI’2018、AAAI’2019和AAAI’2020领域主席。获国家科技进步奖二等奖、中国电子学会科技进步一等奖、“钱伟长中文信息处理科学技术奖”一等奖和中国科学院教育教学成果奖二等奖,获北京市优秀教师、中国科学院优秀导师等荣誉称号。享受国务院政府特殊津贴。

主讲教师张家俊老师,2011年6月毕业于中国科学院自动化研究所,获得博士学位,现为自动化所模式识别国家重点实验室副研究员,研究方向为自然语言处理、机器翻译、跨语言跨模态信息处理等。目前担任中国中文信息学会机器翻译专委会副主任和青年工作委员会执行委员等职务。在国际一流学术期刊和顶级会议上发表论文60余篇,曾四次获得自然语言处理学术会议最佳论文奖。担任国际顶级学术会议IJCAI2017、IJCAI-ECAI’2018和AAAI’2019高级程序委员会委员(SPC)、COLING’2018和EMNLP’2019领域主席。被ACL-IJCNLP’2015和NAACL’2018评为“杰出审稿人”,IJCAI-ECAI’2018杰出高级SPC。2014年和2018年分别获得中国中文信息学会钱伟长中文信息处理科学技术奖一等奖和汉王青年创新奖一等奖。2015年入选中国科协首届“青年人才托举工程”计划。