课程大纲-教务系统

课程大纲

自然语言处理

课程编码：081100M01005H 英文名称：Natural Language Processing 课时：60 学分：3.00 课程属性：一级学科核心课 主讲教师：宗成庆等

教学目的要求

通过本课程的学习，学生能够掌握自然语言处理的基本概念、学科发展的历史和面临的主要问题和挑战，以及解决问题的理论方法，了解该技术当前应用的主要场景以及未来发展的趋势和方向。同时，通过课程项目实践体会和学习分析问题、解决问题的基本思路和方法。
学生应按时听课，具备基本的编程能力，并能结合课堂讲授的内容根据项目作业的要求按时完成课程作业，提交技术报告和程序实现代码，参加期末考核。
授课方式：以课堂教学为主，辅助课程项目作业练习。

预修课程

概率论与数理统计，算法分析与程序设计

大纲内容

第一章绪论 2.0学时宗成庆
第1节基本概念
第2节问题挑战
第3节技术方法
第4节课程内容
第5节参考文献
第6节本章小结
第二章数学基础 3.0学时宗成庆
第1节概率论基础
第2节信息论基础
第3节统计学习基本概念
第4节应用举例
第5节本章小结
第三章形式语言与自动机及其在NLP中的应用 2.0学时宗成庆
第1节形式语言
第2节有限自动机与正则文法
第3节有限自动机在NLP中的应用
第4节本章小结
第四章 N元语法模型 2.0学时宗成庆
第1节 n元文法
第2节语料库概念
第3节参数估计
第4节数据平滑
第5节语言模型自适应
第6节语言模型应用
第7节本章小结
第五章隐马尔可夫与条件随机场 3.0学时宗成庆
第1节马尔科夫模型
第2节隐马尔可夫模型
第3节前向算法
第4节后向算法
第5节维特比算法
第6节参数学习
第7节隐马尔可夫模型应用举例
第8节条件随机场及其应用
第9节本章小结
第六章神经网络与语言模型 6.0学时张家俊
第1节神经网络概述
第2节前馈神经网络与语言模型
第3节循环神经网络与语言模型
第4节长时短时记忆网络
第5节注意力机制
第6节本章小结
第七章文本表示 3.0学时张家俊
第1节向量空间表示模型
第2节深度学习表示模型
第3节词语表示
第4节短语表示
第5节句子表示
第6节文档表示
第7节本章小结
第八章形态分析与词性标注 3.0学时宗成庆
第1节英语形态分析
第2节汉语自动分词方法
第3节分词结果评价
第4节未登录识别
第5节词性标注
第6节子词切分
第7节本章小结
第九章句法分析 4.0学时宗成庆
第1节句法分析概述
第2节句法树库简介
第3节短语结构分析方法（重点：CYK,PCFG）
第4节局部句法分析
第5节依存关系分析方法（重点：Transition-based）
第6节基于深度学习的句法分析方法
第7节短语结构与依存结构之间的关系
第8节句法分析结果评估
第9节汉英句子结构特点对比
第10节本章小结
第十章语义分析 3.0学时宗成庆
第1节概述
第2节语义网络
第3节语言知识库
第4节词义消歧
第5节语义角色标注
第6节本章小结
第十一章篇章分析 2.0学时宗成庆
第1节篇章表示理论
第2节篇章关系分析
第3节篇章关系应用
第4节本章小结
第十二章预训练模型 5.0学时张家俊
第1节预训练模型概述
第2节 EMLo模型
第3节 GPT模型
第4节 BERT模型
第5节预训练模型拓展
第6节预训练模型与自然语言理解
第7节预训练模型与自然语言生成
第8节本章小结
第十三章机器翻译 6.0学时张家俊
第1节机器翻译概论
第2节统计机器翻译
第3节神经机器翻译（循环神经网络模型）
第4节神经机器翻译（Transformer模型）
第5节译文质量评估
第6节语音翻译
第7节本章小结
第十四章文本分类与聚类 4.0学时张家俊
第1节基于统计学习的文本分类
第2节基于深度学习的文本分类
第3节文本分类性能评估
第4节文本相似度计算
第5节文本聚类算法
第6节文本聚类性能评估
第7节本章小结
第十五章信息抽取 3.0学时张家俊
第1节信息抽取概述
第2节命名实体识别
第3节实体消岐
第4节关系抽取与知识图谱
第5节事件抽取与事件图谱
第6节本章小结
第十六章人机对话 3.0学时张家俊
第1节人机对话概述
第2节任务型对话系统
第3节聊天型对话系统
第4节问答系统
第5节系统搭建方法
第6节本章小结
第十七章课程总结与展望 3.0学时宗成庆
第1节课程内容回顾
第2节学科现状分析
第3节内容拓展-语言认知计算
第4节未来展望
第5节结束语

教材信息

1、统计自然语言处理（第2版),Foundations of Statistical Natural Language Processing 宗成庆,C. D. Manning Hinrich Schute 2013年8月,1999年清华大学出版社,The MIT Press

参考书

1、文本数据挖掘宗成庆夏睿张家俊 2019年5月清华大学出版社

课程教师信息

首席教授宗成庆老师，中国科学院自动化研究所研究员、博士生导师，中国科学院大学岗位教授。主要从事自然语言处理、机器翻译、人机对话系统和文本数据挖掘等相关研究，主持国家项目10余项，发表论文200余篇，出版专著《统计自然语言处理》和《文本数据挖掘》两部及译著两部。2013年当选国际计算语言学委员会（ICCL）委员，目前担任亚洲自然语言处理学会（AFNLP）主席和中国中文信息学会副理事长等职务，是学术期刊ACM TALLIP副主编、《自动化学报》副主编和IEEE Intelligent Systems等期刊的编委，曾任国际顶级学术会议ACL-IJCNLP’2015程序委员会主席和COLING’2020程序委员会主席，IJCAI’2017、IJCAI-ECAI’2018、AAAI’2019和AAAI’2020领域主席。获国家科技进步奖二等奖、中国电子学会科技进步一等奖、“钱伟长中文信息处理科学技术奖”一等奖和中国科学院教育教学成果奖二等奖，获北京市优秀教师、中国科学院优秀导师等荣誉称号。享受国务院政府特殊津贴。

主讲教师张家俊老师，2011年6月毕业于中国科学院自动化研究所，获得博士学位，现为自动化所模式识别国家重点实验室副研究员，研究方向为自然语言处理、机器翻译、跨语言跨模态信息处理等。目前担任中国中文信息学会机器翻译专委会副主任和青年工作委员会执行委员等职务。在国际一流学术期刊和顶级会议上发表论文60余篇，曾四次获得自然语言处理学术会议最佳论文奖。担任国际顶级学术会议IJCAI2017、IJCAI-ECAI’2018和AAAI’2019高级程序委员会委员（SPC）、COLING’2018和EMNLP’2019领域主席。被ACL-IJCNLP’2015和NAACL’2018评为“杰出审稿人”，IJCAI-ECAI’2018杰出高级SPC。2014年和2018年分别获得中国中文信息学会钱伟长中文信息处理科学技术奖一等奖和汉王青年创新奖一等奖。2015年入选中国科协首届“青年人才托举工程”计划。