课程大纲

课程大纲

自然语言处理与应用

课程编码:085400M02015Y 英文名称:Natural Language Processing and Applications 课时:32 学分:2.00 课程属性:一级学科普及课 主讲教师:张家俊等

教学目的要求
让学生对自然语言处理的相关任务和方法有较全面和深入了解,要求学生完成课程大作业。

预修课程
概率论与数理统计

大纲内容
第一章 绪论 3学时
第1节 问题的提出
第2节 基本概念
第3节 学科的产生与发展
第4节 研究内容
第5节 面临的问题与挑战
第6节 基本方法与技术现状
第二章 数学基础 2学时
第1节 概率论基础
第2节 信息论基础
第三章 语言模型 4学时
第1节 n元文法
第2节 参数估计
第3节 数据平滑
第4节 神经语言模型
第四章 文本表示 4学时
第1节 背景介绍
第2节 向量空间模型
第3节 表示学习模型
第4节 词语表示
第5节 短语表示
第6节 句子表示
第7节 文档表示
第五章 预训练模型 3学时
第1节 词向量回顾
第2节 ELMo预训练模型
第3节 GPT预训练模型
第4节 BERT预训练模型
第六章 机器翻译 6学时
第1节 机器翻译概论
第2节 统计机器翻译
第3节 神经机器翻译
第4节 译文质量评估
第七章 文本分类 3学时
第1节 基于统计机器学习的文本分类
第2节 基于深度学习的文本分类
第3节 文本分类性能评估
第八章 文本聚类 2学时
第1节 文本相似度度量
第2节 文本聚类算法
第3节 文本聚类性能评估
第九章 信息抽取 3学时
第1节 信息抽取概述
第2节 命名实体识别
第3节 实体消岐
第4节 关系抽取与知识图谱
第5节 事件抽取与事件图谱
第十章 人机对话 2学时
第1节 概述
第2节 任务型对话系统
第3节 聊天型对话系统
第4节 问答系统
第5节 系统搭建方法

参考书
1、 文本数据挖掘 宗成庆,夏睿,张家俊 2019年5月 清华大学出版社

课程教师信息
张家俊,中国科学院自动化研究所研究员、博士生导师,主要研究方向为机器翻译和自然语言处理,获得国家优秀青年科学基金资助,入选中国科协首届青年人才托举工程和北京智源青年科学家。发表CCF-A/B类论文70余篇,出版学术专著2部,6次获得最佳/优秀论文奖,3次被评为IJCAI、ACL和NAACL的杰出SPC和审稿人。获得钱伟长中文信息处理科学技术奖一等奖、青年创新奖一等奖、2019年新疆维吾尔自治区科技进步奖二等奖和2020年北京市科技进步奖一等奖。