自然语言处理与应用
课程编码:180206085410M3012Y
英文名称:Natural Language Processing
and Its Applications
课时:40
学分:2.00
课程属性:专业课
主讲教师:张家俊等
教学目的要求
本课程讲授和讨论自然语言处理前沿研究领域的主要思想、关键技术和实际应用。主要内容包括语料库与语言知识库、词法分析、句法分析、机器翻译、文本情感分析、自动摘要和信息抽取等。
通过本课程的学习,希望学生能了解自然语言处理的基础技术和前沿研究领域,掌握基本思想和关键技术,培养学生自然语言处理相关技术的研究和应用能力。
预修课程
概率论与数理统计、算法分析与程序设计
大纲内容
第一章 绪论 3学时 张家俊
第1节 问题的提出
第2节 基本概念
第3节 学科的产生与发展
第4节 研究内容
第5节 面临的问题与挑战
第6节 基本方法与技术现状
第二章 数学基础 2学时 张家俊
第1节 概率论基础
第2节 信息论基础
第三章 语言模型 4学时 张家俊
第1节 n元文法
第2节 参数估计
第3节 数据平滑
第4节 神经语言模型
第四章 文本表示 4学时 张家俊
第1节 背景介绍
第2节 向量空间模型
第3节 表示学习模型
第4节 词语表示
第5节 短语表示
第6节 句子表示
第7节 文档表示
第五章 预训练模型 3学时 张家俊
第1节 词向量回顾
第2节 ELMo预训练模型
第3节 GPT预训练模型
第4节 BERT预训练模型
第六章 大语言模型 4学时 张家俊
第1节 概述
第2节 大语言模型分析
第3节 大语言模型训练
第4节 大语言模型高效微调
第七章 机器翻译 6学时 赵阳
第1节 机器翻译概论
第2节 统计机器翻译
第3节 神经机器翻译
第4节 译文质量评估
第八章 文本分类 3学时 赵阳
第1节 基于统计机器学习的文本分类
第2节 基于深度学习的文本分类
第3节 文本分类性能评估
第九章 文本聚类 2学时 赵阳
第1节 文本相似度度量
第2节 文本聚类算法
第3节 文本聚类性能评估
第十章 信息抽取 3学时 赵阳
第1节 信息抽取概述
第2节 命名实体识别
第3节 实体消岐
第4节 关系抽取与知识图谱
第5节 事件抽取与事件图谱
第十一章 自动摘要 3学时 赵阳
第1节 概述
第2节 文本自动摘要
第3节 自动摘要评价
第4节 多模态自动摘要
第十二章 人机对话 3学时 赵阳
第1节 概述
第2节 任务型对话系统
第3节 聊天型对话系统
第4节 问答系统
第5节 系统搭建方法
参考书
1、
统计自然语言处理第2版
宗成庆
2013年8月
清华大学出版社
课程教师信息
张家俊,中国科学院自动化研究所研究员、博士生导师,主要研究方向为机器翻译和自然语言处理,获得国家优秀青年科学基金资助,入选中国科协首届青年人才托举工程和北京智源青年科学家。发表CCF-A/B类论文70余篇,出版学术专著2部,6次获得最佳/优秀论文奖,3次被评为IJCAI、ACL和NAACL的杰出SPC和审稿人。获得钱伟长中文信息处理科学技术奖一等奖、青年创新奖一等奖、2019年新疆维吾尔自治区科技进步奖二等奖和2020年北京市科技进步奖一等奖。