自然语言处理与应用
课程编码:180206085410M3012Y-01
英文名称:Natural Language Processing
and Its Applications
课时:40
学分:2.00
课程属性:专业课
主讲教师:唐海娜
教学目的要求
本课程讲授和讨论自然语言处理前沿研究领域的主要思想、关键技术和实际应用。主要内容包括语料库与语言知识库、词法分析、句法分析、机器翻译、文本情感分析和自动摘要等。
通过本课程的学习,希望学生能了解自然语言处理的基础技术和前沿研究领域,掌握基本思想和关键技术,培养学生自然语言处理相关技术的研究和应用能力。
预修课程
概率论与数理统计、算法分析与程序设计
大纲内容
第一章 绪论 4.0学时 唐海娜
第1节 基本概念
第2节 学科的产生与发展
第3节 研究内容
第4节 面临的问题与挑战
第二章 语言模型 4.0学时 唐海娜
第1节 n元文法
第2节 参数估计
第3节 数据平滑
第4节 神经语言模型
第三章 文本分类 6.0学时 唐海娜
第1节 分类技术介绍
第2节 基于统计机器学习的文本分类
第3节 基于深度学习的文本分类
第4节 文本分类性能评估
第四章 文本聚类 6.0学时 唐海娜
第1节 聚类技术介绍
第2节 文本相似度度量
第3节 文本聚类算法
第4节 文本聚类性能评估
第五章 机器翻译 4.0学时 唐海娜
第1节 机器翻译概论
第2节 统计机器翻译
第3节 神经机器翻译
第4节 译文质量评估
第六章 自动摘要 2.0学时 唐海娜
第1节 文本自动摘要
第2节 自动摘要评价
第3节 多模态自动摘要
第七章 人机对话 4.0学时 唐海娜
第1节 任务型对话系统
第2节 聊天型对话系统
第3节 问答系统
第八章 预训练模型 4.0学时 唐海娜
第1节 词向量回顾
第2节 ELMo预训练模型
第3节 GPT预训练模型
第4节 BERT预训练模型
第九章 大语言模型 4.0学时 唐海娜
第1节 大语言模型分析
第2节 大语言模型训练
第3节 大语言模型高效微调
第十章 课程总结 2.0学时 唐海娜
第1节 课程总结
参考书
1、
统计自然语言处理第2版
宗成庆
2013年8月
清华大学出版社
课程教师信息
唐海娜,人工智能学院副教授,主要研究方向包括时空数据挖掘、网络异常检测等。