课程大纲-教务系统

课程大纲

文本数据挖掘

课程编码：081104M05019H 英文名称：Text Data Mining 课时：40 学分：2.00 课程属性：专业普及课 主讲教师：张家俊

教学目的要求

通过本课程的学习，希望学生能够掌握文本数据挖掘的基本思想和关键技术，了解文本数据挖掘的前沿研究领域，了解实际场景中的文本数据挖掘应用技术，从文本数据挖掘角度培养学生分析问题、解决问题的能力。
课程基本要求：建议学生掌握一定的理论基础知识和编程基础。理论基础知识包括：概率论与数理统计和机器学习基础。编程基础方面，建议选修学生了解算法分析的基本思想，至少掌握一种编程语言，尤其是适用于文本数据挖掘的python语言。
授课方式：课堂讲授与课程实践相结合的方式。课堂讲授文本数据挖掘的基本任务、核心思想和主要方法，并设计相应的实践课程。通过实践课程的设计，让学生更好地理论结合实际，将学到的知识能够灵活运用。

预修课程

机器学习基础、概率论与数理统计、算法分析与程序设计

大纲内容

第一章绪论 1.5学时张家俊
第1节基本概念
第2节问题与挑战
第3节研究内容
第4节基本方法与技术现状
第二章数据预处理 1.5学时张家俊
第1节数据类型介绍
第2节数据获取方法
第3节数据预处理
第4节基础处理工具
第三章文本表示 4学时张家俊
第1节背景介绍
第2节向量空间模型
第3节表示学习模型
第4节词语表示
第5节短语表示
第6节句子表示
第7节文档表示
第四章预训练模型 3学时张家俊
第1节词向量回顾
第2节 ELMo预训练模型
第3节 GPT预训练模型
第4节 BERT预训练模型
第五章文本分类 3学时张家俊
第1节基于统计机器学习的文本分类
第2节基于深度学习的文本分类
第3节文本分类性能评估
第六章文本聚类 3学时张家俊
第1节文本相似度度量
第2节文本聚类算法
第3节文本聚类性能评估
第七章主题模型 5学时张家俊
第1节主题模型背景
第2节潜在语义分析
第3节概率潜在语义分析
第4节潜在狄利克雷分布
第八章情感分析 3学时张家俊
第1节情感分析概率
第2节文档句子级情感分析
第3节词语级情感分析
第4节属性级情感分析
第5节情感分析中的极性迁移与领域适应
第6节情绪识别与原因抽取
第7节资源与评测
第九章话题检测与跟踪 4学时张家俊
第1节背景与相关术语
第2节报道与话题的相似性计算
第3节话题检测
第4节话题跟踪
第5节突发话题检测
第十章信息抽取 3学时张家俊
第1节信息抽取概述
第2节命名实体识别
第3节实体消岐
第4节关系抽取
第5节事件抽取
第十一章自动摘要 4学时张家俊
第1节文本摘要概述
第2节文本摘要分类
第3节文本摘要方法
第4节文本摘要评价
第5节多模态自动摘要
第十二章预训练模型的应用 3学时张家俊
第1节预训练+微调
第2节预训练+提示语
第十三章课程考试 2学时张家俊
第1节课程考试

教材信息

1、《文本数据挖掘》宗成庆、夏睿、张家俊 2019年5月清华大学出版社

参考书

1、《自然语言处理》宗成庆 2013年8月清华大学出版社

课程教师信息

课程首席教授张家俊研究员，2011年6月毕业于中国科学院自动化研究所，获得博士学位，现为自动化所模式识别国家重点实验室副研究员，研究方向为自然语言处理、机器翻译、跨语言跨模态信息处理等。目前担任中国中文信息学会机器翻译专委会副主任和青年工作委员会执行委员等职务。在国际一流学术期刊和顶级会议上发表论文60余篇，曾四次获得自然语言处理学术会议最佳论文奖。担任国际顶级学术会议IJCAI2017、IJCAI-ECAI’2018和AAAI’2019高级程序委员会委员（SPC）、COLING’2018和EMNLP’2019领域主席。被ACL-IJCNLP’2015和NAACL’2018评为“杰出审稿人”，IJCAI-ECAI’2018杰出高级SPC。2014年和2018年分别获得中国中文信息学会钱伟长中文信息处理科学技术奖一等奖和汉王青年创新奖一等奖。2015年入选中国科协首届“青年人才托举工程”计划。