课程大纲

课程大纲

文本数据挖掘

课程编码:081104M05019H 英文名称:Text Data Mining 课时:40 学分:2.00 课程属性:专业普及课 主讲教师:张家俊

教学目的要求
通过本课程的学习,希望学生能够掌握文本数据挖掘的基本思想和关键技术,了解文本数据挖掘的前沿研究领域,了解实际场景中的文本数据挖掘应用技术,从文本数据挖掘角度培养学生分析问题、解决问题的能力。
课程基本要求:建议学生掌握一定的理论基础知识和编程基础。理论基础知识包括:概率论与数理统计和机器学习基础。编程基础方面,建议选修学生了解算法分析的基本思想,至少掌握一种编程语言,尤其是适用于文本数据挖掘的python语言。
授课方式:课堂讲授与课程实践相结合的方式。课堂讲授文本数据挖掘的基本任务、核心思想和主要方法,并设计相应的实践课程。通过实践课程的设计,让学生更好地理论结合实际,将学到的知识能够灵活运用。

预修课程
机器学习基础、概率论与数理统计、算法分析与程序设计

大纲内容
第一章 绪论 1.5学时 张家俊
第1节 基本概念
第2节 问题与挑战
第3节 研究内容
第4节 基本方法与技术现状
第二章 数据预处理 1.5学时 张家俊
第1节 数据类型介绍
第2节 数据获取方法
第3节 数据预处理
第4节 基础处理工具
第三章 文本表示 4学时 张家俊
第1节 背景介绍
第2节 向量空间模型
第3节 表示学习模型
第4节 词语表示
第5节 短语表示
第6节 句子表示
第7节 文档表示
第四章 预训练模型 3学时 张家俊
第1节 词向量回顾
第2节 ELMo预训练模型
第3节 GPT预训练模型
第4节 BERT预训练模型
第五章 文本分类 3学时 张家俊
第1节 基于统计机器学习的文本分类
第2节 基于深度学习的文本分类
第3节 文本分类性能评估
第六章 文本聚类 3学时 张家俊
第1节 文本相似度度量
第2节 文本聚类算法
第3节 文本聚类性能评估
第七章 主题模型 5学时 张家俊
第1节 主题模型背景
第2节 潜在语义分析
第3节 概率潜在语义分析
第4节 潜在狄利克雷分布
第八章 情感分析 3学时 张家俊
第1节 情感分析概率
第2节 文档句子级情感分析
第3节 词语级情感分析
第4节 属性级情感分析
第5节 情感分析中的极性迁移与领域适应
第6节 情绪识别与原因抽取
第7节 资源与评测
第九章 话题检测与跟踪 4学时 张家俊
第1节 背景与相关术语
第2节 报道与话题的相似性计算
第3节 话题检测
第4节 话题跟踪
第5节 突发话题检测
第十章 信息抽取 3学时 张家俊
第1节 信息抽取概述
第2节 命名实体识别
第3节 实体消岐
第4节 关系抽取
第5节 事件抽取
第十一章 自动摘要 4学时 张家俊
第1节 文本摘要概述
第2节 文本摘要分类
第3节 文本摘要方法
第4节 文本摘要评价
第5节 多模态自动摘要
第十二章 预训练模型的应用 3学时 张家俊
第1节 预训练+微调
第2节 预训练+提示语
第十三章 课程考试 2学时 张家俊
第1节 课程考试

教材信息
1、 《文本数据挖掘》 宗成庆、夏睿、张家俊 2019年5月 清华大学出版社

参考书
1、 《自然语言处理》 宗成庆 2013年8月 清华大学出版社

课程教师信息
课程首席教授张家俊研究员,2011年6月毕业于中国科学院自动化研究所,获得博士学位,现为自动化所模式识别国家重点实验室副研究员,研究方向为自然语言处理、机器翻译、跨语言跨模态信息处理等。目前担任中国中文信息学会机器翻译专委会副主任和青年工作委员会执行委员等职务。在国际一流学术期刊和顶级会议上发表论文60余篇,曾四次获得自然语言处理学术会议最佳论文奖。担任国际顶级学术会议IJCAI2017、IJCAI-ECAI’2018和AAAI’2019高级程序委员会委员(SPC)、COLING’2018和EMNLP’2019领域主席。被ACL-IJCNLP’2015和NAACL’2018评为“杰出审稿人”,IJCAI-ECAI’2018杰出高级SPC。2014年和2018年分别获得中国中文信息学会钱伟长中文信息处理科学技术奖一等奖和汉王青年创新奖一等奖。2015年入选中国科协首届“青年人才托举工程”计划。