课程大纲

课程大纲

文本数据分析与挖掘

课程编码:180087120502P2001Z 英文名称:Text Analytics and Text Mining 课时:40 学分:2.00 课程属性:专业核心课 主讲教师:乐小虬等

教学目的要求
1)掌握科学研究中文本数据分析与挖掘的基本流程、理论体系及主要技术原理和实现方法。2)提升文本分析实际操作能力,采用理论与实践相结合的方法,从应用案例出发,重点阐述政策文本/经济文本/科技文献文本数据的采集与融合、文献知识网络分析、文本分析机器学习模型、文本表示、文本知识挖掘、文本生成、可视化技术等环节涉及的主要技术方法。

预修课程
数理统计

大纲内容
第一章 绪论 2学时 乐小虬
第1节 绪论
第二章 文本数据来源与获取技术 3学时 钱力
第1节 文本数据体系
第2节 数据获取方式方法
第3节 网络采集技术
第三章 文本数据预处理 3学时 钱力
第1节 数据描述规范
第2节 数据清洗/转换
第3节 数据汇聚/融合
第四章 文献知识网络 4学时 乐小虬
第1节 文献知识网络构建方法
第2节 网络分析技术
第3节 应用案例
第五章 文本表示 3学时 乐小虬
第1节 离散表示方法
第2节 连续表示方法
第3节 文本相似度计算
第六章 文本分析基础机器学习模型 7学时 乐小虬
第1节 典型统计学习模型(逻辑回归模型/CRF/SVM)
第2节 深度学习模型(CNN/RNN/Transformer/大语言模型)
第3节 文本分类方法
第4节 文本聚类方法
第七章 文本知识挖掘 6学时 乐小虬
第1节 实体/术语抽取
第2节 关系抽取
第3节 主题识别 (LDA模型)
第4节 典型案例
第八章 文本生成 3学时 乐小虬
第1节 文本生成原理
第2节 文本自动摘要
第3节 文本自动综述
第九章 文本大数据计算平台 6学时 钱力
第1节 大数据技术整体架构
第2节 分布式技术选型
第3节 分布式存储平台/分布式计算平台/分布式检索平台
第4节 基于微服务架构的大数据服务平台
第十章 文本数据可视化技术 3学时 钱力
第1节 数据可视化概述
第2节 数据可视化模型
第3节 数据可视化开源工具

参考书
1、 The Text Mining Handbook Ronen Feldman / James Sanger 2006年12月 Cambridge University Press
2、 技术挖掘与专利分析 Alan L. Porter, Scott W 2012年05月 清华大学出版社
3、 机器学习 周志华 2016年01月 清华大学出版社
4、 统计学习方法 李航 2019年05月 清华大学出版社

课程教师信息
乐小虬,中国科学院文献情报中心,研究员
钱力,中国科学院文献情报中心,研究馆员