文本分析方法与应用
课程编码:180087120100PX007H
英文名称:Text Analysis Method and Application
课时:30
学分:1.00
课程属性:公共选修课
主讲教师:齐志泉等
教学目的要求
随着大数据、区块链、人工智能、云计算、5G通信和物联网等数字技术的进步,经济正在经历数字化转型,数字经济蓬勃发展,数据成为生产要素。数字技术对经济管理也产生了深远影响,其中大数据技术在经济学、管理学和政治学等社会科学领域得到广泛使用。
本课程将会介绍文本大数据技术方法,以及这些文本分析技术在经济学、金融学和会计学等领域的应用。文本分析的方法包括词袋技术(词频分析、情感分析等),考虑词语相关性的技术(例如主题建模技术),计算语言学的其他方法(可读性、文本相似性)。除了这些方法之外,还会介绍这些方法在经济学、金融学和会计学中的应用,例如行业分类方法、风险因子提取、创新的度量等。
本课程在内容安排上,本着「由浅入深,循序渐进」的原则,首先从整体上介绍文本分析的基本框架和分析流程,进而在后边几个章节从文本处理函数和正则表达式入手,依序介绍爬虫方法、文本信息提取和文本匹配方法。介绍 Python 基础,数值运算方法,爬虫进阶 (动态网页的爬取), 最后介绍几种文本分析算法和RESSET的财经文本智能分析平台,并应用于实际的案例中。
同时本课程教学实验平台采用RESSET财经文本智能分析平台,具体参数如下:
1.海量的文本数据资源:提供中国上市公司财经文本数据、新闻资讯、互动易数据、股吧评论、美国上市公司财经文本数据、专利数据以及国家自然科学基金项目数据,覆盖范围广泛。
2.丰富的文本分析功能:应用自然语言处理、深度学习和人工智能技术对海量文本数据进行深度加工,为用户提供财经文本的词频、相似词、文本特征、自定义特征、主题网络等全新深度处理的数据以及常用的文本分析工具集。
3.强大的自定义条件设置:支持线上文本数据和自定义文本数据分析,用户不但可以选择平台提供的文本数据进行分析,还可以自主上传文档进行文本数据分析;同时平台提供锐思默认词库和自定义词库,用户可以选择锐思默认词库或自主上传词库首先进行语料训练,再进行相应的文本分析统计。
4.高效的批量任务运行机制:财经文本分析功能模块实行任务机制,用户选择需要分析的文档新建文本分析任务,后台将自动运行。支持文档分析的批量处理,所有的文本分析任务均可在任务中心中查看任务详情及任务进度。
预修课程
无
大纲内容
第一章 文本分析简介及词袋技术 4学时 赵阳
第1节 文本分析简介
第2节 文本数据特点
第3节 常用工具的介绍
第4节 文档建模
第5节 如何获取文本数据
第6节 文本分析的一般过程
第7节 大语言模型使用介绍
第二章 统计方法(机器学习) 4学时 齐志泉
第1节 Text regressing
第2节 Generative Language Models
第3节 Word embeddings
第三章 文本分析方法简介 4学时 赵阳
第1节 TF-IDF
第2节 简单词频分析
第3节 情绪分析
第4节 Word2Vec
第5节 相似度
第6节 可读性
第7节 语调分析
第8节 LDA
第四章 文本分析应用 4学时 赵阳
第1节 行业分类方法 1学时
第2节 并购中的应用 0.5学时
第3节 EPU 0.5学时
第4节 风险因子提取 1学时
第5节 创新的度量 0.5学时
第6节 财务约束 0.5学时
第五章 文本分析模型应用 4学时 赵阳
第1节 开源大语言模型简介 0.5学时
第2节 大语言模型本地部署和使用 1学时
第3节 加速推理的常用方法 1学时
第4节 大语言模型结构简析 0.5学时
第5节 文本向量化算法 0.5学时
第6节 大语言模型对比比较 0.5学时
第六章 文本分析模型应用 4学时 赵阳
第1节 模型调优方法简介 0.5学时
第2节 提示词工程 0.5学时
第3节 模型微调方法 1学时
第4节 大语言模型相关论文1学时
第5节 大语言模型对齐技术简介 0.5学时
第6节 小模型介绍 0.5学时
第七章 财经文本智能分析平台实战一 4学时 聂永生
第1节 概述 0.5学时
第2节 Python 进阶 0.5学时
第3节 Python 爬虫专题 1学时
第4节 文本数据验证及数据清洗 0.5学时
第5节 文本数据分词处理 0.5学时
第6节 关键词词频统计 0.5学时
第7节 词频统计详细信息获取 0.5学时
第八章 财经文本智能分析平台实战二 2学时 聂永生
第1节 文本分析 0.5学时
第2节 政府工作报告下载与分析 0.5学时
第3节 上市公司年报下载与分析 0.5学时
第4节 第4节 舆情分析文本挖掘 0.5学时
参考书
1、
基于Python的智能文本分析
Benjamin等
2019年12月
中国电力出版社
2、
Python文本分析(原书第2版)
迪潘简·萨卡尔(Dipanjan Sarkar)
2020年10月
机械工业出版社
3、
文本分析与文本挖掘
姜维
2018年12年
科学出版社
4、
Python应用实战:爬虫、文本分析与可视化
张丽 等
2020年03年
电子工业出版社
课程教师信息
齐志泉,国科大经管学院
赵阳,锐思数据公司高级金融研究员
聂永生,锐思数据公司高级产品经理