课程大纲

课程大纲

文本分析方法与应用

课程编码:120100MGX109H 英文名称:Text analysis method and Application 课时:20 学分:1.00 课程属性:公共选修课 主讲教师:聂永生等

教学目的要求
随着大数据、区块链、人工智能、云计算、5G通信和物联网等数字技术的进步,经济正在经历数字化转型,数字经济蓬勃发展,数据成为生产要素。数字技术对经济管理也产生了深远影响,其中大数据技术在经济学、管理学和政治学等社会科学领域得到广泛使用。
本课程将会介绍文本大数据技术方法,以及这些文本分析技术在经济学、金融学和会计学等领域的应用。文本分析的方法包括词袋技术(词频分析、情感分析等),考虑词语相关性的技术(例如主题建模技术),计算语言学的其他方法(可读性、文本相似性)。除了这些方法之外,还会介绍这些方法在经济学、金融学和会计学中的应用,例如行业分类方法、风险因子提取、创新的度量等。
本课程在内容安排上,本着「由浅入深,循序渐进」的原则,首先从整体上介绍文本分析的基本框架和分析流程,进而在后边几个章节从文本处理函数和正则表达式入手,依序介绍爬虫方法、文本信息提取和文本匹配方法。介绍 Python 基础,数值运算方法,爬虫进阶 (动态网页的爬取), 最后介绍几种文本分析算法和RESSET的财经文本智能分析平台,并应用于实际的案例中。
同时本课程教学实验平台采用RESSET财经文本智能分析平台,具体参数如下:
1.海量的文本数据资源:提供中国上市公司财经文本数据、新闻资讯、互动易数据、股吧评论、美国上市公司财经文本数据、专利数据以及国家自然科学基金项目数据,覆盖范围广泛。
2.丰富的文本分析功能:应用自然语言处理、深度学习和人工智能技术对海量文本数据进行深度加工,为用户提供财经文本的词频、相似词、文本特征、自定义特征、主题网络等全新深度处理的数据以及常用的文本分析工具集。
3.强大的自定义条件设置:支持线上文本数据和自定义文本数据分析,用户不但可以选择平台提供的文本数据进行分析,还可以自主上传文档进行文本数据分析;同时平台提供锐思默认词库和自定义词库,用户可以选择锐思默认词库或自主上传词库首先进行语料训练,再进行相应的文本分析统计。
4.高效的批量任务运行机制:财经文本分析功能模块实行任务机制,用户选择需要分析的文档新建文本分析任务,后台将自动运行。支持文档分析的批量处理,所有的文本分析任务均可在任务中心中查看任务详情及任务进度。


附件1:具体授课时间安排
序号 主讲人 主要内容 授课时间 腾讯会议号
1 马长峰 文本分析简介及词袋技术 2022-6-20 8:30-12:10 腾讯会议号:745-587-070
2 马长峰 统计方法(机器学习) 2022-6-23 8:30-12:10 腾讯会议号:233-350-547
3 马长峰 文本分析应用 2022-6-27 8:30-12:10 腾讯会议号:220-836-897
4 聂永生 财经文本智能分析平台实战一 2022-6-30 8:30-12:10 腾讯会议号:407-488-174
5 聂永生 财经文本智能分析平台实战二 2022-7-4 8:30-12:10 腾讯会议号:893-352-203

预修课程

大纲内容
第一章 文本分析简介及词袋技术
第1节 文档建模 0.4学时
第2节 文本数据简介 0.4学时
第3节 如何获取文本数据 0.4学时
第4节 文本分析的一般过程 0.4学时
第5节 tf-idf 0.4学时
第6节 简单词频分析 0.4学时
第7节 情绪分析 0.4学时
第8节 相似度 0.4学时
第9节 可读性 0.4学时
第10节 语调分析 0.4学时
第二章 统计方法(机器学习)
第1节 Text regressing 1.2学时
第2节 Generative Language Models 1.2学时
第3节 Word embeddings 1.6学时
第三章 文本分析应用
第1节 行业分类方法 0.5学时
第2节 行业分类案例:蚂蚁金服 1.0学时
第3节 并购中的应用 0.5学时
第4节 EPU 0.5学时
第5节 风险因子提取 0.5学时
第6节 创新的度量 0.5学时
第7节 财务约束 0.5学时
第四章 财经文本智能分析平台实战一
第1节 概述 0.3学时
第2节 Python 基础 0.3学时
第3节 Python 使用进阶 0.3学时
第4节 Python 爬虫专题 0.3学时
第5节 政府工作报告下载与分析 1.0学时
第6节 上市公司年报下载与分析 0.8学时
第7节 收录政府工作报告,并绘制词云图 1.0学时
第五章 财经文本智能分析平台实战二
第1节 概述 0.5学时
第2节 Python的数值计算 0.5学时
第3节 文本分析 0.5学时
第4节 文本数据验证及数据清洗 0.5学时
第5节 文本数据分词处理 0.5学时
第6节 关键词词频统计 0.5学时
第7节 词频统计详细信息获取 0.5学时
第8节 舆情分析文本挖掘 0.5学时

参考书
1、 基于Python的智能文本分析;Python文本分析(原书第2版);文本分析与文本挖掘;Python应用实战:爬虫、文本分析与可视化 Benjamin等;迪潘简·萨卡尔(Dipanjan Sarkar);姜维;张丽 等 2019-12-01;2020-10-01;2018-12-01;2020-03-01 中国电力出版社;机械工业出版社;科学出版社;电子工业出版社

课程教师信息
马长峰,锐思数据公司高级金融研究员,经济学(金融学)博士,在《经济研究》、《管理科学学报》等国内外经济管理学权威期刊发表多篇论文,研究领域:数字金融(金融科技、文本大数据用于会计金融研究)、金融风险管理、公司金融(公司治理)等。

聂永生,男,任锐思数据公司高级产品经理,主要负责锐思数据产品线的设计与研发工作。拥有10多年一线教学产品研发和设计经验,主要参与的项目包括财经文本数据库产品、大数据教学与实训产品、金融量化投资平台和仿真教学产品等。