课程大纲

课程大纲

大数据分析

课程编码:180086081203P3004H 英文名称:Big Data Analysis 课时:40 学分:2.00 课程属性:专业课 主讲教师:靳小龙等

教学目的要求
本课程为计算机科学、计算机软件、大数据、人工智能等学科研究生的专业普及课,主要讲授和讨论大数据的来源、特征与影响,国内外大数据分析技术发展现状,大数据分析技术与系统,大数据场景下的统计分析与机器学习理论与方法,以及针对非结构化数据(如文本分析)、从非结构到结构化的知识计算、结构化的网络与大图数据、以及两者兼有的社会媒体等数据的分析方法和应用。通过本课题的学习,旨在让学生了解大数据的来龙去脉,大数据分析技术的国内外发展现状以及几类典型大数据的常用分析技术与方法等。此外,通过课程大作业的动手实践,一方面让学生能够更全面地了解大数据分析应用的各个环节,更深刻地掌握大数据分析的具体技术,另一方面也锻炼学生的编程能力。本课程对学生的数学基础具有较高的要求,同时还要求学生提前修读过机器学习等相关课程。

预修课程
机器学习

大纲内容
第一章 大数据与大数据分析概论
第1节 大数据的来源、特征与影响 0.7学时 靳小龙
第2节 国内外大数据技术发展现状 0.9学时 靳小龙
第3节 大数据分析简介 0.7学时 靳小龙
第4节 大数据分析应用案例 0.7学时 靳小龙
第二章 大数据分析技术与系统
第1节 数据与计算的演变 0.9学时 刘盛华
第2节 大数据分布式计算模型 0.7学时 刘盛华
第3节 分布式计算系统:map-reduce 0.7学时 刘盛华
第4节 分布式计算应用 0.7学时 刘盛华
第三章 大数据统计分析
第1节 相关性分析 0.9学时 刘盛华
第2节 大数据统计:相似查找LSH 0.7学时 刘盛华
第3节 大数据计数:CMS 0.7学时 刘盛华
第4节 线性回归:sketching 0.7学时 刘盛华
第四章 大数据机器学习
第1节 线性代数导引 0.9学时 刘盛华
第2节 数据降维 0.7学时 刘盛华
第3节 基于决策树的方法 0.7学时 刘盛华
第4节 深度神经网络 0.7学时 刘盛华
第五章 数据驱动的自然语言处理
第1节 数据驱动的自然语言理解简介 0.6学时 靳小龙
第2节 自然语言处理技术-语法分析 0.8学时 靳小龙
第3节 自然语言处理技术-语义分析 0.8学时 靳小龙
第4节 自然语言处理技术-内容分析 0.8学时 靳小龙
第六章 文本大数据分析
第1节 文本大数据分析简介 0.6学时 靳小龙
第2节 文本表达 0.8学时 靳小龙
第3节 文本匹配 0.8学时 靳小龙
第4节 文本生成 0.8学时 靳小龙
第七章 知识计算
第1节 知识图谱简介 0.6学时 靳小龙
第2节 知识获取 0.8学时 靳小龙
第3节 知识融合 0.8学时 靳小龙
第4节 知识推理与计算 0.8学时 靳小龙
第八章 大图挖掘与分析
第1节 大图的模式分析 1学时 刘盛华
第2节 大图的结构挖掘I 1学时 刘盛华
第3节 大图的结构挖掘II:动态或富属性 1学时 刘盛华
第九章 社会媒体分析
第1节 网络链接分析 0.6学时 刘盛华
第2节 PageRank形式化与流 0.8学时 刘盛华
第3节 PageRank收敛性 0.8学时 刘盛华
第4节 大规模数据的PageRank计算 0.8学时 刘盛华
第十章 跨媒体分析
第1节 跨媒体分析简介 0.6学时 刘盛华
第2节 跨媒体分析模型与方法 1.6学时 刘盛华
第3节 跨媒体分析应用 0.8学时 刘盛华
第十一章 大数据分析应用与总复习
第1节 大数据分析应用案例 0.6学时 靳小龙
第2节 总复习1 1.2学时 靳小龙
第3节 总复习2 1.2学时 刘盛华
第十二章 大作业:分组报告
第1节 报告分组及评分规则介绍 0.4学时 靳小龙
第2节 分组报告 4.6学时 靳小龙
第十三章 闭卷考试
第1节 闭卷考试 3学时 刘盛华

教材信息
1、 大数据分析 程学旗 2019年4月 高等教育出版社

参考书

课程教师信息
靳小龙,中国科学院计算技术研究所研究员、博士生导师,中国科学院网络数据科学与技术重点实验室知识计算方向负责人;中国科学院大学岗位教授;中国计算机学会(CCF)高级会员,CCF大数据专家委员会副秘书长,曾任大数据分析系统国家工程实验室主任助理。主要研究兴趣包括知识图谱、知识计算、社会计算、大数据分析等。迄今为止共出版专著5部(分别由Springer与清华大学出版社出版);在包括IEEE TKDE, IEEE/ACM TASLP, ACM TIST, IEEE TWC, IJCAI, AAAI, WWW, CIKM, WSDM等在内的国际著名期刊与会议上发表论文220余篇。2023年获得香港浸会大学理学院杰出校友奖、CCF大数据专家委员会杰出服务奖;2021年获得中创软件人才奖;2019年获得Elsevier Top Cited Articles Award;2017年获得国家科技进步二等奖;2016年获得中国电子学会科技进步一等奖。此外,获得国际会议IEEE CIT-2015, IEEE AINA 2007与IEEE ICAMT 2003最佳论文奖,IEEE ICBK 2017最佳学生论文奖,国内会议CCF Big Data 2015最佳学术论文奖;申请/获得专利20余项。负责国家重点研发计划课题、973课题、863课题、国家自然科学基金面上与青年项目、欧盟FP7与FP6项目、英国EPSRC项目等20多项。 曾讲授机器学习、智能系统、社会信息网络分析与网络数据关键技术等课程。


刘盛华,中国科学院计算技术研究所,中科院网络数据科学与技术重点实验室,副研究员。2010/7,获得清华大学计算机系博士学位。2006/8-2007/12,访问美国加州大学洛杉矶分校(UCLA),并因此被列为UCLA学术界校友代表。2016/8-2017/8,美国卡耐基梅龙大学计算机科学系访问学者,合作导师为Christos Faloutsos。目前研究方向包括:大图数据挖掘和时间序列挖掘、异常检测等。图和时间序列是很多重要应用领域的基础数据形态,如医疗健康、社会网络、互联网用户行为、物联网等。在TKDE、AAAI、IJCAI、CIKM、PKDD、SDM、WWW、PAKDD等期刊和会议发表论文40余篇。获得授权国家发明专利6项,获美国专利局授权专利1项。曾受邀到美国麻省理工大学(MIT)统计与数据科学研究中心、卡耐基梅隆大学(CMU)计算机科学系,美国东北大学(Northeastern University)网络科学研究所、美国匹兹堡大学(Pitt)生物信息实验室、Google(Pittsburgh)研发中心等进行学术交流和报告。