课程大纲

课程大纲

大数据分析

课程编码:081203M05006H 英文名称:Big Data Analysis 课时:40 学分:2.00 课程属性:专业普及课 主讲教师:程学旗等

教学目的要求
本课程为计算机科学、计算机软件、大数据、人工智能等学科研究生的专业普及课。本课程讲授和讨论:大数据环境下的统计分析、机器学习、数据挖掘的基本理论和方法,以及针对非结构化数据(如文本分析)、从非结构到结构化的知识计算、结构化的网络与大图数据、以及两者兼有的社会媒体等方面的方法和应用展开,介绍前沿研究领域的主要思想和关键技术。主要内容有大数据统计分析、大数据机器学习、文本大数据分析、知识计算、网络数据挖掘、社会媒体分析、大数据分析系统等。

预修课程
机器学习

大纲内容
第一章 大数据与大数据分析概论 3学时 靳小龙
第1节 大数据的来源、特征与影响
第2节 国内外大数据技术发展现状
第3节 大数据分析简介
第4节 大数据分析应用案例
第二章 大数据分析技术与系统 3学时 刘盛华
第1节 数据与计算的演变
第2节 大数据分布式计算模型
第3节 分布式计算系统:map-reduce
第4节 分布式计算应用
第三章 大数据统计分析 3学时 刘盛华
第1节 相关性分析
第2节 大数据统计:相似查找LSH
第3节 大数据计数:CMS
第4节 线性回归:sketching
第四章 大数据机器学习 3学时 刘盛华
第1节 线性代数导引
第2节 数据降维
第3节 基于决策树的方法
第4节 深度神经网络
第五章 数据驱动的自然语言处理 3学时 靳小龙
第1节 数据驱动的自然语言理解简介
第2节 自然语言处理技术-语法分析
第3节 自然语言处理技术-语义分析
第4节 自然语言处理技术-内容分析
第六章 文本大数据分析 3学时 靳小龙
第1节 文本大数据分析简介
第2节 文本表达
第3节 文本匹配
第4节 文本生成
第七章 知识计算 3学时 靳小龙
第1节 知识图谱简介
第2节 知识获取
第3节 知识融合
第4节 知识推理与计算
第八章 大图挖掘与分析 3学时 刘盛华
第1节 大图的模式分析
第2节 大图的结构挖掘I
第3节 大图的结构挖掘II:动态或富属性
第九章 社会媒体分析 3学时 刘盛华
第1节 网络链接分析
第2节 PageRank形式化与流
第3节 PageRank收敛性
第4节 大规模数据的PageRank计算
第十章 跨媒体分析 3学时 程学旗
第1节 跨媒体分析简介
第2节 跨媒体分析模型与方法
第3节 跨媒体分析应用
第十一章 大数据分析应用与总复习 3学时 靳小龙
第1节 大数据分析应用案例
第2节 总复习1
第3节 总复习2
第十二章 大作业:分组报告 5学时 靳小龙
第1节 报告分组及评分规则介绍
第2节 分组报告
第十三章 闭卷考试 3学时 刘盛华
第1节 闭卷考试

教材信息
1、 大数据分析 程学旗等 2019.4 高等教育出版社

参考书
1、 Data Mining: Concepts and Techniques、 3rd edition Jiawei Han and Micheline Kamber 2011 Morgan Kaufmann Publishers

课程教师信息
程学旗,中国科学院计算技术研究所副所长、研究员,中国科学院网络数据科学与技术重点实验室主任,中国计算机学会大数据专家委员会秘书长,国家杰出青年科学基金、国务院特殊津贴获得者。主要研究方向大数据科学、社会计算、Web信息检索与数据挖掘。近年来,先后主持并完成了十余项国家自然科学基金、国家重点基础研究发展计划(“973”计划)、国家高技术研究发展计划(“863”计划)、国家信息安全重大专项以及中国科学院知识创新工程等科研任务。担任973计划“网络大数据计算的基础理论及其应用研究”、国家863目标导向课题“大规模网络内容安全控制关键技术与示范系统研究”课题负责人。研究成果应用于大规模网络信息监测、网络数据分析与服务等领域,两次获得国家科技进步奖二等奖(2012 年个人排名第一、2004年个人排名第二),获得第十二届中国青年科技奖、中国计算机学会青年科学家奖、中国科学院青年科学家奖等荣誉。曾讲授高级人工智能等课程。

靳小龙,中国科学院计算技术研究所研究员、博士生导师,大数据分析系统国家工程实验室主任助理,中国科学院网络数据科学与技术重点实验室知识计算方向负责人;中国科学院大学岗位教授;中国计算机学会(CCF)高级会员,CCF大数据专家委员会副秘书长。主要研究兴趣包括知识图谱、知识计算、社会计算、大数据分析等。迄今为止共出版专著4部(分别由Springer与清华大学出版社出版);在包括IEEE TKDE, IEEE/ACM TASLP, ACM TIST, IEEE TWC, IJCAI, AAAI, WWW, CIKM, WSDM等在内的国际著名期刊与会议上发表论文160余篇,获得国际会议IEEE CIT-2015, IEEE AINA 2007与IEEE ICAMT 2003的最佳论文奖,IEEE ICBK 2017的最佳学生论文奖,国内会议CCF Big Data 2015的最佳学术论文奖;申请/获得专利10余项。负责国家重点研发计划课题、973课题、863课题、国家自然科学基金面上与青年项目、欧盟FP7与FP6项目、英国EPSRC项目等20多项;2017年获得国家科技进步二等奖;2016年获得中国电子学会科技进步一等奖。 曾讲授机器学习、智能系统、社会信息网络分析与网络数据关键技术等课程。


刘盛华,中国科学院计算技术研究所,中科院网络数据科学与技术重点实验室,副研究员。2010/7,获得清华大学计算机系博士学位。2006/8-2007/12,访问美国加州大学洛杉矶分校(UCLA),并因此被列为UCLA学术界校友代表。2016/8-2017/8,美国卡耐基梅龙大学计算机科学系访问学者,合作导师为Christos Faloutsos。目前研究方向包括:大图数据挖掘和时间序列挖掘、异常检测等。图和时间序列是很多重要应用领域的基础数据形态,如医疗健康、社会网络、互联网用户行为、物联网等。在TKDE、AAAI、IJCAI、CIKM、PKDD、SDM、WWW、PAKDD等期刊和会议发表论文40余篇。获得授权国家发明专利6项,获美国专利局授权专利1项。曾受邀到美国麻省理工大学(MIT)统计与数据科学研究中心、卡耐基梅隆大学(CMU)计算机科学系,美国东北大学(Northeastern University)网络科学研究所、美国匹兹堡大学(Pitt)生物信息实验室、Google(Pittsburgh)研发中心等进行学术交流和报告。