课程大纲

课程大纲

大数据系统与大规模数据分析

课程编码:083500M02001H 英文名称:Big Data System and Large-Scale Data Analysis 课时:50 学分:3.00 课程属性:一级学科普及课 主讲教师:陈世敏等

教学目的要求
随着互联网、社交网络、云计算、物联网、移动计算、大规模科学探测与计算分析等的发展,各种新的数据密集型应用如雨后春笋般涌现。这些新的应用通常具有数据量巨大、数据获取速度更新速度快和/或数据种类丰富繁多等特点,被通称为大数据应用。近年来,产业界和学术界面向不同应用场景推出了多种类型、各具特色的大数据处理系统平台。同时,一大批数据建模与分析的方法被应用于大规模数据处理。一方面,多种大数据处理平台没有统一的标准,设计目标、功能和关键技术也多有不同,对于初学者的学习带来了很大的困难,容易“只见树木不见森林”,难以形成全面的认识。另一方面,大规模数据处理要求选择恰当的算法,适合的大数据平台,才能达到其功能和性能的目标。
本课程将从大数据系统和大规模数据分析两个方面系统地讲解大数据处理的知识。在大数据系统方面,本课程将以传统的关系型数据库系统为基础,讲解多种大数据存储系统和运算系统的系统结构和工作原理,通过与传统的关系型数据库系统进行比较,分析每种大数据系统的设计思想、关键技术、优势和缺陷,从而对目前百家争鸣的各种大数据系统进行纲举目张的讲述。在大规模数据分析方面,本课程将讲解在实际中获得广泛应用的经典建模和分析算法,在介绍算法基本原理的基础上,侧重讲解算法的实现和应用。本课程前后两个方面相互呼应,使学生对大数据处理形成一个统一的认识。
通过本课程的学习,希望学生了解大数据系统的科学问题和大数据建模分析的经典算法,掌握基本设计思想和关键技术,对大数据处理形成全面地认识,为进一步从事大数据系统或大数据分析方向的研究,或者选择使用大数据系统研发大数据应用,提供良好的基础。

预修课程
数据库概论、程序设计、计算机原理、数据结构、线性代数、概率论基础

大纲内容
第一章 第一章 大数据的发展趋势与概念 2.0学时
第1节 计算机硬件的发展
第2节 数据管理系统的发展
第3节 大数据的概念与挑战
第4节 课程内容简介
第二章 第二章 关系型数据管理系统 7.0学时
第1节 关系数据模型
第2节 关系运算与SQL语言
第3节 数据库系统架构
第4节 数据存储、缓冲池
第5节 索引结构
第6节 关系型运算的实现
第7节 事务处理系统
第8节 数据仓库
第9节 并行数据库
第三章 第三章 大数据存储系统 9.0学时
第1节 分布式系统基础
第2节 分布式文件系统NFS
第3节 Google File System和HDFS
第4节 键值存储系统(Dynamo, BigTable, HBase, Cassandra, RocksDB)
第5节 分布式共识Zookeeper
第6节 文档存储系统(JSON, PB, MongoDB)
第7节 图数据库系统(Neo4j, JanusGraph)
第四章 第四章 大数据运算系统 9.0学时
第1节 MapReduce云计算系统(MapReduce, Hadoop, Dryad)
第2节 图计算系统(Pregel, PowerGraph)
第3节 MapReduce+SQL(Hive, Pig, Scope)
第4节 内存数据库、内存键值系统
第5节 大数据内存运算系统Spark
第五章 第五章 大规模数据建模与分析 15.0学时
第1节 分布式哈希表,区块链技术中的加密算法
第2节 最近邻搜索和位置敏感(LHS)算法
第3节 主成分分析、奇异值分解、CUR分解、数据空间维度约化
第4节 推荐系统
第5节 流数据分析
第6节 应用举例:脑科学与认知科学大数据的建模与分析
第六章 期末考试 2.0学时
第1节 期末考试

参考书
1、 数据挖掘 原理与实践 基础篇 (美)查鲁·C.阿加沃尔 著;王晓阳 等译 2021 机械工业出版社

课程教师信息
陈世敏,中国科学院计算技术研究所研究员,分别于1997年和1999年获得清华大学计算机系学士和硕士学位,于2005年在美国Carnegie Mellon University获得计算机科学博士学位。博士毕业后,先后在美国Intel Labs、CMU和HP Labs任Researcher、Senior Researcher和Research Manager,于2013年加入中科院计算所。 陈世敏的研究兴趣主要集中在数据库、大数据系统和计算机体系结构。曾获得ICDE’04 Best Paper,SIGMOD’01 Runner-up Best Paper,体系结构2008年度顶级论文Top Picks’08。担任ICDE’18 PC area chair, VLDB’17 PC Associate Editor, ICDCS’16和CIKM’14的PC area chair,多次担任SIGMOD,VLDB,ICDE,CIDR , ASPLOS, EUROSYS等的PC。

孙翼,中国科学院大学计算机学院副教授,于1994年获东京大学理学博士学位。博士毕业后,在日本学术振兴会、日本半导体设备公司东京精密、KLA-TENCOR公司、加拿大Simon Fraser University从事半导体自动晶片探测设备专家系统、图像处理和芯片缺陷的自动分类算法、视频点播、无线通信、IOT、网络安全、以及随机算法等领域的研究。2007-2015,带领6名美国硅谷海外归国人员创办了唐桥微电子有限公司,并担任执行总裁,从事“十一五”期间国家重点支撑的高科技项目AVS/H.264的音视频压缩芯片以及下一代通信芯片802.11n的研发和产业化。于2014年加入中国科学院大学计算机学院。至今在计算机科学领域已在国外学术期刊和会议上发表SCI,EI论文40多篇,获得8项发明专利。