大数据系统与大规模数据分析
课程编码:180086083500P3001H
英文名称:Big Data System and Large-Scale Data Analysis
课时:50
学分:2.50
课程属性:专业课
主讲教师:陈世敏等
教学目的要求
随着互联网、社交网络、云计算、物联网、移动计算、大规模科学探测与计算分析等的发展,各种新的数据密集型应用如雨后春笋般涌现。这些新的应用通常具有数据量巨大、数据获取速度更新速度快和/或数据种类丰富繁多等特点,被通称为大数据应用。近年来,产业界和学术界面向不同应用场景推出了多种类型、各具特色的大数据处理系统平台。同时,一大批数据建模与分析的方法被应用于大规模数据处理。一方面,多种大数据处理平台没有统一的标准,设计目标、功能和关键技术也多有不同,对于初学者的学习带来了很大的困难,容易“只见树木不见森林”,难以形成全面的认识。另一方面,大规模数据处理要求选择恰当的算法,适合的大数据平台,才能达到其功能和性能的目标。
本课程将从大数据系统和大规模数据分析两个方面系统地讲解大数据处理的知识。在大数据系统方面,本课程将以传统的关系型数据库系统为基础,讲解多种大数据存储系统和运算系统的系统结构和工作原理,通过与传统的关系型数据库系统进行比较,分析每种大数据系统的设计思想、关键技术、优势和缺陷,从而对目前百家争鸣的各种大数据系统进行纲举目张的讲述。在大规模数据分析方面,本课程将讲解在实际中获得广泛应用的经典建模和分析算法,在介绍算法基本原理的基础上,侧重讲解算法的实现和应用。本课程前后两个方面相互呼应,使学生对大数据处理形成一个统一的认识。
通过本课程的学习,希望学生了解大数据系统的科学问题和大数据建模分析的经典算法,掌握基本设计思想和关键技术,对大数据处理形成全面地认识,为进一步从事大数据系统或大数据分析方向的研究,或者选择使用大数据系统研发大数据应用,提供良好的基础。
预修课程
数据库、程序设计、数据结构、计算机原理
大纲内容
第一章 第一章 大数据的发展趋势与概念 2学时 陈世敏
第1节 计算机硬件的发展
第2节 数据管理系统的发展
第3节 大数据的概念与挑战
第4节 课程内容简介
第二章 第二章 关系型数据管理系统 7学时 陈世敏
第1节 关系数据模型
第2节 关系运算与SQL语言
第3节 数据库系统架构
第4节 数据存储、缓冲池
第5节 索引结构
第6节 关系型运算的实现
第7节 事务处理系统
第8节 数据仓库
第9节 并行数据库
第三章 第三章 大数据存储系统 9学时 陈世敏
第1节 分布式系统基础
第2节 分布式文件系统NFS
第3节 Google File System和HDFS
第4节 键值存储系统(Dynamo, BigTable, HBase, Cassandra, RocksDB)
第5节 分布式共识Zookeeper
第6节 文档存储系统(JSON, PB, MongoDB)
第7节 图数据库系统(Neo4j, JanusGraph)
第四章 第四章 大数据运算系统 9学时 陈世敏
第1节 MapReduce云计算系统(MapReduce, Hadoop, Dryad)
第2节 图计算系统(Pregel, PowerGraph)
第3节 MapReduce+SQL(Hive, Pig, Scope)
第4节 内存数据库、内存键值系统
第5节 大数据内存运算系统Spark
第五章 第五章 大规模数据建模与分析 15学时 孙翼
第1节 分布式哈希表,区块链技术中的加密算法
第2节 最近邻搜索和位置敏感(LHS)算法
第3节 主成分分析、奇异值分解、CUR分解、数据空间维度约化
第4节 推荐系统
第5节 流数据分析
第6节 应用举例:脑科学与认知科学大数据的建模与分析
第六章 期末考试 1学时 陈世敏
第1节 期末考试
第七章 期末考试 1学时 孙翼
第1节 期末考试
第八章 学生分组大作业展示 3学时 陈世敏
第1节 学生分组大作业展示和评分
第九章 学生分组大作业展示 3学时 孙翼
第1节 学生分组大作业展示和评分
参考书
1、
数据库管理系统原理与设计
罗摩克里希纳 等著,周立柱 等译
2000年
2、
Mining of Massive Datasets
Jure Leskovec, Anand Rajaraman, Jeffrey D. Ullman
2014年
3、
数据挖掘 原理与实践 基础篇
王晓阳 等译
2021年
课程教师信息
陈世敏研究员在清华大学获得学士学位和硕士学位,在美国卡内基梅隆大学计算机科学系获得博士学位。博士毕业后,先后在美国英特尔研究院、卡内基梅隆大学和惠普研究院,任研究员、高级研究员和科研经理,于2013年加入中国科学院计算技术研究所任研究员。陈世敏的研究兴趣主要集中在数据库系统、大数据处理、计算机体系结构,获得ICDE'04最佳论文奖,SIGMOD'01亚军最佳论文奖,和2008年体系结构会议年度顶级论文奖,曾担任PVLDB 2017,ICDE 2018,ICDCS 2016,CIKM 2014等会议的PC Area Chair,长期担任大数据新硬件技术的主要Workshop HardBD&Active 的Co-Chair。在中国科学院大学讲授研究生《大数据系统与大规模数据分析》课程和本科《数据库系统》课程。
孙翼毕业于东京大学理论物理专业,上世纪九十年代,曾就职于世界著名半导体设备公司。2007年回国后,创办了唐桥微电子,致力于音视频AVS/H/264编解码以及802.11nSOC芯片的研发和产业化,并担任中科院微电子所、中国科技大学微纳中心的兼职研究员。在2012年研发的芯片系统成功地用于北京地铁10号线等的监控系统中。近期主要研究方向为数据科学。在国外学术期刊和会议上发表了50多篇SCI、EI论文,获得了8项发明专利,并完成了著作《量子机器学习》,还参加了《中国集成电路全书》第二章的中英文部分编著工作。作为教师在中国科学院大学,主讲包括《大数据分析与处理》,《矩阵分析》,《量子计算》,《移动通信与网络安全》,《高级计算机网络》等研究生课程。