高级数据管理
课程编码:180086085405P3003H
英文名称:Advanced Data Management
课时:40
学分:2.00
课程属性:专业课
主讲教师:徐俊刚
教学目的要求
本课程旨在系统地介绍高级数据管理的基础理论、核心技术及其主要应用,包括数据采集与预处理、关系数据管理与分析、批数据管理与分析、图数据管理与分析、流数据管理与分析、多模态数据管理与分析、分布式机器学习和自动机器学习等。通过本课程的学习,要求学生能够系统地掌握高级数据管理的基本理论与核心技术,熟练使用多种数据管理工具和机器学习工具,了解高级数据管理技术的主要应用领域。同时,通过课程实践,培养学生的独立思考能力、研究与开发能力,为将来从事科学研究与工程实践工作打下坚实的基础。
预修课程
数据库系统原理,机器学习
大纲内容
第一章 引言 徐俊刚
第1节 数据管理的发展史 0.5学时
第2节 高级数据管理的基础理论 0.5学时
第3节 高级数据管理的核心技术 0.5学时
第4节 高级数据管理的主要应用 0.5学时
第二章 数据采集与预处理 徐俊刚
第1节 物联网数据采集 0.5学时
第2节 爬虫数据采集 0.5学时
第3节 接口数据采集 0.3学时
第4节 数据填充 0.3学时
第5节 数据标准化 0.3学时
第6节 数据正则化 0.3学时
第7节 数据降维 1.0学时
第三章 关系数据管理与分析 徐俊刚
第1节 关系数据模型 1.0学时
第2节 在线事务处理(On-Line Transaction Processing,OLTP) 1.0学时
第3节 在线分析处理(On-Line Analytical Processing,OLAP) 1.0学时
第4节 数据仓库 1.0学时
第5节 分布式关系数据管理 1.0学时
第6节 Oracle/人大金仓/OceanBase等数据库简介 1.0学时
第四章 批数据管理与分析 徐俊刚
第1节 批处理框架Hadoop、Cloudera等 2.0学时
第2节 MapReduce编程框架 1.0学时
第3节 键值数据库Hbase、MongoDB、Redis等 2.0学时
第4节 批处理数据仓库Hive 1.0学时
第五章 图数据管理与分析 徐俊刚
第1节 图的基本概念、图分类和传统的图算法 1.5学时
第2节 知识图谱的概念与构建技术 1.5学时
第3节 Neo4j、Spark GraphX等图工具 1.0学时
第4节 图卷积网络(GCN)、GAT、GraphSAGE等深度学习图算法 1.0学时
第六章 流数据管理与分析 徐俊刚
第1节 流数据的基本概念与处理方法 1.0学时
第2节 流数据处理工具Flink、Storm、Kafka等 3.0学时
第七章 多模态数据管理与分析 徐俊刚
第1节 多模态数据的表示、转换、对齐、融合、检索和推荐技术 2.0学时
第2节 图片描述、语音合成与可视问答等案例 2.0学时
第八章 分布式机器学习 徐俊刚
第1节 分布式机器学习基本概念、主要架构和实现技术 0.3学时
第2节 分布式机器学习框架Spark MLlib、PyTorch等 1.8学时
第3节 联邦学习的核心思想、架构与隐私保护策略 1.5学时
第4节 联邦学习框架FATE 0.5学时
第5节 持续学习(Continual Learning)的核心思想与主要算法 1.0学时
第九章 自动机器学习 徐俊刚
第1节 自动机器学习的基本概念、主要算法和实现技术 0.5学时
第2节 神经架构搜索、超参数调优与模型优化算法 1.5学时
第3节 自动机器学习平台AutoWEKA、Auto-Sklearn等 1.5学时
第4节 图片分类、目标检测等自动机器学习典型应用案例 1.5学时
参考书
1、
数据科学理论与实践(第2版)
朝乐门
2019年9月
清华大学出版社
2、
深入理解Flink(实时大数据处理实践)
余海峰
2019年4月
电子工业出版社
3、
数据科学与大数据分析
[美]EMC教育服务团队
2016年7月
人民邮电出版社
4、
分布式机器学习:算法、理论与实践
刘铁岩,陈薇,王太峰,高飞
2018年10月
机械工业出版社
5、
深入理解AUTOML和AUTODL:构建自动化机器学习与深度学习平台
王健宗,瞿晓阳
2019年8月
机械工业出版社
课程教师信息
徐俊刚,中国科学院大学计算机科学与技术学院教授,博士生导师,从事大数据、机器学习和深度学习研究