课程大纲

课程大纲

数据科学导论

课程编码:180087120500P1002Z-1 英文名称:Introduction to Data Science 课时:60 学分:3.00 课程属性:学科核心课 主讲教师:刘峥等

教学目的要求
本课程是图书情报与档案管理专业研究生开设的专业课,其目的是使学生掌握数据科学领域的基本概念和理论基础,了解数据处理的流程与方法、掌握相关技术和工具,并对关键环节进行实践操作。本课程聚焦数据的基本概念、数据处理流程、数据管理原则、数据全生命周期的规划和设计、数据治理、数据存储和平台建设。对学生的要求包括:具有一定数据库基础,本课程讲通过讲授和实践结合的模式使研究生深入理解数据处理基本原理、以及在具体应用中的管理和实现策略。

预修课程

大纲内容
第一章 数据科学的基础理论
第1节 数据科学的基本概念,发展简史、理论体系、DAMA数据管理体系 3学时 刘峥
第2节 数据科学的理论基础,比较数据、信息和知识之间的关系,讲述数据的基本概念、基于特征的数据分类框架、数据架构和数据建模 6学时 刘峥
第3节 总结数据管理的发展方向,包括数据湖、大数据、云计算、物联网、流数据等前沿实践 3学时 常志军
第二章 数据流程和生命周期管理
第1节 数据基本流程、数据生命周期管理的主要构成阶段 3学时 常志军
第2节 生产、获取、存储、转换、管理和表示数据的方法、数据组织策略、数据流动衔接、工具方法等 3学时 常志军
第3节 全流程中数据活跃度变化规律给数据管理的指导作用 3学时 常志军
第4节 产业领域企业数据生命周期管理案例 3学时 刘峥
第三章 数据管理和治理
第1节 数据管理的原则和目标、数据管理框架,讲述数据治理的目标 3学时 刘峥
第2节 数据治理的原因、基本概念、数据治理模型、数据治理的活动、工具和方法、数据成熟度度量 6学时 刘峥
第3节 以科技文献海量数据为基础,开展数据管理与治理实践,研发工具实现数据处理 3学时 刘峥
第四章 数据存储、数据管理平台建设
第1节 使用结构化和非结构化数据开发数据库,以及结构化查询语言、非结构化存储、检索 3学时 常志军
第2节 操作/事务和决策支持系统、数据库管理解决方案、数据仓库的基本知识 3学时 常志军
第3节 评估数据仓库、数据湖、集中式与分布式数据和商业智能的基础 3学时 常志军
第4节 建设海量数据管理平台要解决的关键问题,分析常见瓶颈和应对策略,重点讨论数据存储、计算、服务三个层面的规划策略,进而提出基于大数据技术的数据管理平台建设方案 6学时 常志军
第5节 对数据ETL工具、数据排重与融合等进行课程实践 3学时 常志军
第五章 数据产品和分析理论基础
第1节 从数据管理、数据挖掘和数据可视化三个核心的数据分析环节展开介绍,以理论和实践相结合的方式探讨工作中遇到的常见问题和解决方案 6学时 刘峥

教材信息
1、 DAMA数据管理知识体系指南 DAMA国际著 2020年06月 机械工业出版社

参考书
1、 穿越数据的迷宫:数据管理执行指南@数据科学概论@MySQL基础教程@数据科学概论@数据学@数据科学 英拉·塞巴斯蒂安·科尔曼@李扬,李舰@西泽梦路(著),卢克贵(译)@覃雄派,陈跃国,杜小勇@朱扬勇,熊赟@朝乐门 2020年04月@2021年03月@2020年01月@2018年10月@2009年12月@2017年11月 机械工业出版社@中国人民大学出版社@人民邮电出版社@中国人民大学出版社@复旦大学出版社@清华大学出版社

课程教师信息
中国科学院大学经济与管理学院