数据科学技术与应用
课程编码:180210085602M3002H
英文名称:Data science: Technology and Application
课时:40
学分:2.00
课程属性:专业课
主讲教师:郭力等
教学目的要求
本课程是材料与化工学科研究生的专业课程。数据科学技术使用数学、统计学、机器学习和计算机技术对专业领域的对象数据进行分析、处理与建模,以帮助科研活动的有效开展。本课程的内容贯穿数据的生命周期,结合应用实例,主要包括数据科学平台、数据组织与存储、数据预处理、数据可视化、数据统计分析、数据建模等。本课程的目的是引导研究生建立数据科学的思维方式,学习数据分析和建模的基本方法,以提高在科研活动中的数据处理能力。
预修课程
计算机文化、高等数学(工科)、线性代数
大纲内容
第一章 数据科学概论 3学时 郭力
第1节 数据与数据科学的基本概念
第2节 科研数据与科学范式
第3节 相关数学基础知识复习
第二章 数据科学平台 6学时 夏诏杰
第1节 Python语言开发环境
第2节 Anaconda科学数据平台
第3节 Jupiter Notebook平台
第4节 Python语言编程基础
第三章 数据组织与存储 3学时 夏诏杰
第1节 数据存储方式
第2节 多维数据组织
第3节 多维数据计算
第4节 相关工具库 NumPy/SciPy
第四章 数据预处理 3学时 夏诏杰
第1节 数据清洗
第2节 数据规整
第3节 特征提取
第4节 特征选择
第5节 数据预处理探索与实践
第五章 数据可视化 3学时 夏诏杰
第1节 数据可视化流程
第2节 数据可视化工具
第3节 可视化数据探索与实践
第六章 数据统计分析 3学时 夏诏杰
第1节 统计分析基本概念
第2节 常用统计量
第3节 统计分析方法与工具
第4节 统计分析案例
第七章 数据建模 18学时 郭力
第1节 机器学习基础
第2节 回归模型
第3节 分类模型
第4节 集成模型
第5节 聚类模型
第6节 人工神经网络
参考书
1、
Python程序设计
田晖
2022年
清华大学出版社
2、
Python数据分析
江雪松
2020年
清华大学出版社
3、
机器学习
周志华
2016年
清华大学出版社
课程教师信息
郭力,中科院过程工程所研究员、博士生导师,国科大岗位教授,获国科大李佩优秀教师奖,主要研究方向为虚拟过程工程、高性能计算、机器学习。
夏诏杰,博士,副研究员,本科毕业浙江大学生物化学工程系生物化工,中科院过程工程研究所应用获得应用化学博士学位,毕业后留所工作。主要从事数据分析、数据科学可视化和高性能科学计算的研究。