数据分析与优化建模
课程编码:070105M05003H
英文名称:Introduction of data analysis and optimization modeling
课时:40
学分:2.00
课程属性:专业普及课
主讲教师:王勇
教学目的要求
随着计算机和信息技术的迅速发展,在各个领域都积累了大量的数据。从数据存储、组织到搜索带来的需求衍生出大量基于“从数据中挖掘信息和知识”范式的新领域,例如针对生物数据分析的生物信息学。这里最大的挑战在于从数据中提取出重要的模式和趋势,倾听数据发出的声音,并能将新的数据和已有知识有机结合,对未知进行准确预测。这种从数据中的学习对统计、最优化、动力系统、信息论等数学分支形成了巨大的挑战,但也提供了各学科各显神通、交融贯通、并与计算机、工程等密切结合的机会。
本课程将重点讲授数据分析建模的主要思想、一些经典方法和应用实例,并对网络数据的建模和数据集成进行深入阐述。目的是使学生广泛地了解一般性的数据的数学表示、分析和建模方法,宏观地掌握的最优化和统计建模的基本范式,并通过对一些经典方法和应用体会建模的美感和统计和最优化等学科在数据分析中的交融。要求学生积极培养科学理性的思维方式、努力掌握系统深入的数据分析知识,为以后具备独立从事教学或科学研究工作的能力;以及拓展课内外、校内外、国内外各种学术交流打下坚实基础。
本课程一方面强调从数据出发,与现有数学模型课区分,另一方面强调统计、优化模型的重要性,与现有的数据挖掘、机器学习等课程区分。强调理论和实际应用密切结合,通过课后分组Project的形式,学会使用数据分析软件python 和R 来进行数据分析。适合未来有志于从事数据分析方向职业的研究生,背景可以来自于数学、信息、以及其他交叉学科。
预修课程
运筹学、最优化、数理统计学,一门程序设计语言
大纲内容
第一章 数据科学概论 4学时
第1节 什么是数据科学?
第2节 数据的数学表示
第二章 数据建模原理 6学时
第1节 最大似然模型
第2节 贝叶斯模型与最大后验概率
第3节 数据建模的三个层次
第三章 数据的可视化、简化与降维 6学时
第1节 数据的简化原理与计数分析
第2节 降维的优化模型
第3节 线性降维与扩展
第4节 非线性降维的优化方法
第5节 降维的稀疏优化
第6节 聚类的优化模型
第四章 数据的关联建模 8学时
第1节 刻画相关关系
第2节 联合概率列联表
第3节 相关与因果
第4节 互信息熵
第5节 条件相关与条件互信息熵
第6节 线性回归分析
第7节 逻辑回归分析
第8节 相关性的微分方程刻画
第五章 数据的集成建模 8学时
第1节 数据集成的优化框架
第2节 朴素贝叶斯与贝叶斯网络集成
第3节 集成数据的一致优化
第4节 多层次复杂数据集成方法
第六章 网络数据的建模 8学时
第1节 图论复杂网络的数学基础
第2节 网络数据的分析
第3节 网络推断的的优化模型
第4节 网络模块探测的生成模型与优化方法
参考书
1、
Biomolecular Networks: Methods and Applications in Systems Biology
Luonan Chen、Ruisheng Wang and Xiang-Sun Zhang
2009
John Wiley & Sons
课程教师信息
略