课程大纲

课程大纲

大数据管理与分析

课程编码:1802030839X2P2001H 英文名称:Management and Analysis of Big Data 课时:60 学分:3.00 课程属性:专业核心课 主讲教师:沙灜等

教学目的要求
本课程讲授数据科学的基本概念和原则、基本框架和流程、数据管理与分析的关键核心技术、数据管理与分析基础设施平台和工具,以及面向实际问题的数据科学案例和最佳实践方法。通过课程学习与动手实践,深入理解数据科学的核心概念、框架和方法,提升数据科学研究和实践的专业技能;本课程通过案例对关键技术的原理进行介绍,提供了中等规模实际问题的全流程实践案例。通过该课程的学习,学生可以掌握数据获取、清洗、模型训练、分析、预测、评价、可视化的全流程技术,了解数据科学的内涵,掌握了数据管理与分析的技术原理,并且通过实践案例增强动手能力,为面向实际工程任务的数据管理、分析和挖掘打下良好的基础。

预修课程
程序设计语言、数据结构

大纲内容
第一章 数据科学基础 1学时 沙灜
第1节 数据科学的定义
第2节 数据科学的组成
第3节 数据科学应用案例
第4节 数据科学工具箱
第二章 数据科学生命周期 1学时 沙灜
第1节 问题的提出
第2节 实验设计
第3节 数据与取样
第4节 验证
第三章 相关与因果-批判性思维 2学时 沙灜
第1节 批判性思维
第2节 推理谬误
第3节 证据可靠性
第4节 干扰性原因带来的常见逻辑错误
第5节 统计数据骗局
第四章 数据预处理 3学时 沙灜
第1节 数据采集
第2节 数据预处理
第五章 数据分析与建模 3学时 沙灜
第1节 预测与机器学习
第2节 关键技术
第3节 模型评价
第4节 机器学习的选择
第5节 互联网A/B实验
第六章 数据可视化 3学时 沙灜
第1节 数据可视化概述
第2节 视觉感知与认知
第3节 数据可视化
第七章 项目实施与沟通 2学时 沙灜
第1节 项目实施
第2节 沟通与表达
第3节 总结
第八章 线性代数 2学时 周川
第1节 线性代数的作用
第2节 矩阵运算
第3节 因式分解矩阵
第4节 特征值和特征向量
第5节 特征值分解
第九章 统计分析 2学时 周川
第1节 统计分布
第2节 从分布中采样
第3节 统计显著性
第4节 置换检验与p值
第5节 贝叶斯定理
第十章 得分与排名 2学时 周川
第1节 评分系统
第2节 Z得分和归一化
第3节 高级排名技术
第十一章 分类 4学时 周川
第1节 什么是分类
第2节 决策树算法
第3节 朴素贝叶斯分类器
第4节 最近邻分类器
第5节 Logistics回归
第6节 SVM
第7节 提升方法
第十二章 聚类 4学时 周川
第1节 什么是聚类
第2节 顺序聚类算法
第3节 划分聚类算法
第4节 层次聚类算法
第5节 密度聚类算法
第十三章 回归 4学时 周川
第1节 什么是回归
第2节 一元线性回归
第3节 多元线性回归
第4节 非线性回归
第十四章 关联规则分析 3学时 周川
第1节 基本概念
第2节 频繁项集和关联规则
第3节 Apriori算法
第4节 FP-Growth算法
第5节 序列模式挖掘
第十五章 异常检测 3学时 周川
第1节 基本介绍
第2节 异常检测常见方法
第十六章 数据降维 3学时 周川
第1节 主成分分析
第2节 因子分析
第3节 SVD分解与低维嵌入
第十七章 时间序列分析 3学时 周川
第1节 时间序列分析概述
第2节 平稳时间序列模型
第3节 ARMA模型的特点
第4节 平稳时间序列的建立
第5节 平稳时间序列预测
第6节 非平稳时间序列分析
第十八章 人工神经网络 3学时 周川
第1节 符号学习方法
第2节 人工神经网络及其特点
第3节 ANN模型
第4节 学习规则
第十九章 遗传算法 2学时 周川
第1节 遗传算法的基本原理
第二十章 图与网络方法 2学时 周川
第1节 图、网络与距离
第2节 PageRank
第3节 图表示学习
第二十一章 大数据:实现规模 2学时 周川
第1节 大数据算法
第2节 过滤与抽样
第3节 并行
第二十二章 统计因果推理 5学时 沙灜
第1节 统计及因果模型
第2节 图模型及其应用
第3节 干预的效果
第4节 反事实及其应用
第5节 用于归因和中介的数学工具包
第二十三章 总结与展望 1学时 沙灜
第1节 总结
第2节 展望

参考书
1、 数据科学入门 乔尔·格鲁斯 2021年1月 人民邮电出版社

课程教师信息
沙灜,博士,华中农业大学信息学院教授,人工智能系主任,博士生导师。2002年毕业于中国科学院计算技术研究所,获计算机软件与理论博士学位。中国计算机学会会员,中国计算机学会数字农业执行委员,中文信息学会社会媒体专委会委员,武汉计算机软件工程学会会员,湖北省农业工程学会会员,美国伦斯勒理工学院(RPI)访问学者。主要研究方向为人工智能、自然语言处理、机器学习等。以课题负责人身份承担了国家科技支撑计划项目、国家自然科学基金面上项目、863子课题、国家信息安全计划、内蒙古科技重大专项等40余项课题。申请专利13项,其中授权9项,二十余项软著。在SIGIR、AAAI、TKDE、CIKM、ICDM、ISWC、TWEB等国际会议上和期刊上以第一作者或通讯作者共发表学术论文50余篇。获2017年保密科学技术奖励二等奖(省部级)。出版4部译著。开设研究生课程《社会计算与社交网络分析》、《数据科学导论》《互联网大数据获取与分析》《基于深度学习的自然语言处理》,本科生课程《人工智能》。培养及协助培养博士生、硕士生几十名,优秀学士论文指导教师。
周川,中科院数学与系统科学研究院副研究员,博士生导师。从事社会计算、图计算、图机器学习等领域的基础理论和应用研究,合作发表论文120余篇,引用3700余次,H指数36。曾获中科院优秀博士学位论文奖、ICCS-14最佳论文奖、IJCNN-17和ICDM-21最佳学生论文奖。入选中科院数学院“陈景润未来之星”和中科院青促会会员。入选中科院稳定支持基础研究领域青年团队、中科院特聘骨干研究岗位。担任中国工业与应用数学学会ICT数学专委会秘书长。