数据挖掘
课程编码:180086081202P3002H
英文名称:Data Mining
课时:40
学分:2.00
课程属性:专业课
主讲教师:刘莹
教学目的要求
本课程为计算机软件学科研究生的专业普及课程。主要介绍数据挖掘技术的起源、原理、主要算法、关键技术等。课程包含的主要议题包括:数据挖掘的重要性、特点、应用领域、数据仓库、数据预处理技术、分类、预测、关联规则、聚类、异常点检测、推荐系统、深度学习、大数据挖掘等。
本课程采用全英文教学,并将注重理论与实践相结合,使计算机专业研究生掌握数据挖掘的概念的同时,锻炼解决实际问题的能力,为将来的科研工作奠定基础。
预修课程
数据结构,算法,C编程,数据库,概率统计
大纲内容
第一章 Introduction 刘莹
第1节 Motivation 1.0学时
第2节 Major issues 0.5学时
第3节 Major applications 1.0学时
第4节 Data types 1.0学时
第5节 Characteristics 0.5学时
第二章 Data Warehouse 刘莹
第1节 Model 2.0学时
第2节 Architecture 1.0学时
第3节 Operations 1.0学时
第三章 Data Pre-processing 刘莹
第1节 Data cleaning 1.5学时
第2节 Data transformation 1.5学时
第3节 Data reduction 1.0学时
第四章 Classification 刘莹
第1节 Decision tree 1.5学时
第2节 Bayesian Classifier 1.0学时
第3节 Classification by backpropagation, 1.0学时
第4节 KNN classifier and other models 1.0学时
第5节 Prediction models 0.5学时
第6节 Example 2.0学时
第五章 Association Rules Mining 刘莹
第1节 Apriori 2.0学时
第2节 Apriori-based frequent itemset mining 1.5学时
第3节 FP-Growth 1.0学时
第4节 Multi-level & Multi-dimensional association rules mining 0.5学时
第六章 Clustering 刘莹
第1节 similarity measure 1.0学时
第2节 Partitioning methods 1.5学时
第3节 Hierarchical methods 1.0学时
第4节 Density-based methods 1.0学时
第5节 Grid-based methods 0.5学时
第6节 Outlier detection 2.0学时
第七章 Recommendation System 刘莹
第1节 Content-based recommendation system 1.0学时
第2节 Collaborative filtering 1.0学时
第八章 Applications 刘莹
第1节 Credit scoring 1.0学时
第2节 oil exploration 0.5学时
第3节 Cosmological Simulation 0.5学时
第九章 Big data mining 刘莹
第1节 Big data 0.5学时
第2节 Deep Learning 1.0学时
第3节 Text mining 0.5学时
第4节 High performance mining 1.0学时
第十章 Exam 刘莹
第1节 Exam 2.0学时
教材信息
1、
Data Mining:Concepts and Techniques
Jiawei Han and Micheline Kamber
2012/03
参考书
课程教师信息
刘莹,女,博士,中国科学院大学计算机科学与技术学院,教授,博导,中国科学院大学数据挖掘与高性能计算实验室负责人。1999 年获北京大学学士学位,2005 年获美国西北大学博士学位。
主要研究方向为数据挖掘、人工智能、高性能计算、大数据等。已在国际期刊和国际会议上发表学术论文100余篇。
获2022年中国科学院李佩优秀教师奖,2017年中国科学院“朱李月华”优秀教师奖。
曾主持自然基金重点项目子课题3项,自然基金面上项目3项,中央军委加强计划重点项目子课题1项,广东省科技厅大数据专项重点计划子课题1项,国防预研1项,武器装备预研3项,以及国家大型企业、研究所、外资企业横向课题20余项。曾获北京市科技进步二等奖。