大数据抽样:从基础到前沿
课程编码:180080070103M0005H
英文名称:Subsampling for Massive Data: From Foundations to Frontiers
课时:20
学分:1.00
课程属性:高级强化课
主讲教师:王海鹰
教学目的要求
本短期课程专为研究生设计,旨在探索大数据抽样的基础与前沿。在处理海量数据集时,一个共同的挑战是如何在有限的计算资源下提取有用信息。本课程设计兼顾易懂性与独立性,将对这一新兴研究领域进行全面的概述。课程从基本概念出发,逐步深入到最新开发的技术,并在此过程中指出许多新的研究机会。
预修课程
概率论与数理统计
大纲内容
第一章 随机数值线性代数与算法杠杆抽样 王海鹰
第1节 普通最小二乘法的快速近似 1.0学时
第2节 杠杆抽样的统计性质 2.0学时
第3节 杠杆得分的快速近似 2.0学时
第二章 最优抽样及相关主题 王海鹰
第1节 A-最优性下的最优抽样方法 (OSMAC) 2.0学时
第2节 更高效的估计方法 2.0学时
第3节 海量数据信息子抽样方法的比较 1.0学时
第4节 其他模型的扩展 1.0学时
第三章 非随机子数据选择 王海鹰
第1节 基于信息的最优子数据选择 2.0学时
第2节 扩展:线性模型、逻辑回归、广义线性模型、在线稀疏化 (online thinning) 1.5学时
第四章 罕见事件数据 王海鹰
第1节 具有罕见事件的海量数据逻辑回归 1.5学时
第2节 非均匀对数几率校正 (Nonuniform Log Odds Correction) 1.5学时
第五章 关于编码与实现的几点说明 王海鹰
第1节 关于编码与实现的几点说明 1.0学时
参考书
课程教师信息
略