课程大纲-教务系统

课程大纲

大数据抽样：从基础到前沿

课程编码：180080070103M0005H 英文名称：Subsampling for Massive Data: From Foundations to Frontiers 课时：20 学分：1.00 课程属性：高级强化课 主讲教师：王海鹰

教学目的要求

本短期课程专为研究生设计，旨在探索大数据抽样的基础与前沿。在处理海量数据集时，一个共同的挑战是如何在有限的计算资源下提取有用信息。本课程设计兼顾易懂性与独立性，将对这一新兴研究领域进行全面的概述。课程从基本概念出发，逐步深入到最新开发的技术，并在此过程中指出许多新的研究机会。

预修课程

概率论与数理统计

大纲内容

第一章随机数值线性代数与算法杠杆抽样王海鹰
第1节普通最小二乘法的快速近似 1.0学时
第2节杠杆抽样的统计性质 2.0学时
第3节杠杆得分的快速近似 2.0学时
第二章最优抽样及相关主题王海鹰
第1节 A-最优性下的最优抽样方法 (OSMAC) 2.0学时
第2节更高效的估计方法 2.0学时
第3节海量数据信息子抽样方法的比较 1.0学时
第4节其他模型的扩展 1.0学时
第三章非随机子数据选择王海鹰
第1节基于信息的最优子数据选择 2.0学时
第2节扩展：线性模型、逻辑回归、广义线性模型、在线稀疏化 (online thinning) 1.5学时
第四章罕见事件数据王海鹰
第1节具有罕见事件的海量数据逻辑回归 1.5学时
第2节非均匀对数几率校正 (Nonuniform Log Odds Correction) 1.5学时
第五章关于编码与实现的几点说明王海鹰
第1节关于编码与实现的几点说明 1.0学时

参考书

课程教师信息

略