人群队列大数据研究基础与R实战
课程编码:1802001001Z1P3002H
英文名称:Introduction to Large Data Analysis in Cohort Studies Using R
课时:40
学分:2.00
课程属性:专业课
主讲教师:贾佩林等
教学目的要求
类复杂性状,如常见疾病(癌症和心血管疾病等),是由多个遗传和非遗传因素长期共同作用的结果。人群队列研究是研究复杂性状的有效方法。目前人群队列研究是遗传流行病学领域的主旋律,常用来研究复杂性疾病病因学。通过构建大型人群队列,将组学、大数据科学等新技术有机整合,精细地解析复杂性疾病的病因结构,提供疾病风险评估和预测、早筛分类及个体化治疗的整套解决方案。人群队列大数据研究基础与R实战将遗传学、流行病学和生物统计学等理论和方法应用于人群队列大数据来研究遗传和环境因素在疾病发生发展中的重要作用,并通过大量的R操作实例演示具体的遗传统计分析。这门普及课将讲授遗传流行病学的基本概念、人群队列的研究方法、R语言统计分析和基础的Linux大数据分析,具体每次授课都将结合理论和R实战。在课程结束时,学生应该:
1. 熟悉并掌握遗传流行病学领域的基本概念,了解遗传流行病学研究在精准医学中的重要性
2. 理解和计算简单统计数据,如OR,RR,AR
3. 理解人群队列研究的意义和一般设计流程
4. 理解Hardy-Weinberg平衡定律,能够估计等位基因频率和基因型频率
5. 理解连锁和关联研究的区别
6. 能够解释连锁和关联分析的结果
7. 熟练掌握基础R语言统计分析操作,能够用R进行基础的遗传流行病学分析
8. 掌握全基因组关联分析的一般流程,并进行结果诊断和解析
9. 掌握基本的Linux操作,了解基因组大数据基本处理流程。
预修课程
高等数学或生物统计学、遗传学
大纲内容
第一章 第一章 绪论 3学时 贾佩林
第1节 分子流行病学介绍
第2节 人群队列与大数据研究介绍
第3节 R语言入门
第二章 第二章 队列研究的统计学基础与R实战 3学时 贾佩林
第1节 群体遗传学介绍
第2节 遗传力
第3节 R语言入门实战
第三章 第三章 队列研究的遗传学基础与R实战 3学时 贾佩林
第1节 遗传因子概述
第2节 连锁不平衡理论
第3节 哈温平衡理论与检测
第四章 第四章 全基因组关联分析I 3学时 贾佩林
第1节 GWAS介绍
第2节 关联分析
第3节 关联分析实战
第五章 第五章 全基因组关联分析II 3学时 贾佩林
第1节 GWAS质控
第2节 GWAS结果可视化
第3节 GWAS分析实战
第六章 第六章 全基因组meta分析 3学时 贾佩林
第1节 基因型填充
第2节 荟萃分析
第3节 荟萃分析实战
第七章 第七章 预测研究原理与方法概述 3学时 贾佩林
第1节 表型预测原理
第2节 表型预测方法介绍
第3节 实战
第八章 第八章 Linux系统概述与基本命令 3学时 张治华
第1节 Linux系统概述
第2节 Shell基本命令
第3节 基于sed/awk的文本编辑
第九章 第九章 测序技术概述 3学时 张治华
第1节 什么是全基因组重测序
第2节 二代测序主流平台,特点
第3节 基因组变异分析流程
第十章 第十章 转录组分析 3学时 张治华
第1节 转录组的定量
第2节 可变剪接
第3节 非编码RNA
第十一章 第十一章 表观基因组概述与分析 3学时 张治华
第1节 表观遗传学的基本概念
第2节 DNA甲基化的分析流程
第3节 三维基因组学分析方法
第十二章 第十二章 post-GWAS分析:共定位分析 3学时 贾佩林
第1节 共定位分析方法介绍
第2节 共定位分析方法与资源
第3节 共定位分析实战
第十三章 第十三章 post-GWAS分析:精细映射 3学时 贾佩林
第1节 精细映射原理
第2节 精细映射方法与资源
第3节 精细映射实战
第十四章 第十四章 课程答疑 1学时 贾佩林
第1节 课程答疑
参考书
1、
R语言实战@人类复杂疾病遗传学实验指南
Robert I. Kabacoff@阿玛尔·阿尔沙拉比、劳拉·艾玛西
2013年1月@2015年6月
人民邮电出版社@科学出版社
课程教师信息
贾佩林,中国科学院北京基因组研究所研究员,博士生导师,主要从事遗传流行病学、人类复杂表型遗传力解析研究。
张治华,中国科学院北京基因组研究所研究员,博士生导师,国科大岗位教授,主要从事多组学大数据和基因调控网络的解析分析研究。