生物信息学中的机器学习
课程编码:180086085404M3006H
英文名称:Machine Learning in Bioinformatics
课时:40
学分:2.00
课程属性:专业课
主讲教师:卜东波等
教学目的要求
本课程是面向生物学专业和计算机专业的一门专业核心课程。生物信息学是采用计算方法研究和解决生命科学领域中的问题的科学,是现代生命科学与计算机科学、数学、统计学等相互渗透而形成的交叉学科。近几年的生物技术和计算技术都发展迅速,利用计算技术研究核心生物问题已成为当今生命科学和自然科学的重大前沿领域之一。例如,最近的AlphaFold等算法在很大程度上促进了蛋白质折叠问题的研究。本课程主要介绍生命科学领域中的核心问题以及计算方法尤其是深度学习算法在其中的应用。
本课程的教学目的包括:
(1) 使学生掌握生物信息学概念和基本研究内容;了解生命科学领域中的核心问题;了解前沿生物技术以及其中的计算问题。
(2) 培养学生在生命科学研究中抽象和形式化计算问题的能力。
(3) 培养学生借助深度学习算法等计算法方法分析、解决生命科学研究中实际生物问题的能力。
本课程的教学要求包括:
(1) 学生应掌握生物信息学的概念和基本研究内容及意义;了解前生物技术以及其中计算问题。
(2) 掌握解决相应生物问题的常用算法,例如深度学习算法等。
(3) 掌握从生物问题中抽象出相应的计算问题并借助计算方法解决实际的生物问题的能力。
预修课程
无
大纲内容
第一章 介绍:现代生物技术和计算问题
第1节 现代生物技术 2学时 卜东波
第2节 计算问题 2学时 卜东波
第3节 深度学习基础 2学时 卜东波
第二章 序列:深度学习在分子序列中的应用
第1节 分子序列基础 2学时 卜东波
第2节 深度语言模型(LSTM, RNN, CNN) 2学时 卜东波
第3节 预训练模型 (BERT, GPT) 2学时 卜东波
第三章 结构:深度学习在分子结构中的应用
第1节 蛋白质结构预测-基于模板方法 2学时 卜东波
第2节 蛋白质结构预测-从头预测方法 2学时 卜东波
第3节 蛋白质设计(扩散模型) 2学时 卜东波
第四章 基因组:基于深度学习解释基因组变异
第1节 基因组基础 2学时 卜东波
第2节 非编码区变异解释和深度学习 (VAE, GAN) 2学时 卜东波
第3节 编码区变异解释和深度学习 2学时 卜东波
第五章 转录组:基于深度学习解释基因调控
第1节 基因调控基础 (GAN, VAE, CNN) 2学时 卜东波
第2节 单细胞测序 2学时 卜东波
第3节 深度图模型 2学时 卜东波
第六章 深度学习在计算蛋白质组学中的应用
第1节 基于深度学习的理想谱预测 2学时 卜东波
第2节 基于深度学习的蛋白质从头测序算法 2学时 卜东波
第七章 深度学习在计算蛋糖组学中的应用
第1节 糖鉴定基础以及传统算法介绍 2学时 卜东波
第2节 基于深度学习的糖鉴定算法 2学时 孙世伟
第八章 深度学习在精准医疗中的应用
第1节 免疫治疗 2学时 孙世伟
第2节 癌症早筛 2学时 孙世伟
第3节 图像检测和电子病历 2学时 孙世伟
参考书
课程教师信息
卜东波 中科院计算所,生物信息学实验室,研究员 教育经历1997/09 – 2001/01,中科院计算所,博士,导师:李国杰研究员1994/09 – 1997/06,中科院计算所,硕士,导师:白硕研究员1990/09 – 1994/06,山东大学,计算机系,学士工作经历(科研与学术工作经历,按时间倒排序):2010/07-至今,中科院计算所,研究员2006/05-2008/08,加拿大滑铁卢大学计算机系,访问学者2003/07-2010/06,中科院计算所,副研究员2001/01-2003/06,中科院计算所,助理研究员。
孙世伟,中国科学院计算技术研究所前瞻研究实验室副研究员、博士生导师、CCF生物信息学专业委员会委员。目前主要研究方向包括人工智能,生物信息学,中药小分子质谱解析,计算糖组学等。已在国际核心期刊和会议上发表论文60余篇。担任领导的计算糖组学研究组作为中国唯一团队参与NIST组织的糖组学协同研究。主持多项国家基金,北京市自然基金,地方基金项目等。