课程大纲

课程大纲

深度学习

课程编码:081203M05009H 英文名称:Deep Learning Course Hours:40 Course Credit:2.00 Course Attribute:专业普及课 Main Teachers:徐俊刚等

教学目的要求
本课程为计算机应用技术、计算机软件与理论、软件工程等专业研究生的专业普及课。本课程讲授和讨论深度学习的主要理论和关键技术,主要内容有深度学习基础、卷积神经网络、循环神经网络、深度生成模型、深度学习正则化等以及上述深度学习理论在图像、语音、自然语言处理等领域的主要应用,同时也介绍了一些新兴的深度学习模型及其应用。课程注重深度学习实践能力的锻炼和培养,通过引入多个深度学习课程实验,提升同学们的动手能力。通过本课程的学习,希望相关专业研究生能够掌握深度学习的基本理论和关键技术,提高基于深度学习技术进行科学研究与应用开发的能力。

预修课程
计算机算法设计与分析,模式识别与机器学习

教材

主要内容
第一章 引言(学时数:2)
1.1 深度学习的起源、发展和现状(含深度学习研发全球主要机构及科学家)
1.2 深度学习与机器学习、人工智能的关系
1.3 深度学习的定义、主要理论和方法概述
1.4 深度学习的主要应用概述
第二章 深度学习基础(学时数:5)
2.1 数学基础(向量、矩阵、概率及概率分布、微积分、熵等)
2.2 机器学习基础(最大似然估计、贝叶斯网络、无监督学习、有监督学习, 强化学习等)
2.3 神经网络基础(M-P模型、感知机/多层感知机、误差反向传播算法、误差函数/激活函数、随机梯度下降法、Hopfield神经网络、自编码器等)
第三章 卷积神经网络(Convolutional Neural Network,CNN)(学时数:3)
3.1 卷积神经网络基本结构
3.2 卷积神经网络的基本原理
3.3 卷积神经网络的变种
3.4 卷积神经网络的典型应用
第四章 循环神经网络(Recurrent Neural Network,RNN)(学时数:3)
4.1 循环神经网络
4.2 循环神经网络的训练方法
4.3 长短时记忆网络
4.4 双向循环神经网络
4.5循环神经网络的典型应用
第五章 深度生成模型(学时数:3)
5.1玻尔兹曼机
5.2 受限玻尔兹曼机
5.3 深度信念网
5.4 深度玻尔兹曼机
5.5 深度自编码器
5.6 深度生成模型的典型应用
第六章 其他典型深度学习方法(学时数:5)
6.1 生成对抗网络
6.2 胶囊网络
6.3 注意力网络
6.4 记忆网络
6.5 增强深度学习
6.6 深度森林
第七章 深度学习中的正则化(学时数:3)
7.1 正则化的概念
7.2 L1和L2正则化
7.3 数据增强
7.4 Bagging
7.5 Dropout和Dropconnect
7.6 提前终止
7.7 稀疏表示
第八章 深度学习工具(学时数:4)
8.1 深度学习工具概览
8.2 TensorFlow
8.3 PaddlePaddle
8.4 Keras
8.5 PyTorch
第九章 深度学习在图像识别中的典型应用(学时数:4)
9.1 图像分类
9.2 目标检测
9.3 图像分割
9.4 图像回归
第十章 深度学习在语音识别中的典型应用(学时数:3)
10.1 语音识别
10.2 声纹识别
10.3 语音合成
第十一章 深度学习在自然语言处理中的典型应用(学时数:5)
11.1 语言模型
11.2 机器翻译
11.3 自动摘要
11.4 机器阅读理解
11.5 图像描述

参考文献
主要参考书:

[1] Ian,Goodfellow等著,赵申剑等译. 深度学习. 北京: 人民邮电出版社, 2017.

[2] 山下隆义著,张弥译.图解深度学习. 北京:人民邮电出版社,2018.

[3] Yoav Goldberg著, 车万翔等译. 基于深度学习的自然语言处理. 北京: 机械工业出版社, 2018.

[4] 猿辅导研究团队. 深度学习核心技术与实践. 北京: 电子工业出版社, 2018.

[5] 林大贵. TensorFlow+Keras深度学习人工智能实践应用. 北京: 清华大学出版社, 2018.

[6] 刘祥龙等著.PaddlePaddle深度学习实战.北京: 机械工业出版社, 2018.



主要参考文献

[1] G. E. Hinton and R. R. Salakhutdinov. Reducing the dimensionality of data with neural networks, Science, 2006, 313 (5786): 504 -507.

[2] G. E. Hinton, S. Osindero, Y. W. Teh. A fast learning algorithm for deep belief nets. Neural computation, 2006, 18(7): 1527-1554.

[3] Y. LeCun and Y. Bengio. Convolutional networks for images, speech, and time series. The handbook of brain theory and neural networks, 1995.

[4] N. Roux Le, and Y. Bengio. Representational power of restricted Boltzmann machines and deep belief networks. Neural Computation, 2008, 20(6): 1631-1649.

[5] J. Ngiam, A. Khosla, and M. Kim. Multimodal deep learning. Proceedings of International Conference on Machine Learning, 2011: 689-696.

[6] A. Graves, A. Mohamed, and G. E. Hinton. Speech recognition with deep recurrent neural networks. Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing, 2013.

[7] S. Hochreiter and J. Schmidhuber. Long short-term memory. Neural Computation, 1997.

[8] S. Sukhbaatar, J. Weston, R. Fergus. End-to-end memory networks.Z2 Advances in Neural Information Processing Systems, 2015: 2431-2439.

[9] D. Bahdanau, K. Cho, and Y. Bengio. Neural machine translation by jointly learning to align and translate. Proceedings of the International Conference on Learning Representations, 2015.

[10] I. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D. Warde-Farley, S. Ozair et al., and Y. Bengio. Generative adversarial nets. Advances in Neural Information Processing Systems, 2014.

[11] S. Sabour, N. Frosst, G. E. Hinton. Dynamic Routing Between Capsules. CoRR, abs/1710.09829, 2017.

[12] J. Xu, H. Li, S. Zhou. Improving mixing rate with tempered transition for learning restricted Boltzmann machines. Neurocomputing, 2014, 139:328-335.

[13] V. Mnih, N. Heess, A. Graves, K. Kavukcuoglu. Recurrent models of visual attention. Advances in Neural Information Processing Systems, 2014: 2204-2212.

[14] K. Xu, J. Ba, R. Kiros. Show, attend and tell: Neural image caption generation with visual attention. Proceedings of the International Conference on Machine Learning, 2015.

[15] K. M. Hermann, T. Kocisky, E. Grefenstette. Teaching machines to read and comprehend. Advances in Neural Information Processing Systems, 2015: 1684-1692.

[16] Y. Kim. Convolutional neural networks for sentence classification. Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP),2014: 1746-1751.

[17] T. Mikolov, M. Karafiát, L. Burget, et al. Recurrent neural net-work based language model. Proceedings of Eleventh Annual Conference of the International Speech Communication Association, 2010: 1045–1048.

[18] K. Cho, B. Van Merrienboer, C. Gulcehre, D. Bahdanau, F. Bougares, H. Schwenk, and Y. Bengio. Learning phrase representations using rnn encoder-decoder for statistical machine translation. Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP),2014

[19] R. Kiros, R. Salakhutdinov, and R. S. Zemel. Unifying visual semantic embeddings with multi-modal neural language models. Transactions of the Association for Computational Linguistics, 2015.

[20] Z. Zhou, J. Feng. Deep Forest: Towards an alternative to deep neural networks. Proceedings of International Joint Conference on Artificial Intelligence, 2017.

[21] J. Mao, W. Xu, Y. Yang, J. Wang, Z. Huang, and A. Yuille. Deep captioning with multimodal recurrent neural networks (m-rnn). Proceedings of the International Conference on Learning Representations, 2014.

[22] J. Donahue, L. A. Hendricks. Long-term Recurrent Convolutional Networks for Visual Recognition and Description. Proceedings of IEEE Conference on Computer Vision and Pattern Recognition,2015

[23] O. Vinyals, A. Toshev, S. Bengio, and D. Erhan. Show and tell: A neural image caption generator. Proceedings of IEEE Conference on Computer Vision and Pattern Recognition, 2015.

[24] K. He, X. Zhang, S. Ren, and J. Sun. Deep residual learning for image recognition. Proceedings of IEEE Conference on Computer Vision and Pattern Recognition,2016

[25] G. Jiaxian, L. Sidi, C. Han, Z. Weinan, W. Jun, Y. YuLong. Text generation via adversarial training with leaked information. arXiv:1709.08624v2 [cs.CL], 2017.

课程教师信息
首席教授:徐俊刚,男,中国科学院大学教授/博士生导师,云计算与智能信息处理实验室主任,国家科技专家库专家,北京市科学技术委员会专家。中国计算机学会数据库专委会委员,中国计算机学会人工智能与模式识别专委会委员,中国计算机学会中文信息技术专委会委员,中国人工智能学会智能服务专委会委员。主持国家科技支撑计划课题、国家重点研发计划子课题、国家自然科学基金面上项目等国家级科研项目,主持北京市科技计划课题、北京市自然科学基金等省部级科研项目,发表论文50余篇,出版著作3部,申请专利5项,2016年度中国科学院朱李月华优秀教师奖获得者。

主讲教师:张新峰 ,男,中国科学院大学副教授,硕士导师
1. 学术简历
2003.09-2007.07, 河北工业大学, 计算机科学与技术专业,学士学位
2007.09-2014.07, 中国科学院计算技术研究所,计算机应用技术, 博士学位
2014.07-2017.10, 新加坡南洋理工大学, 研究员
2017.11-2018.10, 美国南加州大学, 博士后研究员
2018.12-2019.08, 中国香港城市大学, 研究员
2019.09- 至今, 中国科学院大学, 长聘教轨助理教授
截止2019年11月,发表学术论文101篇,其中SCI期刊论文43篇(11篇第一作者/通讯作者),会议论文59篇(13篇第一作者),其中一篇期刊论文获得最佳论文奖,两篇会议论文获得最佳论文奖,一篇会议论文获得最佳学生论文奖,一篇会议论文获得最佳墙报论文奖,谷歌学术引用1017次,其中H指数19,i10指数29。
2. 专业背景
张新峰老师长期从事视频、图像压缩、处理和质量评价的相关研究工作,主要工作包含:(1)通过统计分析,建立视频和图像的先验分布模型,提高视频和图像的时空预测性能,从而提高视频编解码效率,提出了时空联合的多假设高效视频解码技术和基于图像非局部相似性的环路滤波技术;(2)利用深度学习技术提高视频帧间预测性能,提出了基于卷积神经网络的双向B帧预测,基于帧率提升网络的虚拟参考帧技术和多类别卷积网络的环路滤波器;(3) 结合人眼视觉特性,探索符合人类视觉特性的视频质量评价准则,提出了细粒度压缩图像质量评价问题并建立了评测基准,同时提出了基于多阶段KLT变换的压缩图像评价方法,以及基于SVM的无参考的图像质量评测方法。