课程大纲-教务系统

课程大纲

语音信息处理

课程编码：081104M05007H 英文名称：Speech Information Processing 课时：40 学分：2.00 课程属性：专业普及课 主讲教师：陶建华等

教学目的要求

通过本课程的学习，希望学生能了解本领域研究的历史、现状、趋势和主流技术的理论和方法，掌握语音信号处理、语音识别与合成、语音对话、语音转换等概念和方法，为进一步研究或应用语音技术打下基础。
课程基本要求：建议学生掌握一定的理论基础知识和编程基础。理论基础知识包括：概率论与数理统计、机器学习基础、数字信号处理。编程基础方面，建议选修学生了解算法分析的基本思想，至少掌握一种编程语言，尤其是适用于机器学习的python语言或C语言。
授课方式：教学形式以课堂讲授为基础，穿插若干研究专题，提供体验继续研究实际人机语音交互的更深入问题的机会，以期达到激发未来新的思想的效果。

预修课程

信息论、数字信号处理或离散时间序列处理、机器学习数理统计、数字信号处理

大纲内容

第一章语音信息处理概述 3学时陶建华
第1节内涵与外延
第2节研究历史
第3节主要方法
第二章语音信号处理基础知识 3学时陶建华
第1节基础声学
第2节语音声学
第3节声学模型
第三章语音增强 3学时易江燕
第1节语音降噪
第2节去混响
第3节回声消除
第四章语音识别 9学时易江燕
第1节语音识别的历史
第2节语音识别的主要方法
第3节声学模型（隐马尔科夫模型）
第4节声学模型（混合高斯模型）
第5节声学模型（神经网络模型）
第6节声学模型（神经网络模型）
第7节语言模型与解码
第8节解码方法
第9节端到端语音识别
第五章语音合成 6学时陶建华
第1节语音合成研究的历史
第2节语音合成的主要方法
第3节文本分析
第4节声学模型
第5节声码器
第6节端到端模型
第六章语音转换
第1节语音转换的内涵与历史 1学时陶建华
第2节传统语音转换方法 1学时易江燕
第3节神经网络语音转换 1学时易江燕
第七章声纹识别 3学时易江燕
第1节声纹识别的历史
第2节声纹识别的主要方法
第3节声纹识别的反攻击方法
第八章情感语音 3学时易江燕
第1节情感的内涵及历史
第2节语音情感特征
第3节语音情感识别方法
第九章对话系统 3学时易江燕
第1节对话系统的历史
第2节自然语言理解与生成
第3节对话管理
第十章前沿专题研讨 3学时陶建华
第1节前沿专题研讨
第十一章答疑 1学时易江燕
第1节答疑

参考书

1、 Spoken Language Processing: A Guide to Theory Algorithm and System Development Xuedong Huang，Alex Acero，Hsiao-Wuen Hon 2001年4月 Prentice Hall PTR

课程教师信息

课程首席教授简介：
陶建华，男，中国科学院特聘研究员，模式识别国家重点实验室副主任、博士生导师。国家杰出青年基金获得者，国家“万人计划”科技创新领军人才。中国计算机学会会士、常务理事，中国人工智能学会理事，中国中文信息学会理事，中国图象图形学会人机交互专委会主任，中科院自动化所所长助理，中欧信息、自动化与应用数学联合实验室中方主任。
先后负责和参与国家级项目（863计划、国家自然科学基金、国际合作）40余项，在包括IEEE Transaction on ASLP、ICASSP、ICSLP、ICCV、ICIP等国内外学术期刊和会议上发表论文300余篇，申请国内发明专利36项，完成多项国家和国际标准。论文和成果曾获国内外学术会议奖励。国际主要期刊IEEE Trans. on Affective Computing 指导委员会委员、Speech Communication 责任编辑、Journal on Multimodal User Interface编委等。所研制的语音识别、语音合成和情感识别产品，分别应用在腾讯、百度、Nuance、联想、搜狗、三星、诺基亚、西门子、东芝、宝马、法国电信、意大利电信等四十余家大型跨国公司产品中，在语音云平台、智能手机和导航设备中获得广泛的应用。研究成果同时还应用在MIT、CMU、Cambridge、清华、中科院计算所等三十多所国内外科研机构的科研项目中。