课程大纲-教务系统

课程大纲

语音信息处理

课程编码：180206081104P3006H 英文名称：Speech Information Processing 课时：40 学分：2.00 课程属性：专业课 主讲教师：陶建华等

教学目的要求

本课程是希望学生能了解本领域研究的历史、现状、趋势和主流技术的理论和方法，掌握语音信号与信息的分析与处理的概念、方法、工具和实验技巧，为进一步学习语音交互技术理论和从事专业研究打下基础。

预修课程

信息论、数字信号处理或离散时间序列处理、机器学习

大纲内容

第一章语音信息处理概述 3学时陶建华
第1节内涵与外延
第2节研究历史
第3节主要方法
第二章语音信号处理基础知识 3学时陶建华
第1节基础声学概念
第2节主流声学特征
第3节线性预测系数与基频提取
第三章算法基础 3学时陶建华
第1节高斯模型与决策树
第2节有限状态自动机与马尔科夫决策
第3节神经网络基础
第四章语音识别 9学时李军锋
第1节语音识别的历史
第2节语音识别的主要方法
第3节声学模型（隐马尔科夫模型）
第4节声学模型（混合高斯模型）
第5节声学模型（神经网络模型）
第6节声学模型（神经网络模型）
第7节语言模型与解码
第8节解码方法
第9节端到端语音识别
第五章语音合成
第1节语音合成研究的历史 1学时李军锋
第2节语音合成的主要方法 1学时李军锋
第3节文本分析 1学时李军锋
第4节声学模型 1学时李军锋
第5节声码器 1学时李军锋
第6节端到端模型 1学时李军锋
第六章语音转换 3学时李军锋
第1节语音转换的内涵与历史
第2节传统语音转换方法
第3节神经网络语音转换
第七章声纹识别 3学时李军锋
第1节声纹识别的历史
第2节声纹识别的主要方法
第3节声纹识别的反攻击方法
第八章情感语音 3学时李军锋
第1节情感的内涵及历史
第2节语音情感特征
第3节语音情感识别方法
第九章语音增强 3学时李军锋
第1节语音降噪
第2节回声消除
第3节语音去混响
第十章前沿专题研讨 4学时李军锋
第1节挑选15名学生进行读书报告讲解（每人讲10分钟，提问和讨论5分钟）

参考书

1、 Speech Recognition Theory and C++ Implementation C. Bechetti 1999年5月 Wiley

课程教师信息

陶建华，清华大学自动化系长聘教授、博士生导师。国家杰出青年基金获得者，国家“万人计划”科技创新领军人才。中国计算机学会会士、常务理事，中国人工智能学会常务理事，中国中文信息学会理事，中国图象图形学会人机交互专委会主任。
李军锋，中国科学院声学研究所研究员，博士生导师；国家自然科学基金委优秀青年基金获得者。研究领域主要包括：语音信号处理、三维音频技术、音频听觉感知等。主持参与973计划项目、863计划项目、国家自然科学基金面上项目、国家自然科学基金重大国际合作项目以及多项横向项目。在本领域国际权威期刊和会议上发表论文100余篇；出版英文专著1部，应邀为4本书撰写章节；授权发明专利10余项。部分研究成果已经应用于多个国家级重大工程、人机语音交互系统和助听器等。