课程大纲

课程大纲

语音信息处理

课程编码:180206081104P3006H 英文名称:Speech Information Processing 课时:40 学分:2.00 课程属性:专业课 主讲教师:陶建华等

教学目的要求
本课程是希望学生能了解本领域研究的历史、现状、趋势和主流技术的理论和方法,掌握语音信号与信息的分析与处理的概念、方法、工具和实验技巧,为进一步学习语音交互技术理论和从事专业研究打下基础。

预修课程
信息论、数字信号处理或离散时间序列处理、机器学习

大纲内容
第一章 语音信息处理概述 3学时 陶建华
第1节 内涵与外延
第2节 研究历史
第3节 主要方法
第二章 语音信号处理基础知识 3学时 陶建华
第1节 基础声学概念
第2节 主流声学特征
第3节 线性预测系数与基频提取
第三章 算法基础 3学时 陶建华
第1节 高斯模型与决策树
第2节 有限状态自动机与马尔科夫决策
第3节 神经网络基础
第四章 语音识别 9学时 李军锋
第1节 语音识别的历史
第2节 语音识别的主要方法
第3节 声学模型(隐马尔科夫模型)
第4节 声学模型(混合高斯模型)
第5节 声学模型(神经网络模型)
第6节 声学模型(神经网络模型)
第7节 语言模型与解码
第8节 解码方法
第9节 端到端语音识别
第五章 语音合成
第1节 语音合成研究的历史 1学时 李军锋
第2节 语音合成的主要方法 1学时 李军锋
第3节 文本分析 1学时 李军锋
第4节 声学模型 1学时 李军锋
第5节 声码器 1学时 李军锋
第6节 端到端模型 1学时 李军锋
第六章 语音转换 3学时 李军锋
第1节 语音转换的内涵与历史
第2节 传统语音转换方法
第3节 神经网络语音转换
第七章 声纹识别 3学时 李军锋
第1节 声纹识别的历史
第2节 声纹识别的主要方法
第3节 声纹识别的反攻击方法
第八章 情感语音 3学时 李军锋
第1节 情感的内涵及历史
第2节 语音情感特征
第3节 语音情感识别方法
第九章 语音增强 3学时 李军锋
第1节 语音降噪
第2节 回声消除
第3节 语音去混响
第十章 前沿专题研讨 4学时 李军锋
第1节 挑选15名学生进行读书报告讲解(每人讲10分钟,提问和讨论5分钟)

参考书
1、 Speech Recognition Theory and C++ Implementation C. Bechetti 1999年5月 Wiley

课程教师信息
陶建华,清华大学自动化系 长聘教授 、博士生导师。国家杰出青年基金获得者 ,国家“万人计划”科技创新领军人才 。中国计算机学会会士、常务理事 ,中国人工智能学会常务理事,中国中文信息学会理事 ,中国图象图形学会人机交互专委会主任。
李军锋,中国科学院声学研究所研究员,博士生导师;国家自然科学基金委优秀青年基金获得者。研究领域主要包括:语音信号处理、三维音频技术、音频听觉感知等。主持参与973计划项目、863计划项目、国家自然科学基金面上项目、国家自然科学基金重大国际合作项目以及多项横向项目。在本领域国际权威期刊和会议上发表论文100余篇;出版英文专著1部,应邀为4本书撰写章节;授权发明专利10余项。部分研究成果已经应用于多个国家级重大工程、人机语音交互系统和助听器等。