课程大纲-教务系统

课程大纲

语音信号处理

课程编码：081002M04004H 英文名称：Speech signal processing 课时：50 学分：3.00 课程属性：专业核心课 主讲教师：李军锋

教学目的要求

本课程为电子信息学科研究生的学科基础课。本课程以数字信号处理和信号与线性系统为基础，重点讲述面向语音信号处理的基础理论和方法及应用，包括：语音生成与听觉感知、语音信号分析基础理论与方法、语音信号处理的典型应用（语音识别、语音增强、声源定位等）内容。

预修课程

数字信号处理、信号与线性系统

大纲内容

第一章课程介绍 3.0学时
第1节概述与发展
第二章语音生成与听觉感知 3.0学时
第1节语音简介
第2节语音生成
第3节语音感知
第三章语音信号短时分析方法 3.0学时
第1节短时分析的必要性
第2节短时分析
第3节常用短时分析技术
第四章语音信号线性预测 3.0学时
第1节线性预测的基本原理
第2节线性预测和语音信号模型的关系
第3节线性预测方程组的解法
第4节模型增益G的确定
第5节线谱对分析法
第6节线谱对线性预测的几种推演参数分析法
第7节线性预测分析的频域解释
第五章语音增强原理与应用 3.0学时
第1节语音增强研究的背景和意义
第2节语音增强的原理和方法
第3节语音增强技术新进展
第六章多源语音信号分离 3.0学时
第1节语音分离训练目标
第2节语音特征
第3节语音分离增强算法
第七章多源语音定位 3.0学时
第1节多源语音定位的背景和意义
第2节多源语音定位的原理和方法
第3节多源语音定位技术新进展
第八章三维音频原理与应用 3.0学时
第1节三维音频基础
第2节三维音频重放技术
第3节三维音频基础理论与方法
第4节三维音频技术的应用
第九章语音活动性检测方法 3.0学时
第1节语音活动性检测的原理
第2节基于短时声学特征的方法
第3节基于能量特征与统计模型的方法
第4节基于多维特征与机器学习的方法
第十章深度神经网络在语音处理中的应用 3.0学时
第1节深度学习发展历程
第2节深度神经网络的基本概念
第3节常见的深度神经网络结构
第4节基于深度神经网络的语音识别框架
第5节当前研究中的若干热点方法
第十一章语音识别基础原理及应用 3.0学时
第1节语音识别的背景和意义
第2节语音识别的原理和方法
第3节语音识别技术新进展
第十二章语音合成技术 3.0学时
第1节语音合成系统基本原理
第2节语音合成拼接合成方法
第3节基于HMM的参数合成方法
第4节语音合成效果评测
第十三章鲁棒语音识别 3.0学时
第1节影响语音识别性能的环境变化因素
第2节噪声环境下的鲁棒语音识别技术
第3节变异语音识别方法
第4节自适应技术
第十四章说话人识别与语种识别 3.0学时
第1节说话人识别原理和系统
第2节系统鲁棒性问题
第3节语种识别原理和系统
第十五章复习与答疑 5.0学时
第1节复习与答疑
第十六章考试 3.0学时
第1节考试

参考书

1、无无无无

课程教师信息

李军锋，中国科学院声学研究所研究员，博士生导师；国家自然科学基金委优秀青年基金获得者。研究领域主要包括：语音信号处理、三维音频技术、音频听觉感知等。主持参与973计划项目、863计划项目、国家自然科学基金面上项目、国家自然科学基金重大国际合作项目以及多项横向项目。在本领域国际权威期刊和会议上发表论文100余篇；出版英文专著1部，应邀为4本书撰写章节；授权发明专利10余项。部分研究成果已经应用于多个国家级重大工程、人机语音交互系统和助听器等。