课程大纲

课程大纲

语音信号处理

课程编码:081002M04004H 英文名称:Speech signal processing 课时:50 学分:3.00 课程属性:专业核心课 主讲教师:李军锋

教学目的要求
本课程为电子信息学科研究生的学科基础课。本课程以数字信号处理和信号与线性系统为基础,重点讲述面向语音信号处理的基础理论和方法及应用,包括:语音生成与听觉感知、语音信号分析基础理论与方法、语音信号处理的典型应用(语音识别、语音增强、声源定位等)内容。

预修课程
数字信号处理、信号与线性系统

大纲内容
第一章 课程介绍 3.0学时
第1节 概述与发展
第二章 语音生成与听觉感知 3.0学时
第1节 语音简介
第2节 语音生成
第3节 语音感知
第三章 语音信号短时分析方法 3.0学时
第1节 短时分析的必要性
第2节 短时分析
第3节 常用短时分析技术
第四章 语音信号线性预测 3.0学时
第1节 线性预测的基本原理
第2节 线性预测和语音信号模型的关系
第3节 线性预测方程组的解法
第4节 模型增益G的确定
第5节 线谱对分析法
第6节 线谱对线性预测的几种推演参数分析法
第7节 线性预测分析的频域解释
第五章 语音增强原理与应用 3.0学时
第1节 语音增强研究的背景和意义
第2节 语音增强的原理和方法
第3节 语音增强技术新进展
第六章 多源语音信号分离 3.0学时
第1节 语音分离训练目标
第2节 语音特征
第3节 语音分离增强算法
第七章 多源语音定位 3.0学时
第1节 多源语音定位的背景和意义
第2节 多源语音定位的原理和方法
第3节 多源语音定位技术新进展
第八章 三维音频原理与应用 3.0学时
第1节 三维音频基础
第2节 三维音频重放技术
第3节 三维音频基础理论与方法
第4节 三维音频技术的应用
第九章 语音活动性检测方法 3.0学时
第1节 语音活动性检测的原理
第2节 基于短时声学特征的方法
第3节 基于能量特征与统计模型的方法
第4节 基于多维特征与机器学习的方法
第十章 深度神经网络在语音处理中的应用 3.0学时
第1节 深度学习发展历程
第2节 深度神经网络的基本概念
第3节 常见的深度神经网络结构
第4节 基于深度神经网络的语音识别框架
第5节 当前研究中的若干热点方法
第十一章 语音识别基础原理及应用 3.0学时
第1节 语音识别的背景和意义
第2节 语音识别的原理和方法
第3节 语音识别技术新进展
第十二章 语音合成技术 3.0学时
第1节 语音合成系统基本原理
第2节 语音合成拼接合成方法
第3节 基于HMM的参数合成方法
第4节 语音合成效果评测
第十三章 鲁棒语音识别 3.0学时
第1节 影响语音识别性能的环境变化因素
第2节 噪声环境下的鲁棒语音识别技术
第3节 变异语音识别方法
第4节 自适应技术
第十四章 说话人识别与语种识别 3.0学时
第1节 说话人识别原理和系统
第2节 系统鲁棒性问题
第3节 语种识别原理和系统
第十五章 复习与答疑 5.0学时
第1节 复习与答疑
第十六章 考试 3.0学时
第1节 考试

参考书
1、

课程教师信息
李军锋,中国科学院声学研究所研究员,博士生导师;国家自然科学基金委优秀青年基金获得者。研究领域主要包括:语音信号处理、三维音频技术、音频听觉感知等。主持参与973计划项目、863计划项目、国家自然科学基金面上项目、国家自然科学基金重大国际合作项目以及多项横向项目。在本领域国际权威期刊和会议上发表论文100余篇;出版英文专著1部,应邀为4本书撰写章节;授权发明专利10余项。部分研究成果已经应用于多个国家级重大工程、人机语音交互系统和助听器等。