课程大纲

课程大纲

语音信息处理

课程编码:180206081104P3006H 英文名称:Speech Information Processing 课时:40 学分:2.00 课程属性:专业课 主讲教师:刘斌

教学目的要求
本课程是希望学生能了解本领域研究的历史、现状、趋势和主流技术的理论和方法,掌握语音信号与信息的分析与处理的概念、方法、工具和实验技巧,为进一步学习语音交互技术理论和从事专业研究打下基础。

预修课程
信息论、数字信号处理或离散时间序列处理、机器学习

大纲内容
第一章 语音信息处理概述 3.0学时 刘斌
第1节 内涵与外延
第2节 研究历史
第3节 主要方法
第二章 语音信号处理基础知识 3.0学时 刘斌
第1节 基础声学概念
第2节 主流声学特征
第3节 线性预测系数与基频提取
第三章 算法基础 3.0学时 刘斌
第1节 高斯模型与决策树
第2节 有限状态自动机与马尔科夫决策
第3节 神经网络基础
第四章 语音识别 9.0学时 刘斌
第1节 语音识别的历史
第2节 语音识别的主要方法
第3节 声学模型(隐马尔科夫模型)
第4节 声学模型(混合高斯模型)
第5节 声学模型(神经网络模型)
第6节 声学模型(神经网络模型)
第7节 语言模型与解码
第8节 解码方法
第9节 端到端语音识别
第五章 语音合成 6.0学时 刘斌
第1节 语音合成研究的历史
第2节 语音合成的主要方法
第3节 文本分析
第4节 声学模型
第5节 声码器
第6节 端到端模型
第六章 语音转换 3.0学时 刘斌
第1节 语音转换的内涵与历史
第2节 传统语音转换方法
第3节 神经网络语音转换
第七章 声纹识别 3.0学时 刘斌
第1节 声纹识别的历史
第2节 声纹识别的主要方法
第3节 声纹识别的反攻击方法
第八章 情感语音 3.0学时 刘斌
第1节 情感的内涵及历史
第2节 语音情感特征
第3节 语音情感识别方法
第九章 语音增强 3.0学时 刘斌
第1节 语音降噪
第2节 回声消除
第3节 语音去混响
第十章 前沿专题研讨 4.0学时 刘斌
第1节 挑选15名学生进行读书报告讲解(每人讲10分钟,提问和讨论5分钟)

参考书
1、 Speech Recognition Theory and C++ Implementation C. Bechetti 1999年5月 Wiley

课程教师信息
刘斌,中国科学院自动化研究所副研究员。主要从事情感计算、语音信号处理、人机交互等研究。2015年毕业于中国科学院自动化研究所,在中国科学院大学获得博士学位,博士毕业后加入中国科学院自动化研究所至今。主持国家自然科学基金面上项目、中科院重点部署项目、国家重点研发计划项目子课题等多个国家重大项目;在国际顶级期刊和会议上发表论文近60篇,授权发明专利近30项;获得2020年到2022年多模态维度情感识别竞赛冠军。