课程大纲

课程大纲

多媒体技术

课程编码:085400M05010T 英文名称:Multimedia Technology 课时:40 学分:2.00 课程属性:专业普及课 主讲教师:曹娟等

教学目的要求
本课程为计算机专业硕士研究生的专业普及课。本课程系统地介绍多媒体的基本概念、理论基础及其发展方向,采取理论与实践相结合的教学方式,以培养研究生独立研究与开发多媒体的能力为主。要求学生:1. 掌握多媒体计算机技术的基础和基本技能。2.了解开发多媒体应用的程序设计或著作工具使用等有关技术。3.了解多媒体领域的研究热点与最新进展。

预修课程
机器学习、数据挖掘、自然语言处理

大纲内容
第一章 综述 3学时 曹娟
第1节 多媒体技术概念与应用
第2节 基本组成和主要研究内容
第3节 发展历程和趋势
第二章 视觉样例检索技术(手工特征) 3学时 曹娟
第1节 全局手工特征提取
第2节 局部手工特征提取
第3节 手工特征与深度学习特征的联系
第三章 多媒体技术基础 3学时 苏荔
第1节 多媒体信号获取
第2节 多媒体信号数字化
第3节 多媒体数据表示,常见文件格式,
第4节 质量评估方法和常用可计算模型
第四章 多媒体数据压缩 6学时 苏荔
第1节 数据压缩基本概念
第2节 图像与视频数据压缩技术:预测编码、变换编码、量化、熵编码
第3节 主要国际图像与视频压缩标准和技术
第4节 音频数据压缩技术
第五章 视频语义识别(深度学习) 3学时 曹娟
第1节 深度学习概述
第2节 卷积神经网络基础和代表性网络结构
第3节 循环神经网络基础和网络结构改进
第六章 多模态融合 3学时 曹娟
第1节 多媒体计算的背景和挑战
第2节 决策融合方法
第3节 特征融合方法
第4节 代表应用分析
第七章 迁移学习 3学时 曹娟
第1节 迁移学习基础知识
第2节 基于实例、特征、模型、关系的方法与分析
第八章 视觉模型可视化 3学时 曹娟
第1节 可视化的必要性和意义
第2节 可视化特征图、卷积核、特征空间的代表性方法
第3节 应用案例分析
第九章 模型压缩 3学时 曹娟
第1节 模型压缩的研究背景
第2节 网络剪枝
第3节 知识蒸馏
第4节 参数量化
第5节 网络结构设计
第6节 动态计算
第十章 应用实例和研究趋势 3学时 曹娟
第1节 真伪新闻鉴别
第2节 伪造图片检测
第十一章 课程设计答辩 7学时 曹娟
第1节 课程设计答辩
第2节 技术点评

参考书
1、 数据压缩技术及其应用 高文 2009年1月 电子工业出版社

课程教师信息
曹娟,博士,中科院计算所博士生导师,中国科学院大学岗位教授。计算所跨媒体计算课题组负责人。中科院“青年创新促进会”人才计划首批成员,中科院计算所“学术百星计划”成员。2008年博士毕业于中科院计算所,主要研究方向为大规模社会多媒体内容挖掘与应用。2009年在香港城市大学VIREO视频检索研究组进行三个月的合作研究;2010年在美国哥伦比亚大学DVMM数字视频与多媒体挖掘实验室进行一年的合作研究。曾获得2008和2009TRECVID国际视频检索评测第一名和第二名, 2015MediaEval国际虚假图片检测评测第一名。在MM,SIGIR,WWW,TMM,TCSVT等顶级国际会议和期刊上发表论文50余篇。承担了科技部和基金委的多项重点项目,获得2014年度北京市科学技术奖一等奖和2012年度中国计算机学会科学技术奖,相关成果已应用在新华社互联网新闻认证系统和新华百科知识库系统中。
汪旦丁,中科院计算所前瞻实验室跨媒体计算课题组特别研究助理。2016年本科毕业于北京航空航天大学计算机学院,2021年于新加坡国立大学计算机学院获得博士学位,同年进入中科院计算。主要研究方向是以人为中心的可解释 AI ,从机器学习与人机交互两个维度出发,专注于机器学习解释对用户决策的辅助与提升,通过提升模型可解释性提高机器学习的可用性、可信度、可控性。担任CHI,IUI,Artificial Intelligence等国际会议期刊审稿人。