课程大纲

课程大纲

多媒体分析与理解

课程编码:180206081104P3001H 英文名称:Multimedia Analysis and Understanding 课时:40 学分:2.00 课程属性:专业课 主讲教师:卢汉清等

教学目的要求
本课程面向对多媒体分析与理解感兴趣的学生讲授相关领域基础知识与前沿方法,为有志于该领域研究生的独立研究打下良好素质基础。以课堂讲授为主,同时安排 2 次研讨课讨论目前最新的研究动向,采用编程实现、文献阅读、分组工程等多种作业方式来强化训练学生的综合科研素质。所教授基础知识涉及文本、音频、图像与视频各种模态信息的分析与理解方法,具备全方位、科学性与完整性的知识体系,可培养学生本领域基本理论基础与研究技能。展现目前该领域研究所取得的部分最新研究成果,并每年进行相关内容的及时更新与调整,保证先进性与前沿性,可培养学生灵活、创新的研究素养。

预修课程

大纲内容
第一章 绪论 3学时 卢汉清
第1节 1.1 什么是多媒体数据
第2节 1.2 多媒体技术的应用现状
第3节 1.3 多媒体技术的发展历程
第4节 1.4 多媒体分析与理解研究现状
第5节 1.5 本课程内容体系
第二章 传统多媒体特征提取 3学时 刘静
第1节 2.1 文本特征
第2节 2.2 音频特征
第3节 2.3 图像特征
第4节 2.4 视频特征
第三章 多媒体特征表示学习 3学时 刘静
第1节 3.1 特征选择
第2节 3.2 特征降维
第3节 3.3 特征融合
第四章 基于深度神经网络的特征学习 3学时 刘静
第1节 4.1深度学习发展历程
第2节 4.2 深度学习基础知识
第3节 4.3 典型深度学习模型
第五章 自然语言理解 3学时 刘静
第1节 5.1 自然语言理解概述
第2节 5.2 自然语言理解典型技术
第3节 5.3 自然语言理解重要模型
第六章 视觉语义理解 6学时 刘静
第1节 6.1 语义理解概述
第2节 6.2 图像语义理解
第3节 6.3 视频语义理解
第七章 多模态分析与理解 3学时 刘静
第1节 7.1跨媒体的基本概念
第2节 7.2 跨媒体关联分析
第3节 7.3 多模态预训练
第八章 多媒体信息检索 3学时 卢汉清
第1节 8.1 检索系统基本框架
第2节 8.2基于文本的多媒体检索
第3节 8.3 基于内容的多媒体检索
第4节 8.4 检索中的相关反馈机制
第5节 8.5 多媒体内容索引与排序
第九章 多媒体内容推荐 3学时 卢汉清
第1节 9.1 定制与推荐系统的基本概念
第2节 9.2用户偏好学习
第3节 9.3 媒体内容定制
第4节 9.4 媒体内容推荐
第十章 多媒体领域前沿技术研讨
第1节 10.1 基础方法类前沿技术研讨 3学时 刘静
第2节 10.2 应用扩展类前沿技术研讨 3学时 卢汉清
第十一章 多媒体应用系统实例 4学时 卢汉清
第1节 11.1网络购物检索应用
第2节 11.2 视觉智能监控应用

参考书
1、 网上多媒体信息分析与检索 周志华 2016年1月 清华大学出版社

课程教师信息
首席教授卢汉清,中科院自动化研究所研究员/博导,国科大岗位教授,具有30年以上多媒体分析与理解领域的丰富研究经验,15年以上的教学经验,作为项目负责人曾承担国家973、863、国家基金重点、国际合作等项目,曾获国家自然科学二等奖、教育部自然科学二等奖、中科院自然科学二等奖、文化部科技进步三等奖、吴文俊人工智能科学技术科技进步二等奖、中国图像图形学会科学技术二等奖等。在IEEE TPAMI、IEEE TNNLS、IEEE TIP、IEEE TMM等IEEE/ACM汇刊和ICCV、ECCV、CVPR、AAAI等CCF A类会议上已发表论文500余篇。
主讲教授刘静,中科院自动化所研究员/博导,国科大岗位教授,国家优青获得者。研究方向多模态分析与理解,紫东太初大模型。曾获中国电子学会自然科学一等奖,图像图形学会科学技术二等奖,2022年世界人工智能大会“卓越人工智能引领者奖SAIL”。承担或参与多项国家自然科学基金项目、国家973课题、国家基金重大研究计划、国家重点研发等。已发表高水平学术论文150余篇,谷歌学术引用11000+次,SCI他引次数5000+次,在视觉计算相关领域的多项国际学术竞赛中荣获冠军10+项。