跨模态智能计算及其应用
课程编码:180203085412P2001H
英文名称:Cross-Modal Intelligent Computing and Application
课时:60
学分:3.00
课程属性:专业核心课
主讲教师:柳厅文等
教学目的要求
随着网络中海量多媒体数据(如照片、评论、短视频、音乐等)的快速增长,如何跨越视觉、语言等不同模态数据实现对现实世界更加泛化的分析和理解,对于提升计算机的智能水平至关重要。因此,近年来结合视觉与语言的跨媒体智能分析领域受到了广泛关注,也已经成为各类国际顶级会议的重要主题之一。得益于人工智能、计算机视觉、自然语言处理等技术的发展,跨媒体智能分析技术及其应用取得了长足的进步。课程旨在围绕“视觉、语言、语音相结合的跨模态智能分析及应用”的主题,主要介绍跨模态智能分析技术的相关前沿研究和业界应用,包括跨模态信息检索、视觉问答/对话、指代表达理解、图像/视频描述生成、据身跨模态智能等热点问题,最后介绍跨模态智能在网络安全、公共安全、交通、电商、医疗等领域的应用,旨在让研究生了解跨模态智能分析与理解的理论研究和应用情况,推动跨模态智能在实际应用中发挥作用。
预修课程
机器学习、自然语言处理、计算机视觉
大纲内容
第一章 跨模态智能计算概述 3学时 柳厅文
第1节 跨模态、跨模态智能计算的基本概念
第2节 跨模态智能的核心技术挑战
第3节 跨模态智能研究的发展历史
第4节 跨模态智能的主要研究任务
第二章 单模态内容表征与理解技术 9学时 盛傢伟
第1节 深度学习基础技术概述
第2节 自然语言表征及其理解任务
第3节 计算机视觉表征及其理解任务
第4节 语音表征及其理解任务
第三章 跨模态表征 3学时 盛傢伟
第1节 跨模态融合表征
第2节 跨模态协同表征
第四章 跨模态对齐 3学时 盛傢伟
第1节 跨模态显式对齐
第2节 跨模态隐式对齐
第五章 跨模态推理 3学时 盛傢伟
第1节 跨模态推理的结构建模
第2节 跨模态推理的概念理解
第3节 跨模态推理的知识引入
第六章 跨模态生成 3学时 盛傢伟
第1节 模态变换循环一致性
第2节 跨模态生成模型
第七章 跨模态预训练 3学时 盛傢伟
第1节 跨模态自监督学习
第2节 跨模态单塔预训练模型
第3节 跨模态双塔预训练模型
第八章 跨模态检索 3学时 盛傢伟
第1节 基于协同表示学习的跨模态检索
第2节 基于公共子空间的跨模态检索
第3节 基于隐式关联学习的跨模态检索
第九章 视觉问答 3学时 盛傢伟
第1节 视觉问答基本任务
第2节 基于多模态特征融合的视觉问答
第3节 基于神经模块网络的视觉问答
第4节 基于外部知识的视觉问答
第十章 图像/视频描述生成 3学时 盛傢伟
第1节 图像描述生成基本任务及方法
第2节 视频描述生成基本任务及方法
第十一章 文本到图像生成技术 3学时 盛傢伟
第1节 文本到图像生成任务
第2节 基于生成对抗网络的文本到图像生成
第3节 基于预训练技术的文本到图像生成
第十二章 多模态信息抽取 6学时 柳厅文
第1节 多模态命名实体识别
第2节 多模态关系抽取
第3节 多模态实体链接
第十三章 多模态文档分析 6学时 柳厅文
第1节 Web表格分析
第2节 Web网页分析
第3节 富视觉文档分析
第十四章 跨模态内容理解典型应用 9学时 柳厅文
第1节 信息内容理解在安全领域的应用
第2节 信息内容理解在医疗领域的应用
第3节 信息内容理解在电商领域的应用
参考书
课程教师信息
柳厅文,中国科学院信息工程研究所研究员、博导,中国科学院大学网络空间安全学院岗位教授。主要研究方向为知识图谱、自然语言处理、网络公害治理、开源情报分析等,作为负责人承担国家重点研发计划青年科学家项目、中科院C类先导专项课题、军队预研项目、国家自然科学基金等10余项重要科研任务。担任ACL ARR、COLING等重要国际会议领域主席,以及多个学报的主题编委/青年编委。以第一或通讯作者身份在KDD、WWW、ACL、NeurIPS等CCF-A/B类会议期刊发表论文60余篇,获授权专利20余项,3次获得省部级科技进步奖,指导学生获得中科院院长特别奖、CCKS/CCL技术评测第一名、北京市优秀毕业生等荣誉。
盛傢伟,副研究员,主要研究兴趣为知识融合推理、大模型内容安全应用。总计在CCF-A/B类国际顶级学术会议或期刊发表论文20余篇,带队在全国知识图谱旗舰会议CCKS2021、2022技术评测中两次获第一名及技术创新奖,担任10余个国际顶级学术会议或期刊审稿人,授权或受理专利7项。目前获国家自然科学基金青年基金、中科院特别研究助理项目、博士后国资计划、快手校企合作等多个项目资助,参与重点研发、中科院先导等多个重点项目。