多模态人工智能大模型
课程编码:180206081100P0002H
英文名称:Large Multimodal Foundation Model for Artificial Intelligence
课时:20
学分:1.00
课程属性:高级强化课
主讲教师:王金桥
教学目的要求
本课程主要介绍多模态人工智能大模型的基本概念、基本理论和方法、关键算法原理以及典型应用情况,注重理论与实践紧密结合,通过实例讲述如何将所学知识运用到实际应用之中,为学生从事计算机相关领域的科研工作奠定基础。
通过本课程的学习,要求学生:通过对各类典型算法的学习,理解并掌握算法设计的基本技术;掌握多模态人工智能大模型的基本理论和方法;鼓励学生运用算法知识解决各自学科的实际问题,培养独立科研和理论联系实际的能力。
预修课程
计算机视觉或自然语言处理
大纲内容
第一章 绪论 1.0学时 王金桥
第1节 引言
第2节 基本术语
第3节 发展历程
第4节 应用现状
第二章 基础知识 1.0学时 王金桥
第1节 传统机器学习
第2节 深度学习
第3节 优化算法
第4节 领域知识
第三章 多模态学习 2.0学时 王金桥
第1节 模态表示
第2节 多模态融合
第3节 跨模态对齐
第4节 多模态协同学习
第四章 多模态训练 2.0学时 王金桥
第1节 有监督学习
第2节 自监督学习
第3节 语言大模型
第五章 多模态大模型 3.0学时 王金桥
第1节 多模态大模型
第2节 大模型推理方法
第3节 模型微调
第4节 分布式训练
第六章 多模态理解 2.0学时 王金桥
第1节 图像描述
第2节 视频描述
第3节 视觉问答
第七章 多模态检索 2.0学时 王金桥
第1节 多模态检索
第2节 跨模态检索
第3节 交互式检索
第八章 多模态生成 2.0学时 王金桥
第1节 图像生成
第2节 视频生成
第3节 语音生成
第九章 多模态推理 2.0学时 王金桥
第1节 多模态知识图谱
第2节 多模态推理
第十章 多模态交互 1.0学时 王金桥
第1节 可穿戴交互
第2节 人机对话交互
第3节 声场感知交互
第十一章 多模态模型安全与可信 1.0学时 王金桥
第1节 模型的可解释性
第2节 人工智能伦理规范
第十二章 总结与展望 1.0学时 王金桥
第1节 世界模型和未来展望
参考书
1、
《多模态大模型:技术原理与实战》
彭勇、彭旋
2023年11月
电子工业出版社
课程教师信息
王金桥,博士生导师,中国科学院自动化研究所紫东太初大模型中心常务副主任,研究员,武汉人工智能研究院院长,中国科学院大学人工智能学院岗位教授,多模态人工智能产业联盟秘书长,主要从事多模态大模型、视频分析与检索、大规模目标识别等方面的研究。共发表包括IEEE国际权威期刊和顶级会议论文300余篇,国际期刊50余篇,国际会议220余篇。完成国家标准提案3项,发明专利36项,10项国际视觉算法竞赛冠军,新时代中国经济创新人物,中科院第四届科苑名匠,北京市科技进步一等奖,世界人工智能大会SAIL奖,吴文俊人工智能科技进步二等奖,中国发明创新银奖。