课程大纲

课程大纲

信息检索导论

课程编码:1802030839X2P2003H 英文名称:Introduction to Information Retrieval 课时:50 学分:2.50 课程属性:专业核心课 主讲教师:林政等

教学目的要求
本课程是为网络空间安全、计算机科学与技术、图书情报等相关专业研究生开设的专业核心课。信息检索导论是研究大规模内容的获取、分析、组织和访问的一门学科,也是将自然语言处理、机器学习、数据挖掘等技术综合应用于内容处理的一门学科。通过该课程的学习,一方面学生能够深入全面了解信息检索领域的基本原理、模型和算法,为其今后的相关科研工作打下扎实的基础;另一方面,该课程通过课后练习、阅读大量经典和最新文献,培养学生深入科研的能力,为以后从事智能信息处理、大数据分析处理实际研究或实践工作打下坚实的基础。

预修课程
数据结构、概率论与数理统计

大纲内容
第一章 课程介绍及布尔检索 3学时 付鹏
第1节 课程简介
第2节 布尔检索
第3节 倒排索引简介
第二章 词项词典及倒排记录表 3学时 付鹏
第1节 文档分析及编码转换
第2节 词项集合的确定
第3节 跳表倒排记录合并及短语查询
第三章 词典及容错式检索 3学时 付鹏
第1节 词典搜索的数据结构
第2节 通配符查询
第3节 拼写校正
第四章 索引构建与索引压缩 3学时 付鹏
第1节 基于块的排序索引构建方法
第2节 分布式索引构建方法
第3节 词典压缩与倒排记录表压缩
第五章 向量空间模型 3学时 付鹏
第1节 参数化索引及域索引
第2节 词项频率及权重计算
第3节 向量空间模型
第六章 一个完整搜索系统的评分计算 3学时 付鹏
第1节 快速评分及排序
第2节 信息检索系统的组成
第3节 向量空间模型对查询操作的支持
第七章 信息检索的评价 3学时 林政
第1节 无序检索结果集合的评价
第2节 有序检索结果集合的评价
第3节 相关性判定
第八章 相关反馈及查询扩展 3学时 林政
第1节 相关反馈
第2节 伪相关反馈
第3节 查询扩展
第九章 概率检索模型 3学时 林政
第1节 概率排序原理
第2节 回归模型、BIM模型、BM25模型
第3节 排序学习Learning to Rank
第十章 统计语言建模检索模型 3学时 林政
第1节 语言模型及平滑策略
第2节 统计语言模型
第3节 查询似然模型
第十一章 文本分类及朴素贝叶斯方法 3学时 林政
第1节 中心向量分类器、朴素贝叶斯的两种实现
第2节 特征降维和特征选择
第3节 Transformer
第十二章 基于向量空间模型的文本分类 3学时 林政
第1节 质心分类器和K近邻分类器
第2节 支持向量机
第3节 预训练语言模型BERT
第十三章 文本聚类 3学时 付鹏
第1节 扁平聚类
第2节 层次聚类
第3节 聚类的评价
第十四章 隐性语义索引 3学时 付鹏
第1节 矩阵分解
第2节 语义表示
第3节 隐式语义索引
第十五章 文本智能问答 3学时 林政
第1节 机器阅读理解
第2节 基于检索的知识库问答
第3节 基于逻辑形式的知识库问答
第十六章 多模态问答 3学时 林政
第1节 多模态问答的基础模型
第2节 多模态问答的鲁棒性
第3节 基于开放知识的多模态问答
第十七章 作业点评与总结考试
第1节 作业点评 1学时 付鹏
第2节 闭卷考试 1学时 林政

教材信息
1、 信息检索导论 [美]克里斯托夫·曼宁(ChristopherManning),王斌译 2019年7月 人民邮电出版社

参考书
1、 机器学习 周志华 2016年1月 清华大学出版社

课程教师信息
林政,研究员,博士生导师,主要研究方向为自然语言处理,多模态分析。出版了《文本情感分析》、《情感分析进阶》两部学术专著,在TASLP、ACL、EMNLP、AAAI、IJCAI、WWW、NIPS、CIKM等国内外顶级学术会议和期刊上发表论文50多篇,获得领跑者F5000中国精品科技期刊优秀论文奖。2022年获得军事科学技术进步一等奖。
付鹏,副研究员,主要研究领域是自然语言处理,研究方向是文本语义理解和文本生成。近年来,在NeurIPS、AAAI、IJCAI、ACL、EMNLP、ECAI、TALSP等国际学术会议和期刊上发表学术论文20余篇,主持和参与国家自然科学基金、国家重点研发计划、国家部委重大工程等多个项目。