课程大纲

课程大纲

信息检索导论

课程编码:0839X2M04002H 英文名称:Introduction to Information Retrieval 课时:60 学分:3.00 课程属性:专业核心课 主讲教师:林政等

教学目的要求
本课程是为网络空间安全、计算机、图书情报等相关专业研究生开设的专业核心课。信息检索是研究大规模内容的获取、分析、组织和访问的一门学科,也是将自然语言处理、机器学习、数据挖掘等技术综合应用于内容处理的一门学科。信息检索技术和其他学科领域相结合,是目前学科发展的趋势。通过该课程的学习,一方面学生能够深入全面了解信息检索领域的基本原理、模型和算法,为其今后的相关科研工作打下扎实的基础;另一方面,该课程通过课后练习、阅读大量经典和最新文献,培养学生深入科研的能力,为以后从事0839X2、大数据分析处理实际研究或实践工作打下坚实的基础。

预修课程
《算法和数据结构》和《概率统计》

大纲内容
第一章 课程介绍及布尔检索 3学时 付鹏
第1节 课程介绍
第2节 为什么要学习信息检索 0.5学时
第3节 课程情况 0.5学时
第4节 信息检索概述 0.5学时
第5节 倒排索引 1学时
第6节 布尔查询的处理 0.5学时
第二章 词项词典及倒排记录表 3学时 付鹏
第1节 概述
第2节 文档与词项 1学时
第3节 跳表指针 1学时
第4节 短语查询 1学时
第三章 词典及容错式检索 3学时 付鹏
第1节 词典
第2节 通配查询 1学时
第3节 编辑距离 1学时
第4节 拼写校正 1学时
第四章 索引构建 3学时 付鹏
第1节 简介
第2节 BSBI算法 0.5学时
第3节 SPIMI算法 0.5学时
第4节 分布式索引构建 1学时
第5节 动态索引构建 1学时
第五章 索引压缩 3学时 付鹏
第1节 压缩
第2节 词项统计量 1学时
第3节 词典压缩 1学时
第4节 倒排记录表压缩 1学时
第六章 向量空间模型 3学时 付鹏
第1节 排序式检索
第2节 词项频率 0.5学时
第3节 TFIDF权重计算 0.5学时
第4节 向量空间模型 1学时
第5节 布尔模型的扩展 1学时
第七章 一个完整的搜索系统 3学时 林政
第1节 结果排序的动机
第2节 再论相似度 1学时
第3节 结果排序的实现 1学时
第4节 完整的搜索系统 1学时
第八章 信息检索的评价 3学时 林政
第1节 有关检索评价
第2节 评价指标 1学时
第3节 相关评测 1学时
第4节 结果摘要 1学时
第九章 相关反馈及查询扩展 3学时 林政
第1节 概述
第2节 相关反馈原理、类型、举例 1学时
第3节 rocchio算法及几何原理 1学时
第4节 四种查询扩展方法 1学时
第十章 概率检索模型 3学时 林政
第1节 概述
第2节 概率统计知识 1学时
第3节 逻辑回归模型 1学时
第4节 BIM模型、BM25模型 1学时
第十一章 统计语言建模检索模型 3学时 林政
第1节 概述
第2节 语言模型 1学时
第3节 基于统计建模的IR模型 1学时
第4节 SLMIR模型 1学时
第十二章 文本分类及朴素贝叶斯方法 3学时 林政
第1节 文本分类概述
第2节 朴素贝叶斯分类器 1.5学时
第3节 朴素贝叶斯理论 1.5学时
第十三章 基于向量空间模型的文本分类 3学时 林政
第1节 概述
第2节 特征选择 1学时
第3节 质心分类器和KNN分类器 1学时
第4节 线性分类器和多类情况 1学时
第十四章 支持向量机及文档机器学习 3学时 林政
第1节 概述
第2节 支持向量机 1学时
第3节 文本分类进阶 1学时
第4节 排序学习 1学时
第十五章 聚类基础算法 3学时 古晓艳
第1节 概述
第2节 K-均值聚类 1学时
第3节 单连接及全连接聚类 1学时
第4节 组平均及质心聚类 1学时
第十六章 聚类在信息检索的应用 3学时 古晓艳
第1节 概述
第2节 聚类评价 1学时
第3节 簇标签生成 1学时
第4节 深度聚类模型 1学时
第十七章 矩阵分解及隐性语义索引 3学时 古晓艳
第1节 概述
第2节 线性代数基础 1学时
第3节 SVD分解 1学时
第4节 LSI 1学时
第十八章 Web搜索基础 3学时 古晓艳
第1节 概述
第2节 WEB特性 1学时
第3节 搜索广告 1学时
第4节 网页近似重复判别 1学时
第十九章 Web采集及索引 3学时 古晓艳
第1节 概述
第2节 网络爬虫 1学时
第3节 单机采集器 1学时
第4节 分布式采集器 1学时
第二十章 链接分析 3学时 古晓艳
第1节 概述
第2节 WEB图结构 1学时
第3节 PageRank算法 1学时
第4节 HITS算法 1学时

参考书
1、 现代信息检索(原书第二版) 黄萱菁 张奇 邱锡鹏 译 2012年10月 机械工业出版社

课程教师信息
林政,中科院信工所副研究员,主要研究领域是自然语言处理、深度学习,在TASLP、ACL、 EMNLP 、AAAI、IJCAI、WWW、CIKM、WSDM等发表学术论文近50篇;出版学术专著一部;2018、2019连续两年获得全国军事智能-机器阅读挑战赛第一名;主持国家自然科学基金、国家重点研发计划课题等多个项目。

古晓艳,中科院信工所高级工程师,主要研究领域是大数据存储处理、社交网络分析,在计算机学报、AAAI、CIKM等国内外期刊和会议上发表论文10余篇。主持和参与项目10余项,主要包括国家科技支撑计划、国家重点研发计划、国家242信息安全计划、部委重大工程项目等。培养、指导研究生6人。

付鹏,中科院信工所副研究员,主要研究领域是自然语言处理,在AAAI、IJCAI、ACL、EMNLP、ECAI等发表学术论文近20篇;2018、2019连续两年获得全国军事智能-机器阅读挑战赛第一名;主持国家自然科学基金、国家重点研发计划子课题等多个项目。