课程大纲

课程大纲

现代信息检索

课程编码:081203M05004H 英文名称:Modern Information Retrieval 课时:40 学分:2.00 课程属性:专业普及课 主讲教师:何苯等

教学目的要求
本课程为计算机科学与技术学科研究生的专业普及课。本课程主要以互联网内容应用为背景讲授和讨论现代信息检索领域的主要思想和关键技术。主要内容有检索模型、检索评价、相关反馈、查询扩展、信息的组织和索引、文本处理、文本分类与聚类、信息过滤、WEB检索等。 通过本课程的学习,希望学生能了解信息检索的基本思想和概念,了解信息检索相关的最新研究成果,培养学生在信息检索相关领域的研究能力和在互联网内容应用上的知识运用能力。

预修课程
概率统计,算法与数据结构

大纲内容
第一章 课程概述 2学时 何苯
第1节 什么是信息检索
第2节 课程内容概述
第二章 布尔检索 2学时 何苯
第1节 倒排索引
第2节 布尔查询的处理
第三章 索引构建 2学时 何苯
第1节 BSBI算法
第2节 SPIMI算法
第四章 索引压缩 2学时 何苯
第1节 词典压缩
第2节 倒排记录表压缩
第五章 通配查询与拼写矫正 2学时 何苯
第1节 通配查询
第2节 拼写矫正
第六章 向量空间模型 2学时 何苯
第1节 倒排索引
第2节 布尔查询的处理
第七章 概率检索模型 3学时 何苯
第1节 概率排序原理
第2节 BIM模型
第3节 BM25排序公式
第八章 基于语言模型的检索模型 2学时 何苯
第1节 语言模型基础
第2节 基于语言模型的检索建模
第九章 检索系统评价 3学时 何苯
第1节 检索评价指标
第2节 TREC检索评测会议
第十章 完整搜索系统中的评分计算 2学时 何苯
第1节 结果排序的实现
第2节 排序加速方法
第十一章 查询扩展与相关反馈 2学时 何苯
第1节 相关反馈基本概念
第2节 查询扩展
第十二章 文本分类 I 2学时 何苯
第1节 文本分类概念
第2节 朴素贝叶斯
第3节 向量空间分类
第十三章 支持向量机和排序学习 2学时 何苯
第1节 支持向量机
第2节 排序学习
第十四章 决策树 2学时 何苯
第1节 决策树
第2节 面向文档的机器学习
第十五章 分布式词项表示 2学时 何苯
第1节 Word2vec算法
第2节 基于词嵌入表示的信息检索模型
第十六章 基于深度神经网络的检索模型 3学时 何苯
第1节 深度神经网络基础
第2节 深度检索模型
第十七章 网络搜索 2学时 何苯
第1节 互联网广告
第2节 重复检测
第十八章 网络爬虫 1学时 何苯
第1节 网络爬虫基础
第2节 真实世界的数据爬取
第十九章 链接分析 2学时 何苯
第1节 Pagerank算法
第2节 HITS算法

教材信息
1、 信息检索导论 王斌 2010.8 人民邮电出版社

参考书
1、 现代信息检索 黄萱菁 2012.10 机械工业出版社

课程教师信息
何苯,1979年出生,2007年获得博士学位。中国计算机学会学员,中文信息学会会员,ACM会员,IEEE会员。长期从事自然语言处理方向的研究。在相关领域的学术会议和期刊发表了60多篇论文和著作,其中以一作或通讯作者发表在中国计算机学会(CCF)推荐A类期刊和会议全文4篇,B类期刊和会议全文15篇,Google Scholar引用2600余次。曾应邀担任ACM CIKM 2015程序委员会资深委员(Senior PC)。国际学术期刊IP&M编委。曾主持国家自然科学基金等多个科研项目。