课程大纲

课程大纲

现代信息检索

课程编码:180086081203P3003H 英文名称:Morden Information Retrival 课时:40 学分:2.00 课程属性:专业课 主讲教师:何苯

教学目的要求
本课程是算机科学与技术学科研究生的专业普及课。本课程主要以互联网内容应用为背景讲授和讨论现代信息检索领域的主要思想和关键技术。主要内容有索引构建、检索模型、检索评价、文本分类、文本表示、神经检索模型、 WEB 检索等。 通过本课程的学习,希望学生能了解信息检索的基本思想和概念,了解信息检索相关的最新研究成果,培养学生在信息检索相关领域的研究能力和在互联网内容应用上的知识运用能力。

预修课程
概率统计,算法与数据结构

大纲内容
第一章 课程引论 2.0学时 何苯
第1节 什么是信息检索?
第2节 课程内容概述
第二章 布尔检索 1.5学时 何苯
第1节 倒排索引
第2节 布尔查询优化
第三章 索引构建 1.5学时 何苯
第1节 BSBI算法
第2节 SPIMI算法
第四章 索引压缩 1.5学时 何苯
第1节 词典压缩
第2节 倒排索引压缩
第五章 容错索引与拼写矫正 2.0学时 何苯
第1节 容错索引
第2节 拼写矫正
第六章 检索系统评价 3.0学时 何苯
第1节 检索评价指标
第2节 检索实验设计
第七章 向量空间模型 2.0学时 何苯
第1节 TF-IDF
第2节 向量空间模型
第八章 相关反馈 1.5学时 何苯
第1节 相关反馈基本原理
第2节 Rocchio算法
第九章 概率检索模型 2.5学时 何苯
第1节 BIM模型
第2节 BM25评分公式
第十章 基于(一元)语言模型的检索建模 2.0学时 何苯
第1节 一元语言模型
第2节 基于语言模型的检索建模
第十一章 文本分类-1 2.5学时 何苯
第1节 文本分类基本概念
第2节 向量空间分类
第十二章 SVM与学习排序 2.0学时 何苯
第1节 SVM
第2节 学习排序
第十三章 决策树分类 1.5学时 何苯
第1节 决策树
第2节 集成
第十四章 分布式词项表示 2.0学时 何苯
第1节 Word2vec
第2节 基于分布式词嵌入的检索
第十五章 基于深度神经网络的检索模型 2.0学时 何苯
第1节 深度神经网络基础
第2节 基于深度神经网络的检索模型
第十六章 基于预训练语言模型的信息检索 2.0学时 何苯
第1节 预训练语言模型
第2节 交互编码检索模型
第3节 密集向量检索
第4节 可微分索引
第十七章 神经检索模型鲁棒性 2.0学时 何苯
第1节 面向文本扰动的鲁棒性
第2节 模型攻击与防御
第十八章 互联网搜索 1.5学时 何苯
第1节 Web搜索
第2节 互联网广告
第3节 重复检测
第十九章 数据爬取 0.5学时 何苯
第1节 网络爬虫
第二十章 链接分析 1.0学时 何苯
第1节 链接服务器
第2节 Pagerank与HITS算法
第二十一章 IR实验工具 2.0学时 何苯
第1节 Pyserini操作简介
第2节 作业讲解、答疑
第二十二章 随堂考试 2.0学时 何苯
第1节 随堂笔试

教材信息
1、 信息检索导论 曼宁 拉哈万 舒策 著,王斌 译 2010年10月 人民邮电出版社

参考书
1、 现代信息检索 Ricardo Baeza-Yates / Berthier Ribeiro-Neto 2012年10月 机械工业出版社

课程教师信息
何苯,国科大计算机学院教授,博士生导师。中科院软件所客座研究员。研究方向:自然语言处理,信息检索