课程大纲

课程大纲

智能信息检索

课程编码:480150081202D3002 英文名称:An Introduction to Intelligent Information Retrieval 课时:40 学分:2.00 课程属性:专业课 主讲教师:孙乐等

教学目的要求
本课程旨在帮助学生了解并掌握智能信息检索的基本原理、技术与方法,培养学生在解决实际问题中应用信息检索的能力。通过本课程的学习,学生应能:
? 熟悉信息检索领域的基本概念、原理和技术;
? 掌握常用的信息检索算法及其优缺点;
? 了解信息检索系统的设计与实现;
? 能够运用所学知识解决实际信息检索问题。

预修课程
计算机科学基础
数据结构与算法
计算机网络与互联网技术

大纲内容
第一章 信息检索基础
第1节 第一节 信息检索概述:定义、任务、类型及发展历程 2.0学时
第2节 第二节 信息检索模型:布尔模型、向量空间模型、概率模型等 2.0学时
第3节 第三节 信息检索评价:查准率、查全率、F值等评价指标 2.0学时
第二章 文本表示与预处理
第1节 第一节 文本表示方法:词袋模型、TF-IDF、词嵌入等 2.0学时
第2节 第二节 文本预处理技术:分词、词干提取、去停用词等 2.0学时
第3节 第三节 文本相似度计算:欧氏距离、余弦相似度、Jaccard系数等 2.0学时
第三章 索引构建与检索优化
第1节 第一节 倒排索引:原理、构建与压缩 2.0学时
第2节 第二节 分布式信息检索:分布式索引、检索策略与算法 2.0学时
第3节 第三节 查询扩展与优化:相关反馈、查询重写等 2.0学时
第四章 搜索引擎原理与实现
第1节 第一节 网络爬虫:原理、策略与实现 2.0学时
第2节 第二节 页面排名算法:PageRank、HITS等 2.0学时
第3节 第三节 搜索引擎架构:功能模块与实现技术 2.0学时
第五章 智能信息检索技术
第1节 第一节 机器学习在信息检索中的应用:分类、聚类、排序等 2.0学时
第2节 第二节 自然语言处理技术在信息检索中的应用:实体识别、关键词抽取等 2.0学时
第3节 第三节 推荐系统与个性化搜索:协同过滤、基于内容的推荐等 2.0学时
第六章 多媒体信息检索
第1节 第一节 图像信息检索 2.0学时
第2节 第二节 音频信息检索 2.0学时
第3节 第三节 视频信息检索 2.0学时
第七章 实践与案例分析
第1节 第一节 信息检索系统设计与实现:需求分析、技术选型等 2.0学时
第2节 第二节 案例分析:主流搜索引擎、企业级搜索、垂直搜索等 2.0学时

教材信息
1、 信息检索导论 Christopher D. Manning、Prabhakar Raghavan、Hinrich Schütze,王斌译 2010 人民邮电出版社

参考书
1、 自然语言处理综述 作者:Daniel Jurafsky、James H. Martin,冯志伟 孙乐 译 2018 电子工业出版社

课程教师信息
本课程由中国科学院软件研究所中文信息处理实验室孙乐研究员、林鸿宇副研究员和陆垚杰副研究员联合授课。授课团队长期深耕智能信息检索与大语言模型研究,在结构化信息理解、复杂语义建模以及检索系统建模与工程实践方面具有系统积累,相关成果发表于 ACL、EMNLP、SIGIR、ICLR、NeurIPS 等国际顶级会议,并在实际检索与智能系统中得到验证与应用,能够为课程提供兼具前沿性与实践性的教学内容。