-- 作者:admin
-- 发布时间:2008/2/26 21:43:13
-- [推荐]第一部分课堂讲义——关于课程的说明
PPT课件下载链接:
I 关于课程的说明 1 如何学习本课 教:采用双语模式,内容给出完整的中英文对照;理论与实践结合,从Web搜索引擎的角度来谈现代信息检索的原理与实现 学:阅读文献;掌握如何研究和学习的方法;掌握信息检索课程的基本内容;检索活动的实践——Google;检索系统的开发——Lucene
2 课程的安排 按照大纲进度介绍课程内容 讲解检索练习 以Google公司为例,介绍现代信息检索的发展现状 课程内容
Chapter 1 Introduction to Information Retrieval Chapter 2 Basic information retrieval Chapter 3 Index Chapter 4 Vector space model Chapter 5 Evaluation in information retrieval Chapter 6 Relevance feedback and query expansion Chapter 7 Web search and search engine Chapter 8 Advanced information retrieval Chapter 9 Data mining in information retrieval
相关研究领域 图书情报学(Library & Info. Science) 数据库管理(Database Management) 人工智能(Artificial Intelligence) 自然语言处理(Natural Language Processing) 机器学习(Machine Learning)
图书情报学(Library and Information Science, LIS) IR最初起源于LIS LIS主要关注IR中的用户方(人机交互、用户界面、可视化) LIS关注人类知识的高效分类 LIS关注文献的引用分析(citation analysis)和文献计量(bibliometrics) 近年来数字图书馆方面的工作使得LIS和IR日益融合
数据库管理系统(Database Management, DM) DM主要面向关系表中的结构化数据而非自由文本 DM主要集中于高效解决形式化语言(如SQL)定义的查询 DM中不论是查询还是数据都具有明确的语义 近年来半结构化的XML数据的出现使DM和IR逐渐融合
人工智能(Artificial Intelligence, AI) AI关注知识的表示、推理和智能行为 AI中知识的形式化表示 一阶谓词逻辑(First Order Predicate Logic) 贝叶斯网络(Bayesian Networks) 近年来Web本体及智能信息Agent方面研究使得IR和AI相互融合
自然语言理解(Natural Language Processing, NLP) NLP关注自然语言文本的语法(syntactic) 、语义(semantic)及语用(pragmatic)分析 NLP可以分析短语结构和语义,使得IR可以在短语上、或者从语义上进行处理,而不是仅仅基于单个关键词 NLP和IR天生就是融合的 通过上下文词义消歧(word sense disambiguation)来确定一个词在某个特定上下文的语义 通过一些NLP方法来获得文档中的一个语言片断(information extraction) 通过NLP方法可以从文档集合中返回一些问题的答案(question answering)
机器学习(Machine Learning, ML) ML关注通过对经验的学习来提高计算机系统的性能 从标注好的例子中学习相关概念,然后进行自动分类(有监督的学习,supervised learning) 将未标注的例子自动聚集到有意义的不同集合中(无监督的学习,unsupervised learning). ML和IR融合的方面 文本分类(Text Categorization) 自动层次分类(如Yahoo目录) 自适应过滤或推荐(Adaptive filtering/recommending) 垃圾过滤(Spam filtering) 文本聚类(Text Clustering) IR结果的自动聚类 层次型类别体系的自动构建(如Yahoo!目录)
3 阅读资源 3.1 Introduction to Information Retrieval CSLI(The Center for the Study of Language and Information) C.D. Manning, P. Raghavan, H.Schütze. Cambridge UP, 2007 Focuses on algorithms and mathematical foundations without neglecting practical issues in building search systems. Equal coverage of classical IR and newer topics like XML, machine learning techniques and web search engines. Ref:http://www-csli.stanford.edu/~hinrich/information-retrieval-book.html
3.2 Modern Information Retrieval R. Baeza-Yates(理查多·巴埃斯-耶茨), B.Ribeiro-Neto(里韦罗-内托). Addison-Wesley, 1999. Currently the most widely used and cited Ref:http://www.ischool.berkeley.edu/~hearst/irbook
3.3 Information Retrieval C. J. van Rijsbergen(莱斯贝尔亨). Butterworths, 1979. The classic. Almost 40 years old, but still worth reading. Ref:http://www.dcs.gla.ac.uk/Keith/Preface.html
3.4 Information Retrieval: A Survey Ed Greengrass. 2000. Good survey of classical IR, but little or no coverage of recent work (e.g., language models, PageRank, SVMs). Ref:http://www.csee.umbc.edu/cadip/readings/IR.report.120600.book.pdf
3.5 Information Retrieval T. van der Weide. 2004. Introduction to IR and hypertext. Ref:http://osiris.cs.kun.nl/iris/web-docs/edu/ir1/
3.6 Information Retrieval:Data Structures & Algorithms Bill Frakes and Ricardo Baeza-Yates Ref:http://www.dcc.uchile.cl/~rbaeza/iradsbook/irbook.html
3.7 Managing Gigabytes: Compressing and Indexing Documents and Images Ian H. Witten, Alistair Moffat, and Timothy C. Bell Ref:http://www.cs.mu.oz.au/mg/
3.8 Lucene In Action A guide to the Java search engine
3.9 搜索引擎—原理、技术与系统 Search Engine: Principle, Technology and Systems 李晓明 闫宏飞 王继民(北大天网)
4 研究资源 Conferences Journals Others
4.1 Conferences TREC SIGIR
4.1.1 TREC http://trec.nist.gov/
4.1.2 SIGIR http://www.sigir2006.org/ http://www.sigir2007.org/
4.2 Journals 国外 ACM Transactions on Information Systems (TOIS) Information Processing and Management (IP&M) 国内 中文信息学报 情报学报 现代图书情报技术 情报杂志 情报科学
4.3 Others 4.3.1 国际著名研究机构和代表人物 美国康奈尔大学Salton(1927-1995) 现代信息检索的奠基人 SMART的完成人 第一任Salton奖得主,ACM Fellow
英国剑桥大学Sparck Jones (1935-2007) 概率检索模型的提出者之一 NLP和IR中的先辈 曾获ACL(自然语言处理领域会议)终身成就奖和Salton奖
美国UMass(University of Massachusetts Amherst) CIIR W. B. Croft ACM Fellow 基于统计语言建模IR模型的提出者和倡导者 和CMU共同开发了Lemur工具 Salton奖得主
英国Glasgow大学Rijsbergen ACM Fellow 信息检索逻辑推理学派的提出者和倡导者 现在试图用量子物理的方法解决IR问题 Salton奖得主
英国微软剑桥研究院、伦敦城市大学Robertson 概率检索模型的倡导者 开发了OKAPI Salton奖得主
美国CMU 美国UIUC 微软研究院 IBM研究院 Google研究院
4.3.2 国内著名研究机构 哈尔滨工业大学信息检索研究室 http://ir.hit.edu.cn/ 北大计算机网络与分布式系统实验室 http://net.pku.edu.cn/ 中国科学院计算技术研究所中文自然语言处理开放平台 http://www.nlp.org.cn/
4.3.3 一些活跃的华裔学者1-2 加拿大蒙特利尔大学聂建云教授:跨语言检索、IR模型 美国UIUC Chengxiang Zhai博士:IR模型 美国CMU Yiming Yang教授:文本分类 台湾中研院简立峰:号称“中文搜索”第一人,加入Google研究院
4.3.4 著名商业人士
[此贴子已经被作者于2010-12-14 08:47:38编辑过]
|