-- 作者:admin
-- 发布时间:2008/3/1 15:36:56
-- [推荐]第二部分课堂讲义——信息检索系统简介
1 Introduction to Information Retrieval
PPT课件下载链接:
用户需要信息检索技术:互联网的信息量太大,寻找信息非常不容易 公司需要信息检索技术:信息检索技术可以挣大钱,搜索引擎改变了很多传统的生活方式,Yahoo、Google、Baidu,还有一些公司如Microsoft、Sina、Sohu、Tecent、Netease都加入到这个搜索技术的竞争 人才的竞争:搜索人才人数出现缺口,非常抢手,待遇如日中天
1.1 信息检索的相关概念(IR Concepts) 信息过载(Information Overload) “…全世界每年产生1到2 EB(1 EB≈10 18B)信息,相当于地球上每个人大概产生250MB信息 其中纸质信息仅占所有信息的0.03%...”(Lyman & Hal 03) 静态网页有上百亿,动态及隐藏网页至少是静态网页的500倍 Tom Landauer认为人的大脑只能存储200M信息量,一辈子只能接触6G的信息量 2004年的Pew互联网调查发现92%的互联网用户承认互联网是一个获取每日信息的好地方
Internet Hosts Growth: http://www.zakon.org/robert/internet/timeline/
Difficulty 一方面,人们可以获得的信息的来源非常广泛 另一方面,人们如何快速、准确、全面地获得自己所需要的信息?非常困难! 信息量太大,而且信息冗余度大、质量良莠不齐、格式不一、位置分散、关联复杂、语言繁多 用户需求的表达和理解非常困难 信息的理解非常困难—自然语言文本、图片、视频 如2001年Roper Starch通过调查指出,36%的互联网用户在一星期内的网络搜索时间超过2个小时,71%的用户在使用搜索引擎时,平均搜索12分钟后会遇到麻烦,这些搜索受挫中因为链接错误产生的占到46%,同时近86%的互联网用户认为应当出现更有效的信息检索技术 另一项由Keen所做的调查显示,人们平均每天要有四个问题需要从外界获取答案,而其中31%的人会使用搜索引擎以获取正确的信息,但是半数以上都会不成功
Information Retrieval这个术语产生于Calvin Mooers在1948年MIT的硕士论文 Information Retrieval(IR):从文档集合中返回满足用户需求的相关信息的过程。作为一门学科,是研究信息的获取(acquisition)、表示(representation)、存储(storage)、组织(organization)和访问(access)的一门学问
Information retrieval (IR) is finding material (usually documents) of an unstructured nature (usually text) that satisfies an information need from within large collections (usually stored on computers). 信息检索就是从计算机中大量信息集合内找到满足信息需求的、无结构化的各种资料,如从大量文本文档中搜索所需文档
信息检索可以看成计算机科学(Computer Science)和图书情报学(Library & Info. Science)的交叉学科 以计算机为手段,处理信息对象 和其他学科也融合:语言学、认知科学 检索来自英文单词Retrieval,有些人把它翻译成获取。其本义是“获得与输入要求相匹配的输出” 和我们平时所理解的搜索意义上的检索不一样
IR不仅仅是搜索,IR系统也不仅仅是搜索引擎 例1:返回与信息检索相关的网页——信息搜索(Information Search, IS) 例2:毛主席的生日是哪天?——问答系统(Question Answering, QA) 例3:返回联想PC的型号、配置、价格等信息——信息抽取(Information Extraction, IE) 例4:订阅有关NBA的新闻——信息过滤(Information Filtering)、信息推荐(Information Recommending) 也可以这样说,狭义的IR通常是指Information Search,而广义的IR包含非常多的内容(SE, QA, IE, …)
信息抽取(Information Extraction) 信息点从各种各样的文档中被抽取出来,进行结构化处理,然后以统一的形式集成在一起。这就是信息抽取的主要任务 信息以统一的形式集成在一起的好处是方便检查和比较。例如比较不同的招聘和商品信息。还有一个好处是能对数据作自动化处理,还可以使用数据挖掘方法发现和解释数据模型 就其目的而言,IR和IE的不同可表达如下:IR从文档库中检索相关的文档,而IE是从文档中取出相关信息点。这两种技术因此是互补的。若结合起来可以为文本处理提供强大的工具 IR和IE不单在目的上不同,而且使用的技术路线也不同 过去五、六年,IE研究成果丰硕。英语和日语姓名识别的成功率达到了人类专家的水平
问答系统(Question Answering) 可以接受用户用自然语言提出的问题,而不是关键字序列,并返回尽可能简洁、准确的答案,而不是包含答案的文档或者段落 显然QA可以大大提高用户检索信息的效率,于是近年来也收到越来越多的关注。TREC甚至增加了一个QA Track以推动自动问答技术的发展 事实上QA和IR, IE是紧密联系的,通常QA系统会利用IR技术来获得可能包含备选答案的文档段落,而答案抽取过程则可以当成是IE的一个典型应用
用户需求(User Need,UN) 也被称为Information Need(IN),有时也称为主题(Topic) 用户需要获得的信息,严格地说,UN只存在于用户的内心,如查找与Baidu公司相关的新闻 UN提交给检索系统时称为查询(Query), 通常用文本来描述,对同一个UN,不同人不同时候可以构造出不同的Query,Query在IR系统中往往还有内部表示
文档(Document):检索的对象 可以是文本,也可以是图像、视频、语音等多媒体文档,这些对不同类型文档的检索被称为text retrieval、image retrieval、video retrieval、speech retrieval、multimedia retrieval 文档可以是无格式、半格式、有格式的 文档集合(Collection):所有待检索的文档构成的集合,也称为Repository,Corpus
文本检索(text retrieval) 对文本对象的检索,即文本检索(text retrieval) 文本是人们表达知识(论文)、交流(口语)的最常用的形式 文本可以用于描述其他媒体 其他媒体形式的检索的方法往往借鉴自文本检索
相关(relevant、相关度relevance) 相关取决于用户的判断,是一个主观概念 不同用户做出的判断很难保证一致 即使是同一用户在不同时期、不同环境下做出的判断也不尽相同
只有与用户真实信息需求相关的相关网页才是用户想要的网页。但是,要想做到这一点,需要建立三个最为基本的前提 用户具有明确的信息需求 用户可以完整真实的表达自己的信息需求 存在具有良好结构的被检索客体
相关度通常只有相对意义,对一个查询Q,不同文档的相关度可以比较,而对于不同的查询Q的相关度不便比较 相关度的输入信息可以更多,比如用户的背景信息、用户的查询历史等等 现代信息检索中相关度不是唯一度量,如还有:重要度、权威度、新颖度等度量,或者说这些因子都影响“相关度” Google中据说用了上百种排名因子
信息检索(Information Retrieval) 形式上说,信息检索中的相关度是一个函数R,输入是查询Q、文档D和文档集合C,返回的是一个实数值 R=f(Q,D,C) 信息检索就是给定一个查询Q,从文档集合C中计算每篇文档D与Q的相关度并排序(Ranking) 信息检索和数据库检索
The Type Of IR 信息检索还可以按照它所处理的数据规模分为三种不同类型。 1)Web搜索(Web search):Web信息检索系统需要能够对存储在Web网页上的海量信息资源进行检索。由于Web网络具有商业上的重要性,所以它所涉及的问题很多,如: 如何有效收集文档以进行索引处理,对大规模数据的处理具有缩放性 能够充分考虑Web网络的特点,如对超链关系的分析和防止通过恶意操纵网页内容来提升在搜索引擎中的排名等 2)个人信息检索(personal information retrieval.): 在最近的几年中,个人操作系统陆续集成了很多内在的信息检索功能,如Apple机器Mac系统中的Spotlight和微软Vista系统中的即席搜索(Instant Search) 电子邮件系统通常不仅提供搜索功能而且还提供文本归类功能,这通常包含提供垃圾邮件(junk mail)的过滤功能,或者通过人工或自动的方式将邮件自动归类放置在特定的文件夹中更有特色的内容还有对个人计算机上各种异质文档格式的广泛支持,同时使得信息检索系统的维护更为简单易行,不致于因为启动、运行和相关的存储消耗而增加所在计算机的用户使用负担
Vista系统中的即席搜索 在使用Windows Vist过程中会发现多地方都用到了这个工具,它的搜索功能是基于当前在进行的工作,并根据你的工作提供一种搜索的环境,比如说你现在再听歌,计算机就会判断你可能要搜索歌曲,比如你正在编辑照片,计算机就会判断你可能要查找照片,这样就会增加搜索速度,具有了智能搜索的功能,搜索的结果也非常精确,快速和方便 Vista几乎每个窗口都被整合了即时搜索,可以随时进行搜索,即时显示结果 左侧文件夹栏中的蓝色文件夹,蓝色代表这是一个搜索任务,其中保存着当前的搜索任务;右侧显示的是搜索到的目标。这个搜索结果可以保存,例如存为“vista”,默认的存储位置是“Searches”文件夹 这个文件夹并不是真正意义上的文件夹,这称之为虚拟文件夹,根据微软的Vista文档,它应该叫做“Search Folders”(搜索文件夹)。其实在“Searches”文件夹中还有很多类似的文件夹,代表着不同的搜索任务
3)企业搜索(机构搜索或者面向特定的搜索)(enterprise search, institutional or domain-specific search): 这种方式的特点介于上述两种形式特点之间,它所处理的文档多半都是企业内部的文件资源、专利数据或者研究文档等 在这种情况下,文档通常都存储于一台或多台中央文件系统中来给整个组织的所有用户提供服务
1.2 The History of IR 计算机出现以前 计算机出现以后 Internet出现以后
计算机出现以前 约4000年前,人类就开始有目的地组织信息,典型的例子就是图书中的目录 最早的图书馆是2700年前的两河流域的亚述巴尼拔图书馆 随后,逐渐出现索引的概念,即从一些词和概念指向相关信息或者文档的指针 计算机问世以前,人们主要通过手工方式来建立索引
计算机出现以后 1948: C. N. Mooers在其MIT的硕士论文中第一次创造了“Information Retrieval”这个术语 1960-70年代: 人们开始使用计算机为一些小规模科技和商业文献的摘要建立文本检索系统。产生了布尔模型(Boolean Model)、向量空间模型(Vector Space Model)和概率检索模型(Probabilistic Model) 康奈尔大学的Salton领导的研究小组是该领域研究的佼佼者 伦敦城市大学的Robertson及剑桥大学的Sparck Jones是概率模型的倡导者
1980年代:出现了一些商用的较大规模数据库检索系统 Lexis-Nexis Dialog MEDLINE
Internet出现以后 1986:Internet正式形成 1990’s: 第一个网络搜索工具: 1990年加拿大蒙特利尔McGill大学开发的FTP搜索工具Archie 第一个WEB搜索引擎:1994年美国CMU开发的Lycos 1995:斯坦福大学博士生开发的Yahoo 1998:斯坦福大学博士生开发的Google,提出PageRank计算公式 1998:基于语言模型的IR模型提出 2001年,百度成立
1990年代的其他重要事件: 评测会议 NIST TREC 推荐系统的出现 MIT Ringo Amazon NetPerceptions 文本分类和聚类的使用
2000以来的其他重要事件: 多媒体IR Image Video Audio and music 跨语言IR DARPA Tides(美国国防部高级研究计划署的Tides项目, Translingual Information Detection, Extraction and Summarization) 文本摘要 DUC评测(Document Understanding Conferences evaluation)
1.3 IR System The Architecture Of IR System 用户接口(User Interface):用户和IR系统的人机接口 输入查询(Query) 返回排序后的结果文档(Ranked Docs),并对其进行可视化(Visualization) 支持用户进行相关反馈(Feedback) 用户的两种任务:retrieval 或者browsing
IR的两种模式:pull (ad hoc) 或者push (filtering) Pull: 用户是主动的发起请求,在一个相对稳定的数据集合上进行查询 Push:用户事先定义自己的兴趣,系统在不断到来的流动数据上进行操作,将满足用户兴趣的数据推送给用户
文本处理(Text Operations):对查询和文本进行的预处理操作 中文分词(Chinese Word Segmentation) 词干还原(Stemming) 停用词消除(Stop word removal)
查询处理(Query operations):对经过文本处理后的查询进行进一步处理,得到查询的内部表示(Query Representation) 查询扩展(Query Expansion):利用同义词或者近义词对查询进行扩展 查询重构(Query Reconstruction):利用用户的相关反馈信息对查询进行修改
文本标引(Indexing):对经过文本处理后的文本进行进一步处理,得到文本的内部表示(Text Representation),通常基于标引项(Term)来表示 向量化、概率计算 组成成倒排表进行存储
搜索(Searching):从文本中查找包含查询中标引项的文本 排序(Ranking):对搜索出的文本按照某种方式来计算其相关度 Logical View:指的是查询或者文本的表示,通常采用一些关键词或者标引项(index term)来表示一段查询或者文本
一些开源搜索引擎工具 Lemur:包含各种IR模型的实验平台,C++ SMART:向量空间模型工具, C编写 Weka:分类工具,Java编写 Lucene:开源检索工具,各种语言编写的版本 Larbin:采集工具,C++ Firtex:检索平台,C++,计算所开发
其中Lucene:http://lucene.apache.org/
[此贴子已经被作者于2010-12-14 08:48:17编辑过]
|