信息检索系统

2024-08-23

信息检索系统(精选十篇)

信息检索系统 篇1

随着信息技术在各行各业中的深入发展,以及医院运行机制的改变,医院信息化建设也得到了进一步的完善与提高,网络化已经成为一种普及的医院运营管理模式。医院信息系统对卫生体制的改革与发展起着至关重要的作用,已成为现代化医院必不可少的重要基础设施。医院信息系统的作用大多体现在信息检索与信息统计方面。

1 信息检索的方法

首先我们要明确什么是信息检索,信息检索就是把信息按一定的方式组织起来,并根据信息用户的需要找出有关的信息的过程和技术。通常狭义的信息检索是信息检索过程的后半部分,即从信息集合中找出所需要的信息的过程,也就是我们常说的信息查询,信息检索有两个特点:一个是查全,一个是查准。这两者往往难以兼顾,查全不可能很准,准又不可能很全面。在实际操作中,我们就要根据检索的要求、检索的需要去权衡,从而确定相对最合适的检索方法。一般信息检索的方法都采用的是布尔逻辑检索即“and”“but”“or”,其中“and”指的是两者全包括,“but”是排除后者,“or”指的是两者中有一个成立就可以,在使用过程中要注意灵活应用,如我们想查某医院2014年出院的肿瘤患者的人数,便得同时满足两个条件,一个是出院日期得是2014年,另一个出院诊断应为肿瘤,这样才能完全的满足检索条件。查询编码时,可在“诊断编码”或“手术编码”条件下,输入所需检索信息的“首字母”或“中文名称”,并根据要求选择相应细目或者扩大到类目、亚目进行相应检索,检索中直接录入编码检索时不需要在下拉框中选定编码条目,而“首字母”或“中文名称”检索必须注意要在下拉框中选定编码条目,否则检索结果为空。多条件检索可在“检索条件”目录下进行,也可在“检索条件”和“并发条件”目录下同时进行。在“检索条件”目录下,同一条件为“or”的关系,不同条件为“and”关系;在“并发条件”目录下,所需并发条件与“检索条件”目录下同一条件为“and”关系,也可通过改变逻辑运算符改变。

2 信息统计的方法

医院的功能分为临床医疗科室、医技检查科室、行政后勤科室,所以我们要统计的种类很多,如各科室的收入、各科室的就诊人数、医疗设备的利用率、某月病床的利用率,某种病一年的发病人数等,我们可以根据各种条件进行各种统计,如统计某医院出院病人中,患有甲状腺恶性肿瘤,同时又患有甲状腺功能亢进的患者人数。首先要提取字段:甲状腺恶性肿瘤,诊断编码:C73,然后再进行逻辑组合。这里注意要有并发条件,即甲状腺功能亢进—诊断编码:E05。这是包含有排除条件的统计,还有包括条件的统计,如:请统计2006年1月1日到2015年12月31日10年间所有干燥综合症,不包括肾活检的人数。首先我们要提取字段包括出院时间:20060101-20151231和干燥综合征—诊断编码:M35.0然后进行逻辑组合,并排除条件:肾活检—手术编码:55.2901,55.2301,55.2401。还有一些统计是需要进一步计算的,如算总费用或平均值,如请统计某医院2015年12月,住院天数超过30天的患者人数。并计算其平均住院日及平均住院费用。首先我们要提取字段有出院时间:20151201-20151231和住院天数≥30,并在结果里提取字段住院天数和总费用,最后进行统计计算,求得平均数。统计的方法很多,条件也多种多样,在医院信息系统中的应用也是比较重要,我们要灵活使用。

随着卫生部信息化工作领导小组《医院信息系统基本功能规范》标准的加强,使医院各个信息系统将有效的整合在一起。面对如此多的信息系统和海量的数据存储应发挥数据仓库的作用,提出有价值的信息,这并不是简单意义上的病人资料管理、数据采集、数据检索、数据统计、报表输出等功能及系统之间的数据无缝连接,统计工作也将不再是毫无关联的数字,而应在数据仓库的基础上进行数据挖掘和深加工。医院信息系统中信息检索和信息统计使医院的信息真正做到对各种病情随年份、季节及每个病人病情的预见性和感知性。这样才能使临床信息学做到信息为病人服务、为医生服务、为医院的管理者服务。

摘要:目的:探讨医院信息系统中信息检索与信息统计在临床诊断中的应用。方法:从医院信息系统、门诊医生工作站、住院电子病历、实验室信息系统、医学影像信息系统等几个方面在医院发展和存储的大量数据进行信息检索和信息统计。结果:大量数据进行深挖掘后显示出,临床诊断水平由此得到了进一步提高。结论:医院信息系统在临床中信息检索与信息统计的应用有助于进一步提高临床诊断水平,提高医生的业务水平。更便于卫生行政部门进行卫生质量的评估。

目前信息检索系统的优缺点 篇2

摘要

目前,Internet上信息检索的方式主要分为二种:即非WEB信息检索方式和WEB信息检索方式。这两种检索方式为人们及时准确地检索网络信息提供了极大的方便和可能,尤其WEB信息检索工具中的搜索引擎,它已成为人们查询网上信息最重要的检索工具,几乎成了网络信息检索工具的代称,因而本文在论述网络信息检索工具时以搜索引擎为主要代表。然而目前网络信息检索又面临一系列的挑战,如网络信息量的迅猛增加,以至人工己经无法对它们进行有效的分类、索引和利用;简单的关键词搜索;返回的信息量过大已经让用户无法承担;网络信息组织的无序性;网络信息日新月异的更变;信息媒体的多样化等等,这些都给Internet信息的获取和利用造成了极大的阻碍[1]。

引言

信息检索系统的研究是伴随着科学技术的发展和信息数量的俱增而兴起的,是指信息用户为处理解决各种问题而查找、识别、获取相关的事实、数据、文献的活动及过程,其主要研究范围包括:信息检索理论、信息检索语义、信息检索系统的构建和评价、信息检索技术和方法等。

信息检索的研究已经有多年的历史,20世纪中叶以前,信息的存储和传播主要以纸质介质为载体,信息检索的研究主要围绕文献的获取和控制展开,主要关注如何检索和利用文献中记载的信息。直到50年代,计算机被图书馆等部门广泛用来存储和管理文档,信息检索技术作为新的热点被广泛地研究。到了80年代,信息检索领域在索引模型,文档内容表示以及匹配策略等方面取得了许多突破性的研究成果,并且成功地开发了一些系统。例如Cornell大学的SMART系统和Massachusetts大学的INQUERY系统等。Web的出现为信息检索提供了一个前所未有的实验环境和应用情景,许多Web信息检索系统应运而生,例如Yahoo!,Alta-vista等[2]。

目前信息检索系统的优缺点

1.评价标准

目前,得到普遍认同的检索效果的评价标准主要有以下几个:查全率、查准率、收录范围、输出格式,其中以查全率和查准率最为重要[1]。综合国内外关于搜索引擎评价及其方法的研究,笔者将搜索引擎评价的研究方法分为以下几种。

(1)实验方法

(2)调查方法

(3)数据分析法

(4)观察法

(5)综述和评论

综合评价指标是指对搜索引擎各个方面进行考量时依据的参考标准,如

Carpineto等就提出了3个一级指标,分别为:检索界面、检索性能和检索输入。其中,检索界面包括搜索引擎存在、主页检索框、结果页面检索框以及高级检索界面等4个二级指标;检索性能有7个二级指标:大小写敏感度、词干检索、禁用词、部分匹配、短语检索、布尔逻辑检索、全站检索等;检索输出包括基于相关度的排序、标记检索式、结果建议、无死链4个二级指标[3]。

2.按照信息搜集方法和服务提供方式的不同,搜索引擎系统可以分为三大类:

2.1目录式搜索引擎:

以人工方式或半自动方式搜集信息,由编辑员查看信息之后,人工形成信息摘要,并将信息置于事先确定的分类框架中,提供目录浏览服务和直接检索服务。该类搜索引擎因为加入了人的智能,所以信息准确、导航质量高,缺点是需要人工介入、维护量大、信息量少、信息更新不及时。

这类搜索引擎的代表是:Yahoo、LookSmart、Open Directory、Go Guide等。

2.2机器人搜索引擎:

由一个称为蜘蛛(Spider)的机器人程序以某种策略自动地在互联网中搜集和发现信息,然后索引器为搜集到的信息建立索引,再由检索器根据用户的查询输入检索索引库并将查询结果返回给用户。服务方式是面向网页的全文检索服务。该类搜索引擎的优点是搜索的信息空间大,更新及时,毋需人工干预,缺点是返回信息过多,有很多无关信息,用户必须从结果中进行筛选。

这类搜索引擎的代表是:AltaVista,Northern Light,Excite,Infoseek,Inktomi,FAST/FastSearch,Lycos,Google,“天网”,悠游,OpenFind等。

2.3搜索引擎:这类搜索引擎没有自己的数据,而是将用户的查询请求同时向多个搜索引擎递交,将返回的结果进行重复排除、重新排序等处理后,作为自己的结果返回给用户。服务方式为面向网页的全文检索。这类搜索引擎的优点是返回结果更多、更全,缺点是不能充分利用所使用搜索引擎的功能,用户需要做更多的筛选。

这类搜索引擎的代表是WebCrawler,InfoMarket等[4]。

3.新一代的智能Web信息检索系统:

3.1移动agent技术

一般来说,所有用移动agent实现的系统都可以用传统的分布式技术赖实现。那么为什么要选择移动agent呢?这是因为移动agnet为解决分布式问题提供了一个统一的模式。它为分布计算带来了更多的灵活性、高效性、可靠性和可伸缩性。移动agent已成为继CORBA、DCOM后新一代分布处理技术。移动agent具有以下5个优点:

(1)节约网络带宽和减少网络延时;

(2)移动agent能够使传统的C/S计算模式下的计算任务更加动态均匀地分配;

(3)在分布式环境下,移动agent系统能实现较好的并行性即并行任务求解;

(4)基于移动agent的分布式系统具有较好的可理解性;

(5)异步移动计算能力。

3.2本体技术

本体的目标是捕获相关领域的知识,提供对该领域知识的共同理解,确定该领域内共同认可的词汇,并从不同层次的形式化模式上给出这些词语和词语间相互关系的明确定义。

本体的研究与应用主要包括3方面:(1)理论研究,主要研究概念及其分类和本体上的代数运算;(2)在信息系统中的应用研究,主要研究信息组织、信息检索和异构信息系统互操作问题,(3)本体作为一种能在知识层提供知识共享和重用的工具在语义Web中的应用[4]。

3.个性化搜索引擎技术

当前,个性化搜索引擎技术主要表现在如下两个方面:

(1)搜索引擎提供的搜索结果满足用户的个性化需求。由个性化搜索服务获得的搜索结果更加准确,使不同用户能够得到各自需要的搜索结果,同时避免出现不相关的搜索结果。个性化搜索引擎技术通过分析用户的搜索词,跟踪用户的搜索行为和环境,结合用户的需求变化和网络信息的动态变化实时更新等资料进行信息检索,从而为用户提供更为个性化的、准确的、真正需求的搜索结果。

(2)个性化搜索引擎所提供的服务和功能具有优势和特色,与通用搜索引擎不同。由于各大搜索引擎为了获得竞争优势,不断推出新的特色服务和功能,因此出现了从核心搜索衍生出的各种其他服务,如桌面搜索、地图搜索、生活搜索、RSS订阅等服务。

目前不少搜索引擎都加入了个性化服务和功能,他们提出了各种技术和方法以实现个性化搜索服务。他们主要采用了基于规则的和基于信息、过滤的推荐技术。其中,基于信息过滤的技术又包括协作过滤和基于内容的过滤。基于规则的技术允许系统管理员根据用户的动态和静态属性生成规则,规则决定了在不同情况下如何提供不同的务,一个规则本质上是一个if-then语句。该方法的优点是简单、直接,缺点是规则不能动态更新,质量难以保证,随着规则数的增加,系统将更难管理。典型的系统有IBM的Webshere,BroadVision和ILOG等。

基于内容过滤的技术利用资源和用户兴趣的相似度进行信息过滤。该方法的优点是简单、高效,缺点是不能发现用户新的兴趣,并且难以区分资源内容的质量和风格。典型的系统有 Personal web Watcher,syskill&webert,CiteSeer,和Web personalizer等。

基于协作的过滤技术是利用用户之间的相似度来进行信息过滤。该方法的优点是能发现用户新的兴趣点,但缺点是当系统用户和资源逐渐增多时,系统性能会逐渐降低;另外,在系统使用的初期,难以发现相似的用户。典型的系统有Web watcher,Let’s Browse,GrouLens,Firefly和Siteseer等。

还有其它的一些提供个性化服务的信息搜索系统同时采用了基于内容和协作过滤两种技术。如:webSIFT,FAB,Anatagonomy和Dynamicprofiler等,结合这两种过滤技术可以克服协作过滤的稀疏性难题,使用用户已浏览的内容来预测用户对其它资源的评价,进而增加资源评价的密度,再利用这些评价进行协作过滤,从而改善协作过滤的效率[5]。

参考文献

[1] 网络信息检索及其发展趋势研究

[2] 基于结构化向量空间模型的中文信息检索系统研究与实现

[3] 搜索引擎检索功能的性能评价研究

[4] 基于本体的Web信息检索系统及其关键技术研究

信息检索系统 篇3

关键词:信息检索;对等计算;性能评估

中图法分类号:TP311文献标识码:A 文章编号:1009-3044(2007)16-30927-02

A Novel Approach to Evaluate Information Retrieval Systems Based on P2P

HONG Dao-cheng1,2

(1.Shanghai Key Laboratory of Intelligent Information Processing, Fudan University, Shanghai 200433, China;2.Department of Computer Science & Engineering, Fudan University, Shanghai 200433, China)

Abstract:As a hot spot in the computer research and industrial fields, P2P has been mainly applied to information sharing. With P2P-based information retrieval systems applied frequently, the coming issues are how to evaluate the system objectively and fairly, and how to plot the common criteria for system performance evaluation. After having conducted a comprehensive study on P2P-based systems, we point out the implementation mechanism and key techniques in this area. We propose a novel approach to evaluate information retrieval systems based on P2P: Constraint Triangle Law, which will guide the development and evaluation of P2P-based information retrieval systems in the future. Furthermore we fix the key-point research on P2P-based systems: key techniques and strategies.

Key words:Information Retrieval; P2P; Performance Evaluation

1 引言

从2000年中期新一轮对等计算(简称P2P)研究热兴起开始,P2P已被学者认为是重构基于Internet应用的关键技术[1],是影响Internet未来的四项科技之一[2],并由此产生了多个著名的对等计算信息共享系统[3],如Gnutella、Chord等。著名系统CAN的设计者之一Shenker,曾将对等计算系统的主要应用归纳为“以数据为中心的网络”(data-centric networks)[4]。这反映了现阶段对等计算的研究主要围绕数据信息共享的事实。同时,数据信息共享本身是其他基于P2P应用类型的基础,是对等计算应用研究的焦点。

目前的P2P信息共享系统,依据系统拓扑结构的关系可以分为:中心化拓扑(Centralized Topology),全分布式非结构化拓扑(Decentralized Unstructured Topology),全分布式结构化拓扑(Decentralized Structured Topology),半分布式拓扑(Partially Decentralized Topology)。然而,现有P2P系统研究的关键集中在信息检索方面。因此,对相关P2P信息检索系统进行客观公正的评价,确定有效、实用的评估标准已是大势所趋。本文的研究是在以上背景下展开。

2 系统分析

综合分析现有的基于对等计算的信息检索,可以发现各种类型结构系统特点各异,但是却存在共同的局限性,并严重影响着查询效率和效果,导致实际应用结果已与构建基于P2P的信息检索系统的初衷大相径庭。限于实际应用和技术的约束,目前基于对等计算的检索系统存在的问题有:(1)由于数据共享粒度太大,大多数系统仅支持文件层的共享,即以文件为共享单位,导致系统查询、路由的精确度下降;(2)由于系统语义检索的水平较低,包括仅支持弱语义甚至缺乏语义的检索、查询,忽略了自然语言理解,导致检索结果的准确度严重降低;(3)前两个影响因素和现有系统结构的特点都直接导致信息检索的效率低下,造成系统资源浪费。文献[5]对此有详细论述。

仔细分析系统存在的以上问题,挖掘深层次原因,可以发现以上系统均没有充分发挥基于P2P的信息检索技术的特长,包括:系统的协议和检索算法;系统对文件共享粒度、语义检索的支持程度。涉及的具体技术有:系统结构的设计;系统信息资源的管理;系统信息资源的定位和查询路由;系统检索结果的优化和排序;安全和隐私;等等。

通过以上分析可以发现,对等计算系统中信息检索实现的机制,可以归结为三个阶段:信息资源的放置管理、信息资源的定位查找、查询结果的优化和排序。在对等计算信息检索系统中,为保证检索效果和效率,在一定体系结构的基础上,首先要进行资源的放置管理,要合理有效地设计资源的分配和存储机制,为查找资源和优化查询结果提供较好的方便。其次,在真正进行信息检索时,资源查找就成为关键步骤。在合理安排、管理信息数据的基础上,设计出搜索高效的查找和路由算法,已成为问题的核心。最后,由于系统语义理解的有限性,检索结果势必会产生一定的偏差。为了提供高质量的信息资源,减轻用户浏览压力,需要对检索结果进行必要的优化和排序。研究显示,系统实现过程中的评价指标、标准已成为高质量检索系统实现的基础和关键。

3 系统性能评估指标

3.1 系统性能评估定律

基于对等计算的信息检索实质是在预定体系结构的基础上,根据信息查询需求的描述,定位信息资源所在节点,并按照一定策略对这些节点的顺序进行优化和排列。考察系统的性能,衡量评估标准应包括:查询时间(Query Time,简称QT)、查全率(Recall,简称R)、网络负载(Network Load,简称NL)和查准率(Precision,简称P)。在对等计算系统中:(1)假定消息从一个节点传递至其他任意一个节点的时间都相等并规定为单位时间,那么查询时间就可以用消息传递的路径长度来表示,并以此来衡量系统的时间复杂度;(2)查全率要求尽可能多地路由相关节点,保证客观存在的目标信息没有遗漏。节点的路由机制要求计算查询空间,即系统的空间复杂度,在此可以将节点路由存储任一个节点信息定义为一个单位空间;(3)系统查询中,消息的路由传递会增加网络的流量,即网络负载。为有效衡量具体增加的负载程度,在此定义节点的一个消息路由到下一个节点就是一个单位的网络负载;(4)由于系统的动态变化特点,查准率不仅仅指与查询要求匹配,而且要求提供正确、有效和可用的资源链接。

系统性能的四项评估指标是统一整体,指标之间相互依存,相互制约,其关系可以表示成如图1所示的相互牵制的三角图形(Constraint Triangle,简称CT)。

图1系统性能评估指标间的制约关系

在如图1所示的牵制三角形中,查询时间(QT)、查全率(R)、网络负载(NL)位于图形的三个角,查准率(P)位于图形的中央,因为它是用户关心的焦点,是系统性能的重要制约和评价因素。四项评估指标相互擎制,相互制衡,任何一个指标发生变动,都将直接影响其他指标。例如,提高系统的检索正确率将导致时间复杂度的增长,加重网络负载,增加空间复杂度。因此,系统性能评估是四项指标的平衡,为了提高某一项性能指标,必然以牺牲其他的指标为代价,相反也可以理解为通过降低系统的其他性能指标,来提高或者获得某一性能的高效。以上系统性能评估规律总结为Constraint Triangle Law (简称CTL)[6]。

3.2 系统性能评估定律的作用

CTL定律对基于P2P信息检索系统的评价和开发具有实际指导意义。不同的P2P系统对性能提高的侧重点不同,因此对系统的评价就不应该局限在某一点,要统筹兼顾,根据不同的实际应用,做出科学评价。同时,在设计开发P2P信息检索系统时,要根据实际应用需要,制定相应的性能策略,通过相对降低某些性能指标,来达到某一项指标的较优。

通过以上论述,在系统性能评估CTL定律的基础上,我们将在以后的工作中探讨对等计算检索系统的四个主要技术问题:体系结构、资源放置管理机制、资源查找定位机制、检索结果的优化和排序,同时论述相应的问题策略。

4 结束语

通过详细研究分析对等计算的信息共享系统,指出目前基于对等计算的信息检索面临的实现机制和具体技术措施问题。在认真总结和分析的基础上,给出评价系统性能的四项指标体系,提出系统性能评估的CTL定律。在此基础上确定即将开发的P2P信息检索系统的准则,和下一步对等计算信息检索系统研究重点——关键技术问题及其相应策略。

参考文献:

[1]S.Gribble, A.Halevy, Z.Ives, M.Rodrig, and D.Suciu. What can database do for peer-to-peer[A]. In WebDB, 2001.

[2]L. Gong. Peer-to-Peer networks in action. IEEE Internet Computing. 2002, 6(1):37~39.

[3]S. Saroiu, P. K. Gummadi, and S. D. Gribble. A measurement study of peer-to-peer file sharing systems. In Proceedings of the Conference on Multimedia Computing and Networking 2002 (MMCN’2002).

[4]Ryan Huebsch, Joseph M. Hellerstein, Nick Lanham, Boon Thau Loo, Scott Shenker, Ion Stoica. Querying the Internet with PIER. VLDB 2003: 321-332.

[5]黄维雄,等.一种基于自配置策略的新型Peer to Peer平台系统[J]. 软件学报,2003,Vol.14 (2).

信息检索系统 篇4

如何快速、准确地从浩瀚的信息“海洋”中寻找到符合用户需要的信息已经成为困扰网络用户的一大难题。这就要求信息检索系统根据不同用户的不同信息需求来提供贴近用户要求的信息资源。而现有的信息检索系统很难满足这种要求, 因此, 基于本体的信息检索系统正在逐渐成为当前研究的热点。

1 本体的概念

本体 (Ontology) [1,2]这个词来源于哲学。在哲学界, 本体是指关于存在及其本质和规律的学说, 是物质存在的一个系统解释, 这个解释不依赖于任何特定的语言。在计算机界, Studer等人在前人的基础上, 给出了目前为止最完善的本体定义:共享概念模型的明确的形式化规范说明[3]。这个定义包含四层含义:

(1) 概念模型通过抽象出客观世界中一些现象的相关概念而得到的模型, 概念模型的含义独立于具体的环境状态;

(2) 明确概念和概念的约束都有明确的和无歧义的定义;

(3) 形式化本体能通过本体语言编码, 使得计算机可读, 并可以被计算机处理;

(4) 共享本体体现的是共同认可的知识, 反映的是相关领域内公认的概念集。

形式地说, 一个本体可以由概念、关系、函数公理和实例等5种要素组成[4]:

(1) 概念概念是对现实世界中事务的抽象描述, 含义很广泛, 如工作描述、功能、行为、策略和推理过程等;

(2) 关系关系描述n个概念、对象之间的联系, 形式上定义为n维的笛卡儿积的子集R:C1×C2×…×Cn。实践中, 本体中的关系往往可以和性质、属性、角色等通用;

(3) 函数函数是一组特殊的关系, 其前n-1个元素可以唯一确定第n个元素。形式化的定义为F:C1×C2×…×Cn-1※Cn。如函数“正方形的面积”定义正方形的面积是由边长唯一确定的;

(4) 公理公理用于表示一些永真断言, 如地球属于太阳系;

(5) 实例一个实例是现实世界中具体的和唯一的个体, 它对应着本体中的一个或多个概念。

2 基于本体的信息检索研究

信息检索系统要体现个性化, 必须首先建立对用户的描述, 然后才能据此提供针对不同用户的个性化信息服务, 因此, 建立用户兴趣模块是基于本体的信息检索系统的基础和核心。

本体论描述了概念之间的内在联系[5]。用本体的思想来刻画用户兴趣, 那么在向用户推荐信息的时候, 就不再是单纯的关键词匹配, 而是上升到词与词之间的关系的层次上, 这样就能有效地提高系统的个性化服务, 可以使检索的信息更能贴近用户的需求。

2.1 基本框架结构及其检索机制

如图1所示为基于本体的Web信息检索模型的基本框架, 该模型主要由查询扩展模块和用户兴趣模块两部分组成。

(1) 查询扩展模块查询扩展模块将用户输入的原始查询请求经过语义分析后, 根据用户兴趣模块中已存的用户兴趣, 自动加入新的检索词或短语。这样, 最终的查询请求是基于用户原始查询请求中关键词的一系列同义词及相关词, 并且这些词反映了用户的兴趣。

(2) 用户兴趣模块的更新跟踪记录用户在WWW上的浏览和检索行为, 记录用户的访问历史和检索请求, 从记录的大量数据中统计、分析出用户的个性化信息需求。这样用户兴趣模块就在用户的浏览和检索过程中形成并不断修正和变化, 并且用户兴趣模块的更新过程是伴随着用户的浏览、检索进行的, 因此用户兴趣模块动态地反应了用户的兴趣。

2.2 用户兴趣模块更新算法

在总结了各种现有的更新算法后, 将其分为以下两种。

(1) 添加法计算出新概念词与用户兴趣模块中各个兴趣类的相似度, 将新概念词添加到合适的兴趣类中, 如果新概念词与用户兴趣模块中的所有的兴趣类的相似度都小于某一个阈值, 将它作为新的兴趣类向量添加到用户兴趣模块中。

利用这种算法更新用户兴趣模块时, 随着用户感兴趣文档的增加, 用户兴趣模块会不断地增大, 因而这种更新算法需要大量的物理空间和计算开销。

(2) 修改法同上面的方法一样先把新概念词归于某个兴趣类, 将新概念词和兴趣类中每个概念词作比较。若相近, 则删去和新概念词相近的概念词;若不相近, 就分别保留。

这种方式, 降低了用户兴趣变化的影响力, 而且随着时间的积累, 将逐渐弱化用户兴趣之间的差别。

为了使用户兴趣模块反应用户的兴趣, 现提出以下用户兴趣模块的更新算法:

(1) 当提交给用户兴趣模块一个潜在兴趣概念词时, 如果在用户兴趣模块中, 没有此概念词, 而且用户选择了此概念词, 也就是说系统认为的潜在兴趣正好是用户真正感兴趣的信息, 则将此概念词添加到用户兴趣模块中。

(2) 对于某个概念词, 如果用户很久没有选择该概念词 (设一个时间阈值) , 说明随着用户兴趣的改变, 用户对此已经不感兴趣。若此概念词为叶子节点, 则直接从兴趣模块中删除此概念词, 若概念词不是叶子结点, 则删除此概念词, 用此概念词的左孩子中的一个叶子结点取代其位置。

算法的伪代码如下:

2.3 实验结果

采用两个标准:信息检索的查准率和查全率, 来比较三种算法的优劣。信息检索的查准率为检索结果中符合用户信息需求的文档数与查询结果总数之比。信息检索的查全率为实际检索出的符合用户信息需求的文档数与信息库中总的符合用户需求的文档数之比。

四个不同的用户在以上三种算法上分别查询1 000次得到实验结果如表1所示。

从表1中的数据, 我们可以看到:本文算法在查全率和查准率上比其他两种算法都高。

3 结束语

本文引入本体的概念, 构建了基于本体的信息检索模型的框架, 并且提出了一种崭新的用户兴趣模块的更新算法。最后通过实验数据说明了基于本体的信息检索模型能够有效地提高检索系统的查全率和查准率, 从而, 使检索结果在较大程度上满足用户的真正信息需求。

参考文献

[1]Fridman N, Hafner C D.The state of the art in ontology design.AI Magazine, 1997;18 (3) :53—74

[2]Ashenhurst.Ontological aspects of information modeling.Minds and Machines, 1996;6:287—394

[3]Studer R, Benjamins VR, Fensel D.Knowledge engineering, prineiples and methods.Data and Knowledge Engineering, 1998;25 (1-2) :161—197

[4]陆建江, 张亚非, 等.语义网原理与技术.北京:科学出版社, 2007

信息检索系统 篇5

“网络信息检索及专利信息检索”实习报告

一、实习目的1、熟悉网络信息的基本检索方式,了解几种常用的搜索引擎

2、熟悉我馆现有的中文献题目:multifunctional data acquisition and control system for experimental aerodynamics

作者:Yu.K.Biokin-Mechtalin

出处:Volume 71,Number 11(2010),2455-2664 英文电子资源的使用方法。

3、掌握利用网络检索专利信息的方法

二、实习题目(每种途径任选一题):

1.环境与生态系统;2.胶粘剂的研制;3.抗癌药物研究;4.纳米材料的制备;5.金刚石的应用;6.汞污染处理;7.热固性塑料成型; 8.包装技术; 9.安全控制系统10.控制释放技术

三、实习内容:

1.网络科技信息检索(http://library.qust.edu.cn/)1)万方数据资源的使用

a.选择检索课题(目)为:胶粘剂的研制 b.选择检索途径为:关键字

c.记录检索结果

文献题目:有机硅改性酚醛环氧树脂耐高温胶粘剂的研制 作者:王丁 程斌 刘峰 江民涛 黄朝 出处:中国胶粘剂 2007年16卷第3期 2)CNKI的使用

d.选择检索课题(目)为:热固性塑料成型 e.选择检索途径为:关键字 f.记录检索结果

文献题目:热固性塑料成型新工艺——注射模压成型 作者:陈中一

出处:工程塑料应用1984年01期 3)Springer LINK使用

g.选择检索课题(目)为:安全控制系统 h.选择检索途径为:关键字

2.专利信息检索

检索工具:国家知识产权局网站(http://)1)主题途径(任选一题进行检索)

a.选择检索课题为:.包装技术 b.记录检索结果:

专利名称: 金属锶铝罐包装技术 专利发明(设计)人:梅小明

专利权人:南京云海特种金属有限公司

申请(专利)号:02113127.9

2)专利权人途径(青岛科技大学;山东大学;清华大学;上海交通大学)c.选择检索入口为:青岛科技大学 d.记录检索结果:

专利名称:固体废物陶瓷生态砖 专利申请人:朱海涛 陈磊

申请(专利)号:200710113223.9

3)申请(专利)号途径(02150457.1;88100410.3; 88106349.5)e.选择检索专利号为:88106349.5 f.记录检索结果:

专利名称: 连续生产胶料工艺方法和设备

专利发明(设计)人:诺伯特·来比格;曼夫利德·迪恩斯特 专利权人:海尔曼·拜尔斯托夫机械股份公司

互联网信息的检索技术 篇6

关键词 互联网 信息检索 技术

中图分类号:TP393 文献标识码:A

计算机技术的发展与完善,信息检索便成为了重要的桥梁。早在上世纪六十年代,美国海军机械试验中心使用IBM701型机,初步建成了计算机情报检索系统,这也预示着以计算机检索系统为代表的信息检索自动化时代的到来。单纯的手工检索和机械检索都或多或少显露出各自的缺点,因此,新型的信息检索方式应运而生。1965年,美国系统发展公司研制成功ORBIT联机情报检索软件,开启了联机情报检索系统阶段。与此同时,美国洛克公司研制成功了著名的Dialog检索系统。且随着20世纪70年代卫星通信技术、微型计算机以及数据库产生的同步发展,用户得以冲破时间和空间的障碍,实现了国际联机检索。联机检索是计算机、信息处理技术和现代通信技术三者的有机结合。随着互联网的迅速发展及超文本技术的出现,基于客户/服务器的检索软件的开发,实现了将原来的主机系统转移到服务器上,使客户/服务器联机检索模式开始取代以往的终端/主机结构,联机检索进入了一个崭新的时期。信息检索系统类型包括:参考数据库检索系统,它以二次文献数据库为主,提供文献的题录、文摘数据或事实数据。全文数据库检索系统是近年来随着数字化技术不断成熟而发展起来的,系统能提供文献的全文数据,包括图表、图像等多种形式的媒体。Internet搜索引擎主要提供网上资源的链接,某些搜索引擎也提供简单的网页介绍或检索词的上下文。

从信息检索方式来说,命令检索方式,指的是检索过程中,每一项检索提问,必须通过具体的命令来完成,这些检索命令通常需要用户熟记。这种方式虽然对于初级用户来说比较麻烦,需要记很多的命令,但是对熟悉系统的用户来说,命令方式有其步骤简单的优点,尤其是完成一些复杂的检索算法时,操作步骤简单。单检索方式实际上是将各种检索指令转化成菜单选项,系统的功能和检索指令通过菜单和子菜单的选项来实现,用户通过菜单一目了然,只需根据需要在菜单上选择某一项,或进行检索,或显示命令中的纪录等。菜单驱动的检索方式对初级用户是比较友好的,用户不需要培训就可以自行检索,很容易入门,但对于较复杂的检索算法,常常需要进入层层菜单才能完成。其次,命令与菜单相结合的方式既保留了指令检索的方式,又提供了菜单的某些直观的功能。而主题法和分类法在信息检索中的原理基本相同。信息储存是对文献进行收集、标引及著录,并加以有序化编排。

信息检索是从大量的信息中查找出用户所需的特定信息的过程,而实施检索的主要方法就是利用各种检索工具。在主题概念表达上分类语言的一个显著特点是用码号(如字母或数字)作为文献的标识,标引或检索时都必须使用分类号。主题语言则是直接以自然语言中的话词作为标引和检索的标识。在主题概念的组织上主题法与分类法都要将主题概念组织成可迅速查找的检索工具或检索系统。分类语言主要是按学科体系或逻辑体系组织的,由于分类体系不是显而易见、易于掌握的,因此用户在使用分类检索工具或检索系统时,往往难以确定新主题、细小主题以及复杂主题在体系中的准确位置。主题语言按照语调的字顺来组织主题概念,因而可以直接依名检索。在主题内在关系的显示上分类语言中主题内在关系主要通过上下位类、同位类以及交替类目、参见类目和类目注释来显示。尤其在体系分类表中,类目之间的等级关系可以通过类目排列的位置、乃至字体的不同而直接明显地展示由来。因而分类法系统的系统性、等级性强,便于进行浏览性检索,并可以根据检索的需要进行扩检和缩检。主题语言中,主题内在关系主要通过建立词间参照系统的方式来显示。此外也通过辅助索引进行分类显示。所以,在主题词表中,相关主题之间的关系难以直接地、一目了然地展示出来,因而在族性检索、尤其是较大范围课题的检索中,不如分类语言。在标引方法上使用分类语言标引时,主题分析的重点是辨别确定文献主题的学科性质,以便进一步确定所属类目。

此外,从信息检索技术角度来说,布尔逻辑检索技术就是指利用布尔逻辑运算符进行检索词语和代码之间的逻辑组配运算,从而获得检索结果的一种检索方法。这是计算机信息检索中最基本的也是最常用的技术。对于一般用而言,截词检索(Truncation)是一种常用的检索技术,特别是在西文检索中,更是广泛使用。截词检索就是对词的片断进行比较,检索者将检索词在合适的地方截断,然后以截出的词语片断进行检索。在检索系统中,为了提高检索的准确率,缩小检索的范围,通常用一些限制的手段和方法。使用这些方法进行检索通常称为限制检索(Limit Search)。常用的限制方法就是字段限定。此外,全文本检索技术(Full text Searching)是对数据库纪录的全文文本检索,即纪录中的每个词都可以作为检索入口,且可以限定词与词之间的语义关系。全文本检索也有人把它称为自由文本检索。随着信息技术的进一步发展,尤其是功能更加强大的搜索软件的普及,已经为广大用户带来了极大的便捷。

基于Web的学生信息检索系统设计 篇7

一、系统总体结构:

学生信息检索系统开发采用JAVA语言开发, 配合以中型数据库管理系统 (DBMS) , 以实现对全国学生信息的网络检索。系统结构图由上至下依次为系统用户界面、用户界面支撑平台、系统数据库、系统服务器平台和硬件支撑平台。

最上面一层是系统用户界面, 使用户与系统交流的唯一途径。系统用户在用户界面提出自己的请求, 系统通过用户界面返回给相应的应答。往下一层是用户界面支撑平台, 可以是IE或者火狐 (Firefox) 等浏览器, 它是为用户界面的使用提供平台, 用户界面必须以它为载体。再往下一层为系统后台数据库, 用于存储学生信息索引表和系统用户信息等数据, 在这数据库可以选用SQL Server或MYSQL这些中小型数据库, 这些数据库操作简单而且耗费较小, 充分考虑到系统的实用性。再往下一层是系统的服务器平台, 服务器为系统后台应用程序提供服务, 比如系统的后台搜索器和索引器以及后台数据库系统, 服务器系统可以采用tomcat或者JBoss, 它们对JAVA的支持很好。最下面一层为系统的硬件支撑平台, 系统的硬件服务器和存储磁盘, 服务器选用IBM/HP/Lenovo/DELL这些知名服务器生产商的产品, 充分考虑到服务器的稳定性和可靠性。

二、系统设计思路:

本系统是对搜索引擎的一种应用, 但是也做了小小的改动。一般的搜索引擎的核心部件有搜索器、索引器和检索器组成。而本系统引用了搜索引擎的搜索器和索引器, 利用搜索器获取信息, 用索引器组织信息, 摒弃了检索器。

1. 搜索器:

搜索器, 有名蜘蛛机器人。其功能是日夜不停地在网络漫游, “耙”回信息。它要尽可能快、尽可能多的搜索各种类型的新信息, 还要定期更新已经搜集过期的旧信息, 以回避死链。目前有两种搜集信息策略:按URL和域名查询。经过分析, 本系统采用按域名查询策略, 这样可以将搜索器查询范围缩小到学生经常访问的一些社交类网站 (比如人人网、开心网) 和各地区教育网站还有各大院校、中学的BBS论坛等学生信息集中网站。在缩小范围的情况下, 可以降低搜索算法的复杂度, 同时可以减轻服务器负荷。同时在编写搜索算法时, 将搜索词关于学生的具有代表性的词汇 (比如班级、学校等) 提高优先级, 提高搜索的信息有效性。

同时为了让蜘蛛机器人能准确查询最新的学生信息, 设计搜索关键字更新程序, 分析搜索器“耙”回来的网页, 从中分析网页所包含词汇和最新URL链接并与事先设定好的关键字和URL链接做比较, 比较它们的网络热度 (也就是在网络上搜索次数) , 如果网络热度大于设定关键字和URL, 这时替换旧的关键字和URL, 否则丢弃。

2. 索引器:

搜索引擎索引器的功能是理解搜索器所搜集到的信息, 从中抽取出索引项, 用于表示文档以及生成文档库的索引表。本系统采用目录的形式作为版面设置, 所以索引器在建立索引项时参照用户界面目录建立索引项、生成索引表。索引器可以采用集中式索引算法或分布式索引算法。由于考虑系统的规模、系统信息量比较小和信息单一的原因, 系统采用集中式索引算法, 这样可以布置简单的服务器系统或者共用搜索器服务器。索引表采用到排表 (Inversion List) , 即由查询项查找相应文件, 从而实现对信息的检索。

三、系统用户界面的设计:

系统用户界面是系统与系统用户交流的窗口。所以用户界面的设计一定要友善、易用, 符合用户的使用习惯。该系统用户界面采用目录结构, 将关键字按照共有属性组合 (比如地区、爱好) 。用户登陆界面采用通常的用户名+密码验证用户信息。

用户界面还提供用户注册入口, 用户可以从注册入口进入用户信息填写页面填写用户信息, 完成注册, 用户信息将被记录到数据库的用户信息表内, 备用户登录服务器判断是否为系统合法用户的依据。

四、系统数据库和文件存储设计:

本系统涉及的数据库数据量比较小, 所以采用运行速度快、保存记录多的MYSQL数据库, 并且它还是完全免费使用。系统数据库主要存储索引项和系统用户信息, 系统建立时建立两张基本表, 分别存放索引项和系统用户信息。系统搜索器“耙”回的学生信息一文件的格式存放在硬件磁盘上, 用户调用时通过索引器建立的系统用户界面的目录项链接到索引器建立的索引项查询磁盘, 实现学生信息调用。

五、系统安全考虑:

系统安全包括系统数据安全和系统的硬件安全。系统数据安全主要涉及系统用户信息泄漏和系统信息的损毁。硬件安全主要涉及对系统硬件系统的保护, 防止受到人为和自然因素的破坏。考虑系统安全问题, 可实施以下安全措施:

1、一般安全措施:

就是要采取一些保护计算机设备、设施 (含网络、通信设备) 以及其他媒体免地震、水灾、火灾、有害气体和其他环境事故 (如电磁污染) 破坏的措施、过程。这是整个管理信息系统安全运行的基本要求。

2、系统数据安全措施:

数据是信息的基础, 是企业的宝贵财富。信息管理的任务和目的是通过对数据采集、录入、存储、加工, 传递等数据流动的各个环节进行精心组织和严格控制, 确保数据的准确性、完整性、及时性、安全性、适用性和共亨性。制定良好的信息安全规章制度, 是最有效的技术手段。而且不仅仅是数据, 还应把技术资料、业务应用数据和应用软件包括进去。

3、病毒防御:

为防止病毒攻击系统和数据库, 系统服务器配置Mc Afee Network Protection解决方案, 它有效确保系统的安全性和性能。

总之基于WEB的学生信息检索系统是对WEB搜索引擎和数据库的综合应用, 以JAVA语言实现系统设计。应用网络信息量大、信息广的特点, 利用搜索引擎独特的网络数据查询优点, 实现对大范围内学生信息的检索, 解决民营教育机构获取学生信息的局限性。同时利用数据库的数据组织能力, 对获取到的学生信息进行有序组织, 方便了民营教育机构的招生代表对学生信息的查询。

参考文献

[1]杨志勇孟莲蓉基于J2EE的发射台设备器材管理系统设计与实现计算机与现代化2011 (04)

[2]张汛涞搜索引擎的设计剖析计算机工程与科学2002 (04)

[3]温志宏, 赵淑芳基于互联网的公开数据挖掘研究[J]机械管理开发.2007 (05)

[4]中国民办教育生产报告

信息检索系统 篇8

当今社会,科学技术是第一生产力。据世界知识产权组织的权威资料表明,90%的最新技术首先是以专利信息的形式表现出来,世界范围内每年大约有近百万项专利被授权。专利数据信息量非常巨大,而且还在不断的增长和变化。专利信息系统性能的关键就是在如此海量且动态变化的数据资源中为人们提供最快的检索服务和最全面的信息。传统的关键字查询,由于知识领域的限制和关键字查询自身的不足,无法提供给用户全面的查询结果。如用户输入关键字“计算机”,系统只能提供与“计算机”相关的查询结果,但无法提供与“电脑”、“PC”相关的查询结果,而“电脑”、“PC”是与“计算机”等价的。引入本体虽然可以改善上述情况,然而目前应用的本体大部分由领域专家手工搭建而成,过程复杂、工作量大、不能更新、过分依赖专家。本文提出一种基于词典的本体半自动构建方案,全面介绍了针对专利信息检索系统的本体半自动构建的系统模型。

1 本体构建技术

本体的构建技术可以分为从自由文本生成本体、基于词典生成本体、从知识库生成本体、从关系模式生成本体等,本文重点研究从自由文本生成本体的技术。这种技术应用自然语言处理技术从文本中提取本体。根据使用技术的不同,又可进一步分为基于概念聚类、基于关联规则和基于模式等方法。

1.1 基于概念聚类的方法

D.Faure的方法采用基于分层的概念聚类法[1],它的基本聚类器包含了一些词语固定搭配,这些搭配都由动词加介词的形式构成。该方法包含两个步骤:概念化和聚类。L.Khan等人使用聚类技术和WordNet从文本文档创建领域本体[2],创建过程自底向上。首先,使用一些聚类技术创建文档的继承结构,并确定它在整个继承结构中的具体位置。利用WordNet和主题跟踪算法,为层次结构中的每个文档聚类分配适当的概念,从而形成本体。

1.2 基于关联规则的方法

A.Maedche 等人开发了基于关联规则方法的本体生成工具Text-To-Onto[3]。该工具是一个集成环境,能从初始的核心本体生成满足要求的领域本体。生成的领域本体包含特定领域和与该领域无关的概念,去除领域无关的概念,保证领域本体内的术语能适应领域应用的需求。该方法的整个过程需要本体专家监督,学习过程需要循环进行。

1.3 基于模式抽取的方法

M.A.Hearst 给出了一种同义词模式的方法[4],用于自动寻找本体概念间的关系。该方法寻找与现有本体相关的概念,判断它们之间是否存在词汇模式上的关联,这种关联就是概念间的关系。不足在于错误率过高,生成结果需要专家进行验证。

结合专利信息检索系统自身的特点,采用基于概念聚类的方法构建本体,此方法是自底向上的创建过程。然而,以完全自动化的方式建立一个精确的本体也是非常有难度且复杂的过程,概念的获取、概念间关系的获取以及本体术语的描述是阻碍人们进行本体自动构建的三大难题。国外已有部分研究人员对本体构建工作进行了研究,但总的来说完全从零概念开始自动构建本体是十分困难的。综上分析,本文提出了一个以用户兴趣为指导的、基于词典的中间扩展半自动构建本体的方案。

2基于WordNet的本体半自动构建系统模型框架及开发工具

2.1 系统模型框架

对专利信息检索系统而言,实现半自动构建本体不是目的,指导查询和服务用户才是其最终目标。专利信息有着特殊结构与内容,包括专利的申请号、申请日、公开/公告号、专利号、公开/公告日、国际公布号、主分类号、副分类号、专利申请人、专利发明人、通讯地址、发明名称、优先权项、颁证公告日、代理人、代理机构、摘要等信息,从中选取最能反映专利信息的几个字段作为构建本体的数据源。

设计思路:通过兴趣获取模块获得用户兴趣,得到构建本体的领域。搭建一个专利的领域本体雏形,在雏形的基础上不断扩充和丰富本体的概念关系,从而完成本体的自动构建。构建好的本体用来指导查询,为用户提供更加全面且具有趋势向导作用的信息。 系统可以分为以下三个模块(如图1所示)。

其功能如下:

(1) 兴趣获取

获取用户群所感兴趣的范畴领域。

(2) 信息挖掘

在兴趣范围内进行数据挖掘工作。

(3) 本体构建

概念匹配和本体构建和提取。

整个过程中,词典是本体自动构建的基础。我们的实验以英文专利信息检索为主,因此系统词典选用有名的英文电子词典WordNet,当前比较权威的电子词典,为自然语言处理和机器翻译等方面的研究提供了宝贵的资源。

2.2 系统开发工具

(1) 本体编辑工具

目前为止,已经出现了很多本体编辑工具,比如Protégé系列,OntoEdit,OilEd,Ontolingua,OntoSaurus等,本文重点介绍Protégé。Protégé由Stanford大学开发的著名的本体编辑工具之一,它是一个免费和开源的本体编辑平台,基于Java语言开发,可跨平台使用,支持功能上的扩展。 Protégé可以直接对类、实例和属性等进行编辑操作。基于以上优点,采用Protégé作为构建本体的编辑工具。

(2) WordNet词典

WordNet是一个基于心理语言学的在线词汇参照系统。WordNet将所有英语词汇分成五类:名词、动词、形容词、副词和功能词。名词在词汇记忆中被组织成主题的层次,动词被组织成各种推演(蕴涵)关系,而形容词和副词被组织在N维超空间中。WordNet用人熟悉的拼法来表示词形,用同义词集Synsets(在一定上下文中可互换的同义词形的列表)来表示词义。每个Synset在WordNet中都有唯一的ID索引号,是意义明确的唯一概念,Synset间定义的语义关系可看作它们之间的指针。

(3) 本体文件解析工具

为了扩展本体雏形,需要对其进行本体文件的解析,我们采用Jena作为本体文件的解析工具。Jena提供了对知识本体访问的java语言接口,包括:读入、写出RDFS、DAML、OWL等形式知识本体文件的方法接口、具有访问RDFS、DAML、OWL等形式知识本体的子类、类所具有的特性以及特性的方法接口。经Jena解析后的本体,其数据形式是以Statement对象结构作为基本数据结构。

3 结 论

3.1 兴趣获取模块

获取用户兴趣模块,将用户的检索记录以TXT格式保存下来,在WordNet词典的辅助下,利用ROST4.0版(英语词频统计工具)对用户群检索记录进行绝对词频统计,获得频率最高的一组关键字。将这些关键字对应到IPC分类中,以此确定构建本体的领域。例如,通过此模块获取到出现频率的关键词是与电梯相关的,那么把构建本体的领域锁定在电梯相关领域,即其IPC分类号为B66B1。检索结果为发明专利1567条,实用新型专利814条,共有2381条专利信息。

3.2 信息挖掘模块

这一模块的关键就是概念发现。此模块主要功能是对数据进行概念识别。领域概念都是名词,在进行信息挖掘的字段中,对不同类型的字段要进行不同的处理。比如日期型与字符型其处理方式不相同。例如摘要信息是文本字符串,不能直接进行概念匹配。在进行概念匹配之前,我们还需进行分词处理及数据净化。从摘要信息中挖掘出重要的信息同样也要计算词频,这一步骤与 3.1节中介绍的不同之处在于:不再计算绝对词频而是相对词频——归一化的词频,公式为TF-IDF[5](Term Frequency Inverse Document Frequency)。

Wik=tfik×log(Νnk+nf)k=1n(tfik)2×log2(Νnk+nf)(1)

利用TF-IDF计算词语权重,考虑这样三个因素:(1)词频tf:该词语在给定文本中出现的频率。tf是和文本相关的一个统计量,它用来度量一个词在一篇文本中的重要性;(2)词的倒排序文本频率idf:该词语在文本集合中分布情况的量化,常用的计算方法是log(N/nk+0.01)。其中N表示全部训练集的文本数,nk表示训练文本中出现该词的文本数。idf越小说明该词越普遍,当该词在集合中的所有文本都出现时,idf值为零。这与我们的经验相吻合:越是普遍的词对于区分文本的贡献越小。(3) 归一化因子(Normalization Factor):考虑到文本长度对权值的影响,对分量进行标准化,将各项权值规范在[0,1]之间。

3.3 本体构建模块

(1) 本体雏形

事先建立一个本体雏形即引入领域本体,以此雏形作为发展的基础,通过知识挖掘的方式,从实际数据中抽取领域概念,进行本体内容扩充,扩充过程不断地循环,直到本体完善。图2是建立的一个专利信息领域的本体雏形。

图2中方框是专利信息中固有的概念,椭圆是抽象出来的本体概念,由于构建本体的领域是在兴趣获取模块执行后才能获得,最初的本体雏形的大致如图2所示。其中IC(Invent Class)分类号,TI(Title)发明名称,AN(Assign number)申请号,AD(Assign Date)申请日期,AB(Abstract)摘要,AGT(Agent)代理人,AGO(Agent Organization)表示代理机构,PA(Patent Assignee)申请人,AA(Assignee Adress)通讯地址。

(2) 概念匹配

概念发现得到的概念信息要添加到本体雏形,必须要在本体雏形中找到某个概念,使得其与该概念的相关程度比较大,这样,概念之间的关系才能准确。在本系统中采用基于WordNet语义相似度计算来解决概念之间的关系发现。WordNet中的词汇信息是以Synset组织的,基于WordNet的词与词的语义相似度就转换为两个词的所包含Synset的所有可能组合下相似度的最大值。基于WordNet的语义相似度计算由(2)所示:

Sim(W1,W2)=ΜaxS1jS1,S2jS2(Sim(S1i,S2j))(2)

其中Sim(W1,W2)表示词W1和W2的相似度,Sim(S1i,S2j)表示Synset S1iS2j的相似度,S1(S2)表示词W1(W2)在WordNet 中包含的Synset的集合。但是考虑到在特定的本体中,概念的意义已经唯一确定,若先统计出概念(或属性)关键字在特定本体中的具体含义,即得到具体的Synset,然后再计算相似度将能大大地提高实例的质量。因此,本文采用下面的方法进行改进。

先人工地获得一些概念(或属性)的实例,然后根据公式(2)计算每个实例和概念关键字的相似度,统计每次得到最大值时关键字Synset的序号,次数最多的Synset作为此关键字在本Ontology中的具体含义。得到具体的关键字后,采用公式(3)计算训练文本中的词与关键字间的相似度。

Sim(Key,W)=Max(Sim(K,Si)) (3)

其中,K为关键字Key在本体中的具体含义,S为词W所包含的Synset集合。在本文中我们采用公式(4)计算两个Synset间的相似度。

Sim(Si,Sj)=-logαDis(Si,Sj)+βΔDepthΚ(4)

其中,Dis(Si,Sj)是SiSj 在WordNet语义树中的距离,△DepthSiSj 到WordNet语义树中最近的共同的父Synset的距离之差,αβ:是两个常量且α+β=1,K为常量。个体概念与本体匹配的算法:

Each Concept—Ci and Concept gronp which is formed after parsing ontlogy—C[n]

Boolean flag=False://flag signs if the Concepts matching is successful.

For(j=0;j<n;j++)

{

if (the charactors of CiandC[j]matches successful)

{

flag=True;

Put Ci into the child—concept of C[j];

Exit;

}

}

if(!flag) // computing the conepts simlarity based on terms Distance

{

j=0;

MaxSimlity=0.0;

While(n>j)

{

if(Sim(Ci,C[j])=1)

{

fiag=True:

Put Ci into the child—concept of C[j];

Exit;

}else

{

if(MaxSimlity<Sim(Ci,C[j]))

MaxSimlity=Sim(Ci,C[j])://Save the MaxSimlity

}

j++;

if(flag)Exit;

}

在算法中,如果flag的最终结果为True,说明在本体雏形中找到了同义的概念;若flag最终结果为False,则根据MaxSimility认定与概念Ci的相似度达到了MaxSimility值的那个概念是Ci的父概念。

目前有大量的基于WordNet的语义相似度计算方法,在计算两个Synset间的相似度时由最初仅仅考虑两个Synset在WordNet语义树中的距离,发展到现在考虑Synset在语义树中的深度和密度等信息。在本文中,具体的Key在本体的具体含义即公式(3) 中的S是已经确定的,那它在WordNet语义树中的深度和密度也已经确定,所以本文并没有考虑深度和密度信息。

(3) 本体提取

当新概念产生时,将新概念中与原有概念的语义相似度最大的概念加入到现有本体中。本体的自动或半自动构建过程是一个需要不断完善的过程。领域本体最初是引入一个本体雏形,其不具备全面的领域知识。我们进行本体的构建过程,就是要将领域本体不断完善。

针对专利信息,以领域本体为模板,进行应用本体的构建。构建过程中,可能会产生新的概念,将这些概念添加到领域本体中,促进领域本体的完善和发展,这就是本体不断完善、提取的过程。

4 实验结果

随机抽取几个关键字,根据其一般的关联关系获得该关键字以及与其相关内容的检索记录,使用应用方案后的系统检索得到数据,与使用之前进行查全效果的对比分析,分析结果如表1所示。

表1反映的是应用方案前后查全效果的对比,从表1中可以看出,除了“Display”和“Car”外,其他关键字在结果上都有了明显的增多,其原因在于本文中构建的本体基于电梯相关领域,检索中对于电梯相关的关键词的查全效果会有明显改善,而关联不大的“Display”、“Car”效果就非常小了。

5 结论和进一步的研究

本文提出基于词典的本体半自动构建方案,基于概念的聚类方法从专利的摘要信息中挖掘概念以及其潜在的关联,并以此构成本体,与以往的靠领域专家构建的本体相比,大大减少了人工操作的复杂性,降低了对专家的依赖性,而且可以方便更新。本文详细描述了将这套方案应用于专利信息检索系统实现的各个模块及流程。从实验结论可以看出,将本体引入后对检索查全率的改善。下一步的工作将把这套方案应用于中文信息的检索,利用中科院计算所的ICTCLAS10进行中文分词处理,引入HowNet中文词,是系统支持中|英文的半自动构建本体。

摘要:检索系统可以通过引入本体来弥补传统关键字检索语义匮乏的缺陷,然而,领域专家构建本体存在过程复杂、工期长、更新困难等弊端。为此,综合分析多种本体构建方法和技术,针对专利数据的特点给出一套半自动构建本体的方案,在此基础上提出基于半自动构建本体的专利信息检索系统的体系框架,描述系统原型的设计思想和检索流程,通过实验验证该系统能很好的扩充延伸检索词,明显地提高了检索效率以及查全率。

关键词:本体半自动构建,WordNet,用户兴趣获取,专利检索

参考文献

[1]Faure D Poibeaut.First experiments of using semantic knowledge learned by ASIUMfor informa-tion extraction task using INTEX[C].Berlin:Pro-ceedings of theWork shop on Ontology Learning,14th EuropeanConference on Art ificial Intelligenc-e(ECAI’00),2000.

[2]Khan L,Luo F.Ontology construction for information select ion[C].Washington D C:Proceedings of14th IEEE International Conference onTools with Artificial Intelligence,2002.

[3]Maedche A,Volzr.The text-to-onto ontology extraction,maintenanceenvironment[C].Calif-ornice:Proceedings of the ICDMWork shop onint-egrating data mining,knowledge management,2001.

[4]Hearst MA.WordNet:an electronic lexical database[M].Cambridge:MITPress,1998.

[5]MaronME.On relevancep robabilisticin dexinga ndin formation retriva[J].Journal of theACM,1960,70.

[6]Mike Uschold.Ontologies:principle,methods and application.TheKnowledge Engineering Review.1996,11(2):93-136.

[7]Enrico Motta.Trends in knowledge modeling:report on the7th KEMLWorkshop.The knowledge engineering review.1997,12(2):202-217.

[8]Gruber.Ontolingua:A Mechanism to Support Portable Ontologies Version 3.0.Technical report.KSL,Stanford Univ.1994.

[9]宋炜,张铭.语义网简明教程[M].高等教育出版社,2004,6.

信息检索系统 篇9

随着万维网的不断发展与互联网信息量的增加, 如何监管和控制敏感信息, 使之不会对网络和社会产生危害, 是一个复杂而困难的问题。通过建设有效可行的网络敏感信息检索模式是信息检索应关注的方向。考虑到当前搜索引擎涉及到的索引页面都在几十亿以上 (Yahoo报告为192亿网页, 中文方面Sogou声称的索引量也超过百亿) , 利用传统的方式进行网络敏感信息检索会是一个既耗费人力又耗费时间的过程。如何从大量信息中迅速有效地提取出所需信息以及网络信息的深层加工处理、信息提取并报警, 将是一项重要的研究课题。

本文从实际应用需要出发, 通过搜索引擎技术研究设计了网络敏感信息检索系统, 本文从互联网环境下的面向服务计算角度出发, 介绍基于搜索引擎技术的信息检索系统的设计与实现。在对通用web搜索引擎的结构和原理进行分析的基础上, 结合实际信息处理检索的特点, 详细论述了Web信息采集及其存储、索引库的建立、基于检索模型的敏感信息提取的相关技术与方法。对网页消重、内容提取、网页内容和链接分析的页面排序、中文分词算法等, 都作了较为深入的分析与实践 , 并给出了具体实现的算法思路以及实现了一个可以实际运行的系统, 最后提交该系统运行的性能指标。

2 系统组成

2.1 系统总体架构

2.2 分析与设计

针对复杂、海量、非结构化的Web文本数据类型的特性, 设计了包括网页搜集模块、网页分析索引模块、信息检索及报警等模块的网络敏感信息检索系统, 各个模块通过数据结构和程序接口相互通讯, 共同完成系统的功能。

2.2.1 网页搜集模块

网页搜集是指从Web网页中的半结构化或非结构化的数据中, 采集一类信息 (例如事件、事实) 并将其形成结构化的数据, 最终存入数据库或格式文件中, 以便用户查询或进一步作信息处理的过程。一个搜索引擎的数据库是否数据全面关系到搜索的范围和搜索引擎的可用性。

本模块包括系统设置子模块、域名解析子模块、URL维护子模块、抓取网页子模块。系统设置子模块和域名解析子模块属于信息采集模块的预处理部分, URL维护子模块和抓取网页文档子模块属于信息采集模块的处理部分, 最终我们得到URL信息库。

URL信息库主要存储搜集来的网页, 主要存储网页的URL信息, 用来记录本搜索引擎目前所能涉及到的网页文档的集合。

敏感词的设定在系统设置模块完成。

2.2.2 网页分析索引

负责将网页搜集模块下载下来的网页抽取成纯文本的形式。包括信息预处理和信息索引两部分。信息顸处理主要完成网页内容预处理和链接分析预处理。网页内容预处理包括对网页信息库中网页的净化和标题信息提取, 网页净化可以避免索引到无意义、无关的信息, 而标题信息提取是为了提高索引的准确率。链接分析预处理是对信息采集中得到的原始链接库进行分析, 计算出每个网页的出度和入度信息, 储存到链接信息库。

信息索引主要完成网页内容的索引建立。由于采集的web信息比较庞大, 而且相对稳定, 不会反复地更改信息, 信息的索引与存储一般采用自定义的索引结构来实现。目前有三种基本的索引技术:倒排文件、后缀数组和签名文件。由于本系统是基于关键词的, 比较符合倒排文件机制的特点, 本系统的信息索引用Lucene.net全文检索工具包 (它是以倒排索引机制实现) 来实现。

索引库又称核心资源库, 是用户获取信息的直接来源。

关于分词模块, 为了提高中文分词的准确率, 从而改善索引效果, 本系统采用基于字符串匹配的正向最大匹配法, 并结合双字哈希机制来设计新的中文语言分析器。

关于索引模块, 索引的组织方式对于搜索引擎的检索效率起着关键作用, 在网页信息库的网页信息经过信息预处理后, 系统将网页信息构造为一个个的文档对象, 在设定好索引文件存放路径, 并且指定了文本分析的语言分析器后, 索引器就可以将文档对象逐次加入到索引库中。索引器将自动地把加入的文档进行切词, 生成小段, 并且完成必要的小段合并, 将索引信息保存到本地文件中。在完成了网页信息库的索引之后, 系统调用索引优化方法, 对索引文件进行合并优化。

2.2.3 信息检索及报警模块

检索的过程是根据用户提交查询返回相关结果集的过程。检索模块是搜索引擎与用户的接口部分, 它为用户提供一个界面, 即用户界面, 它应包含两个功能。首先是引导用户输入查询信息, 功能大致与其它搜索引擎的用户界面相似, 其次, 用户界面还应该起到一个导航的作用, 逐级地提示用户。此外, 查询模块还应包括一个解释器, 主要负责把用户的输入翻译成查询执行器能够读懂的语法格式 (包括逻辑表达式) , 然后由查询执行器搜索索引数据库, 最后将结果排序后返回给用户。由此可见 , 检索模块包括用户界面、解释器和查询执行器。

报警模块系统提供了自动执行和手动执行两种运行方式。

3 几个关键技术

3.1 下载网页消重

为了防止重复下载同一个网页, 我们需要记录已经访问过的URL来防止重复。如果以字符串的形式直接存储URL, 那么既费内存空间, 又浪费查找时间。现在的网址一般都较长。假定网址的平均长度为一百个字符, 那么存贮10万个网址本身至少需要9.5MB的容量, 如果把这些URL放到了计算机的内存中, 由于网址长度不固定, 以字符串的形式查找的效率会很低。因此, 我们必须对URL进行信息签名, 用固定位长的信息签名代表URL, 来提高URL消重的效率。

为了获得更小的误检率 (误认为重复的概率) , 同时消耗较小的存储空间, 本系统采用BloomFilters消重法 (以下简称BF方法) 。其原理为:建立一个m位的位向量v, 并且将所有位都置为0, 然后选择k个独立的哈希函数h1, h2, …, hk, 每一个哈希函数得到的哈希值都在 (1, …, m) 范围之内。这样, 对于每一个要处理的元素a∈A, 在位向量v中h1 (a) , h2 (a) , …, hk (a) 的对应位都被置为1。当要查询某个元素b是否已经存在时, 我们检查位向量v中h1 (b) , h2 (b) , …, hk (b) 的对应位, 如果其中有一个以上为0, 则表示元素b不在A中, 否则表示b在A中。

BF方法和哈希表方法一样, 存在着误检率, 没有漏检率 (误认为没有重复的概率) 。

BF方法也是通过计算哈希值来实现, 不同之处BF方法为每一个uRL计算多个哈希值, 并且对多个位进行置位, 从而降低了误检率, 提高了存储空间的利用率。

BF方法的误检率p主要取决于三个因素:

m——位向量 (哈希表) 的长度

n——要处理的元素数目

k——哈希函数的数量

它们之间满足关系

p= (1- (1-1/m) kn) k≈ (1-ekn/m) k

当k=ln2×m/n时, p可以取得最小值, 为 (1/2) k= (0.6185) m/n。也就是说, 对于给定的m和n, 哈希函数数量k的最优值是ln2×m/n, 此时误检率最小。如果要将误检率控制在0.0001, 10万的URL最好采用10个哈希函数, 此时需要的位向量长度约为1969761bit (0.23MB) 。

3.2 网页主题信息提取研究

结合网页内部特征与外部的结构布局, 系统采用映射表这种网页关系模式对网页视图进行变换, 根据结构与启发式规则对网页进行区域分割与识别, 并利用向量空间模型对网页内容分析, 从而准确得到具有高语义内聚性的网页主题内容, 有着较高的准确性, 并且该方法处理速度快。系统通过构建关系对照表、获取网页区域特征、量化区域内容、去噪完成主题内容提取。

3.2.1 构建关系对照表

网页文档关系对照表主要是对头部和主体部分中文本条映射, 即头部映射、文本条内容映射、文本条属性 (视觉、结构、语义) 映射。对HTML文档提取关键信息从而生成关于HTML文档的内容属性关系对照表, 即:f (Di , i∈n) →, 其中Di为HTML文档集, Ti为对应的每个文档的内容属性关系对照表。

3.2.2 获取网页区域特征

根据网页的区域结构布局特征, 设页面P= (A1, A2…An) , 其中网页区域Ai= (TextItemi1, TextItemi2 …TextItemij) , TextItemij= (TextAbttributeMap, TextContentMap) , TextAbttributeMap为文本条的结构、视觉和语义属性映射, TextContentMap为文本条内容映射。

在一个网页内, 每个区域可以用5个变量来表达其语义特征:

CountRatio:区域内有链接与无链接文本条内字符总个数的比值

LinkAvgCount:有链接文本条内字符的平均个数 (均值)

FormalDegree:字符的方差 (方差)

AvgCountDiff:无链接与有链接文本条内字符平均个数的差值

CharMaxCount:区域内文本条字符的最大个数。

3.2.3 区域内容量化

区域内容量化表示采用向量空间模型。向量空间模型 (VSM) 是一种较为常用的信息获取模型。对于一个网页各区域内向量权重计算, 采用TF方法, 如公式 (1) , 其中tfi是第i个关键词在该区域中的出现频率, n为区域内关键词的个数。假设两个区域U, V, 两者的相似度可用向量之间的夹角来度量, 相似度计算如公式 (2) 。

wi=undefined

Sim (V, U) =cos (V, U) =undefined

3.2.4 噪音滤除

网页标题与网页的上一级链接文本, 具有高度的主题概括性, 将二者组成新的区域S, 计算S的特征向量的权重。

非主题相关标签过滤:利用公式 (1) 分别计算每一个主题标签区Ai与S的相似度, 把高于相似度阈值的主题标签区保留, 其余滤除。

版权区过滤:最后一个区域一般为版权区, 通过在此区域查询 “版权所有”等文本向量, 如果有, 并且主题文本区不唯一, 则将其滤除。

导航区过滤:判断如果区域Ai为导航区, 直接将其滤除。

3.3 构建检索模型

检索模型是基于内容的检索服务器的核心, 决定了索引组织的模式及信息查找的方式。文档检索系统的核心是搜索器, 它需要从纷繁复杂的大量文档中, 筛选出符合用户需求的文档。例如, 用户希望从文档信息库中查询有关中文分词方面的信息, 如果查询出的结果为中文词汇写作方面的信息, 则不能满足用户的需求。同时它还要对符合用户需求的所有文档, 按照用户的需求进行排序, 尽量让用户最需要的文档显示在首页或前面。

一个信息检索模型是将文档表示、查询以及它们之间关系进行建模的框架, 它由一个三元组表示:F[D, Q, R (qi, dj) ], 其中, D是文档集中的一组文档逻辑视图;Q是一组用户信息需求的逻辑视图, 这种视图被称为查询;R (qi, dj) 是一个排序函数, 该函数输出一个与查询qi∈Q和文档表示dj∈D有关的实数。这样就在文档之间根据查询qi定义了一个顺序。

系统的检索模型。设T={t1, t2, …, tn}为系统的特征项 (Term) 集合, P={p1, p2, …, pn}为网页信息库中的网页信息集合, 如果再设项t与网页p的相关度函数为R=r (t, p) (如果相关则为取值大于0的正数) , 则系统的索引库可以表示为I={|r (f, p) >0, (t, p) ∈TxP}, 整个系统可以定义为一个三元组S={| (t, p, i) ∈T×P×I}。这样, 对于一个关键词w来说, 所有检索结果的集合Q (w) ={p| (Term (w) , p) ∈R, p∈P}, 也就是说与关键词对应项相关的网页集合。从检索模型看, 检索结果主要决定于两个因素:关键词与特征项的匹配和相关度的计算。

信息检索的实现过程主要是构建检索工具和查询对象。其主要实现如下:

3.3.1 构建检索工具

使用Indexsearcher类来对索引进行检索, 初始化一个Indexsearcher时, 首先要指定索引存放的路径, 我们从系统设定中读取到路径, 然后构建检索工具。

3.3.2 构建查询对象

由QueryParser类来完成将各种用户输入的字符串转为一个内部的Query对象或Query对象组。QueryParser有许多符合各种需要的子类, 由于我们将网页信息按重要程度分字段索引, 我们使用MultiFieldQueryParser类来构造多字段查询的查询对象。

3.3.3 执行查询, 并显示到页面

检索结果的集合是用Hits对象来保存, 所有的Search方法都将返回一个Hits对象。因此, 我们定义一个Hits对象接收结果, 并且统计结果信息, 将结果显示到页面, 其中还需要读取排序规则和高亮设定来确定显示效果。

3.4 页面优先度排序算法的设计

在检索模块根据用户提交关键词检索索引库时, 返回的每一个结果与关键词的相关度都是不同的。为了将与关键词相关度高的结果显示在最前面, 从而让用户迅速找到想要的结果, 我们需要对返回的结果进行优先度的排序。Web有两个基本的构成因素:网页和超链接。从这两个基本构成要素角度出发, 可以将页面优先度的排序算法分为两大类:基于页面内容的排序算法和基于链接分析的排序算法。

基于网页内容的排序算法只考虑了网页内容本身的特点, 无法体现web信息中网页间关系, 而基于链接分析的排序算法只反映网页间的关系。要体现web信息的整体特征, 就应该兼顾网页内容和网页间的链接关系。

本系统的采集范围是某个站点或者数个站点, 采集的web资源链接多是简单的推荐关系, 而基于链接分析的排序算法实现需要较高的计算代价。

本文提出了一种网页内容分析和网页间链接分析相结合的页面优先度算法, 算法的基本思想是:采用基于页面内容的排序算法, 辅以链接分析和uRL分析调整排序。对于页面内容, 我们根据不同的标记和文本位置, 赋予不同的权重, 分别进行索引;对于链接分析, 我们根据链接信息库中统计的网页出入度信息, 计算出网页的链接权值;对于网页的uRL, 我们分析出网页在站点中的深度, 计算出网页的深度权值。综合三者, 网页的权值W (p) 为:

W (p) =we (p) ×wd (p) +wt (p)

wt (p) =a (R (p) +bC (p) )

其中, we (p) 为内容权值, wt (p) 为链接权值, wd (p) 为深度增益因子, C (p) 和R (p) 分别为网页的出度和入度, a是链接评分的权重系数, b为出度系数 (0

4 系统性能指标

以天涯论坛网、新浪网、中华网论坛为搜集的目标网站, 通过预处理和分类器, 系统能根据设定的敏感字获取需要的某一类信息, 具体的性能指标如下。

5 结束语

本文最终构建了一个具有信息反馈与控制功能的基于搜索引擎的网络敏感信息检索系统。系统采用网页文本信息与敏感信息相匹配的方式, 根据网页中敏感信息的分布情况判断其是否含有敏感内容, 然后将敏感信息识别情况反馈并对此进行自动处理和记录。由于特种信息监控信息化在社会信息化的进程中成为非常重要的方面, 本论文是针对Web文本挖掘系统在这方面的应用, 提出了具体的应用模块。因此, 本论文的研究具有一定的理论意义与实用价值。

参考文献

[1]史忠植.知识发现.北京:清华大学出版社, 2002.

[2]宋睿华, 马少平等.一种提高中文搜索引擎检索质量的HT-ML解析方[J].中文信息学报[J], 2003.

[3]刘群.汉语词法分析和句法分析技术综述.第一届学生计算语言学研讨会 (SWCL2002) 专题讲座, 2002.

[4]牛忠兰, 陈跃新等.网络文本自动分类系统的研究与设计[J].微处理机, 2002, 5 (2) .

[5]沈洲等.一种面向新闻文献的自动摘要系统的研究与实践.计算机工程, 2000, 26, 9, 70-72.

[6]刘少辉, 懂明楷等.一种基于向量空间模型的多层次文本分类方法[J].中文信息学报, 2001, 16 (3) .

[7]Archie FAQ, http://www.ou.edu/research/electron/internet/archifaq.htm.

[8]中国互联网络信息中心, 中国互联网络发展状况统计报告 (2002/1) , http://www.cnnic.net.cn/develst/2002-1/in-dex.shtml, 2002.

[9]Apte C, Damerau F, Weiss S.Text mining with decision rules and decision trees.In:Proceedings of the Conference on Au-tomated Learning and Discovery, Workshop6:Learning from Text and the Web, 1998.

信息检索系统中的相关性探析 篇10

关键词:信息检索,相关性,系统,策略

一、相关性概述

相关性被认为是信息检索最基础的一个概念, 也是信息检索中最有争议的一个概念。信息检索的“相关性”是指信息检索系统针对用户的查询从文档集中检出的文档与查询之间的一种匹配关系。

1、信息检索中的“相关性”

在信息检索中, 当数据检索的精确性被信息检索的不确定性所代替后, 用户的查询与检出文档之间也就由匹配关系变为相关关系。因此, “相关性”这一概念就突显出来, 成了信息检索中的核心领域。信息检索经历了手工检索、计算机检索到目前网络化、智能化检索等多个发展阶段, 信息检索的对象从相对封闭、稳定一致、由独立数据库集中管理的信息内容扩展到开放、动态、更新更快、分步广泛、管理松散的Web内容。信息检索的用户也由原来的情报专业人员扩展到普通大众, 他们对信息检索从结果到方式都提出了更高、更多样化的要求。在这一过程中, 相关性一直是条主线。信息检索的核心是在文档集中为用户检索出最相关的子文档集, 或者按检出文档的相关程度进行排序, 作为对检索用户所提出查询的回应。

2、相关性的研究现状及发展方向

目前, 对相关性的研究主要有两个分支。一是来自计算机科学界, 研究主要是围绕信息检索系统展开, 包括系统的分析、设计、检索算法以及性能评估等, 尤其是表征用户信息需求的查询表达式与文档的匹配算法与模型是核心的研究内容, 他们被称为系统中心学派。另一个是来自图书情报界, 他们的研究重点是用户或者检索中介在检索过程中的认知、交互以及情境等层面, 被称为用户中心学派。尽管这两个学派研究的内容区分明显, 不过他们研究的目的是相同的, 即都以提高信息检索系统的性能以及用户的满意度为目标。

二、基于信息检索系统模型的相关性研究

当今, 几乎所有搜索引擎的技术思想都是基于关键词匹配或者基于内容分类目录, 所以检索结果的精度不高。现在人们在基于本体的信息检索系统模型和基于推理网络的信息检索系统模型上采取了一系列相应的办法, 通过对历史资料的学习和本体的推理机制, 可以进一步提高检索结果和检索目标的相关性, 从而使得检索结果更加符合人们的要求。

1、基于本体的信息检索系统模型

由于本体对领域和任务进行了良好的描述, 具有较好的概念层次结构和对逻辑推理的支持, 从而在信息检索, 特别是在基于知识的检索中得到了很好的应用。基于本体的检索系统的基本思想主要有:在领域专家的帮助下, 按照一定的方法论建立相关领域以及顶级的本体。收集信息源中的数据, 并参照已建立的本体把收集来的数据按规定的格式存储在元数据库中。通过本体对数据进行划分, 确定文档所属的领域和概念。查询转换器按照本体把从用户检索界面获取的查询请求转换成规定的格式, 然后通过本体进行模糊判断, 在本体的帮助下从元数据库中匹配出符合条件的数据集合。

2、基于推理网络的信息检索系统模型

推理网络模拟人脑的推理模式, 将信息检索看成事实的推理与证明过程。使用各种统计规则、知识库和概率模型来提高检索性能。它包含文本网络与用户查询网络两部分。对给定的文档集合, 文本网络只建立一次, 其结构在检索过程中不改变。用户查询网络包含若干个表示用户查询的节点。推理网络将文档与用户查询的匹配转化为从文档到查询的推理过程, 沿着有向图的边, 依次分析各节点的概率, 最后得到每个文档相对于用户查询的概率, 按照概率大小对文文档进行排序后提交给用户。

三、提高信息检索系统相关性的策略

1、利用分类和聚类技术组织检索结果集

检索系统采用分类或聚类技术, 自动把查询结果归入到不同的类别中。用户通过浏览类别, 判断选择真正与自己的检索需求相关的检索结果。这种类目列表是多层的、动态的, 随着用户一次次地点击、文件夹一层层地展开、用户一步步地筛选下去, 逐步明确原来模糊的需求表达, 最终得到与其检索需求最为相关的检索结果。

2、将大众点击率作为排序参数

搜索引擎可追踪在每次特定检索过程中用户到底选中了哪些结果, 据此最终把排名靠前但点击率不高的网页拉下来, 而把最初排名靠后但点击率、受用户欢迎的网页提到前面。这是因为他们认为多数人访问的网站就是最重要的网站。而网站的重要性则意识着某一方面内容的丰富和准确。

3、提供信息导引功能

为应对当代信息环境下检索用户的“资源迷向”问题, 智能检索系统提供了信息导引功能, 帮助用户确定自己需要的信息所在领域, 为用户提供详细、科学的信息分类知识。当用户输入关键词后, 系统可推断关键词信息所在的领域, 并将这些领域信息告知用户, 让用户确定。对于不同的用户, 系统将学习用户提交的关键词和领域信息, 并记录在其用户模型中;当用户下次提交查询任务时, 自动让用户确认相关信息, 避免用户重复操作。

相关性是一个不断发展的概念。随着信息检索从传统的实验室信息检索发展到用户导向的信息检索和认知导向的信息检索, 使得人们对相关性的理解和认识也不断深化, 并进而识别出不同的相关性类型及其关系。对相关性类型特别是后几种类型的相关性的深入研究, 将推动情报学理论和实践的进一步发展。

参考文献

[1]陆小辉:《信息检索的相关性》, 《情报学报》, 2006 (6) 。

上一篇:小学图书室管理下一篇:中国高铁产业