网上的整合搜索

2024-08-18

网上的整合搜索(精选三篇)

网上的整合搜索 篇1

飞速发展的互联网极大地改变了人们的生活,WWW已经成为人们交流和获取信息的重要媒介。1999年全球网页总数量不到30亿,2000年达到了近50亿,预计到2003年,这一数字将达到惊人的150亿以上,这就意味着全球平均每人拥有两个以上的Web页面[4]。面对这浩渺无边的数据源,人们常常遇到一种令人心烦的情形,比方说,在百度搜索引擎中键入“how to improve English”,返回结果高达21700个网页,而真正想要的很少或在结果集中排位很低。于是人们呼唤一种去伪存真、去粗存细的技术来解决资源泛滥而又知识贫乏的矛盾,作为信息检索工具的搜索引擎就应运而生。

1994年,6个斯坦福大学的毕业生开发出第一个搜索引擎World Wide Web Worm(后来改名为Excite),当时它收集的网页数仅为11万,这虽然在一定程度上缓解了人们面对信息海洋不知所措的问题,然而互联网上的信息爆炸使得人们很快发现要找到自己真正感兴趣的知识是一件极其耗时费力的事。人们渴望另一种技术,它就像一个旅游向导一样能把你带到最有趣的景点,像一位图书管理员能帮助你在浩瀚书海中迅速找到你想要的书籍。基于此种需要,华人杨致远与他的好朋友D a v i d Filo将索引网页进行分类创办搜索引擎Yahoo!。由于绝大多数搜索引擎的设计都有其特定的索引范围、独特的功能与使用方法,以及预期的用户群指向,一种搜索引擎不可能满足所有人或一个人所有的检索要求,人们为了获得想要的知识需要使用多种搜索引擎,对其结果进行比较筛选。为了消除逐一登陆各引擎进行同一检索的烦琐操作,1995年,华盛顿大学硕士生Eric Selberg和Oren Etzioni推出元搜索引擎(MeteCrawler),为了提高搜索引擎的各项智能搜索引擎的研究,当今许多国内外著名学术机构都在开展智能搜索引擎的研究,目的使得搜索引擎能根据不同兴趣类别的用户提供不同的服务内容,实现查全率(R e c a l l)、查准率(precision)、响应性能等多方面搜索性能的提高与改善。

2 搜索引擎的分类及其结构

目前的搜索引擎主要可分为三类,索引基于网络机器人的搜索引擎、索引基于类别和模板的搜索引擎和基于其他引擎的元搜索引擎。

1)基于网络机器人的搜索引擎

它由网络机器人Spider(Crawler)沿着页面链接Web graph中爬行,检索回文档并建立索引库,服务器端的CGI或Servlet处理由客户端发送来的检索请求并以检索结果作为响应返回至客户端。典型的此类搜索引擎国外有:Alta Vista、Google、Excite,国内有baidu。其基本结构见图1。

2)基于人力分类建模的搜索引擎

它依靠人力收集网页并将它分类编目索引,其类别与模板相互嵌套构成树状结构,大多数URL是由用户推荐与分类的,它们组织方式良好,很具有个性化色彩。其代表国外有Yahoo、Open Directory Project、Look Smart,国内有新浪、搜狐、网易等。

3)基于其它搜索引擎的元搜索引擎

它是用户同时登陆到多个搜索引擎进行信息检索的媒介。它根据用户提交的检索请求,并行或串行调用源搜索引擎进行搜索,对源搜索引擎返回的结果进行筛选、合并与排序等操作,以统一的格式在客户端显示,它没有自己的网页采集机制也没有自己独立的索引库。其代表国外有InfoGrid、ProFusion、Mamma等。其基本结构见图2。

3 性能指标及关键技术

评价搜索引擎性能的主要指标有查全率、查准率、响应时间和受欢迎程度等。查全率是一次搜索结果集中符合用户要求的数目与和用户搜索相关的总数之比。查全率在很大程度上取于该搜索引擎的索引库容量,目前运营的搜索引擎查全率都比较低,这是由于单一的搜索引擎很难与日益浩大而又动态更新的w e b资源保持一致。查准率是指一次搜索结果集中符合用户需要的数目与该搜索结果总数之比。受欢迎程度体现用户对搜索引擎的偏爱度,一般来说,知名度高、性能稳定且搜索质量高的搜索引擎备受欢迎。

如何提高搜索引擎的性能是研究者、商家与用户都期待解决的问题。解决该问题要涉及计算机网络、模式识别、人工智能与机器学习等多个领域的知识。主要的关键技术包括文档内容分析、识别检索条件、信息排序与集成和搜索引擎个性化。

1)文档内容分析

文档内容分析主要包括文本分类、文本聚类、文本摘要等。其基本思想是借鉴知识发现的思想,首先文本按照内容的相似程度划分成若干类别抽取每类的特征,作为该类的标记信息。然后对每个文本进行文本结构分析,将文本分解为层次状的结构单元,抽取各个结构单元的特征,并生成文本摘要,最终形成文本结构树。常用的分类方法有贝叶斯分类器、模式识别、后向反馈神经网络、K-NN和各种统计方法;常用的聚类方法有以G-HAC算法为代表的层次凝聚法与以k-means等算法为代表的平面划分法。将分类与聚类二者有机结合能使文本分析获取更令人满意的效果。

2)识别搜索条件

识别搜索引擎条件主要包括两个方面的任务:一是如何从查询条件中提取有效成分,二是如何将提取到的有效万分与知识库结合进行同义、近义或相关词的组合。于是若一个用户进行一个搜索条件比较复杂的查询时,搜索引擎就很难据此进行索引库查询,而自然语言的查询使得搜索引擎很难进行有效成分的提取。因此建立简洁清晰的查询表示机制是搜索引擎中非常关键的一步。

3)信息排序集成

简单地采用基于文本的检索技术,使得检索结果非常繁大,很容易造成“信息迷失”。互联网的链接结构提供了另一种理解信息资源的方式:一个网站的作者选择链接到另一个网站这意味着这两个网站有相似的内容。HITS[2]算法就是依据这一直觉知识来定义出超文本集中“authoritative”和“hub”网页,这二者是相互信赖的:好的“authorities”就是为许多“hubs”所链接的页面,而一个好的“hub”也是一个链接许多“authorities”的页面。PageRank[3]等算法就是依据HITS算法的思想来对网页质量进行排序。Google[1]与CLEVER系统中链接评价体系就运用了超链分析对返回结果进行排序和集成。

4)搜索引擎个性化

由于不同的用户具有不同的兴趣爱好,因而有不同的需求,只根据查询条件来返回结果肯定会使得许多用户找不到自己想要的信息。要想使搜索结果个性化,必须要准确动态地描述用户的兴趣与偏好,建立用户各自独立的UIH(User Interest Hierarchy),可以根据用户的书签文件、检索时输入的关键词、所访问页面的内容关联以及用户的点击流对用户的Profile进行动态更新,也可以不编辑用户兴趣描述文件而直接进行动态学习[5]。

4 发展趋势

1)查询语言自然化

自然语言的输入将更加方便用户的使用,使得用户能更精确表达自己的要求,也更易于用户与搜索引擎的交互。为了克服关键字查询怀目录查询的不足,自然语言智能查询业已出现。用户可以输入诸如“Where can download the java developing kit?”。搜索引擎可采用多种方式逐步与用户进行交流,达到理解用户真正意图的目的,进而提供给用户更满意的结果。若简单采用关键字查询肯定会出现大量与“Coffee”有关的结果,而这些根本不是用户所想要的。使用自然语言进行查询会使得返回结果集容量小而又质量高。

2)搜索范围专业化

浩如烟海的网络资源正在成指数增长,单个的搜索引擎无法收集全所有主题的网络信息,即便是信息主题收集得比较全面,也由于主题范围太泛使得搜索引擎很难将各主题做精做专,从而导致检索结果中垃圾过多,查准率大大降低。用户与研究者对具有高度专业化的面向主题搜索引擎日益看涨。以天气、新闻等为专题的面向主题搜索引擎越来越受到欢迎。

3)查询结果个性化

个性化是市场的一种必然趋势,根据个体用户或集体用户的兴趣与使用经验进行增量式地搜索,对返回结果进行过滤以提供更符合用户实际意图的结果。建立在搜索引擎基础之上的元搜索引擎的一个突出特点就是集中精力对各搜索引擎返回结果进行智能化个性化处理。

5 结束语

Internet正将世界各地的信息资源带到每一个人的面前,目前运作的搜索引擎带给人们的信息是过量,而不是不足,方便及时地从这个浩大的知识海洋中获得自己真正想要的信息是每个“surfer”的心愿,基于此种需要,本文介绍了搜索引擎的发展历史,讨论了搜索引擎的分类及其结构原理,分析了它所涉及的关键技术,并在此基础之上对搜索引擎的发展趋势进行预测。

摘要:随着互联网上的信息急剧增加,是否能找到信息的问题变成了如何才能找到相关的信息,尽管搜索引擎的出现在一定程度上解决了这一问题,但依然还有许多艰巨的任务有待完成。在此文章中我们概述了搜索引擎的发展历史,阐述了搜索引擎的基本结构并提出了搜索引擎研究领域涉及的关键技术,在此基础上我们描述了它的发展趋势。

关键词:搜索引擎,WWW,信息检索

参考文献

[1]Sergey Brin and Lawrence Page.The anatomy of a large-scale hypertextual web search engine.In Proceedings of the Seventh International World-Wide Web Conference,Brisbane,Australia,April1998.

[2]J.Kleinberg.Authoritative sources in a hyperlinked environment.In Proceedings of the ACM-SIAM Symposium on Discrete Algorithms,1998.

[3]L.Page,S.Brin,R.Motwani,and T.Winograd.The PageRank citation ranking:Bringing order to the web.Stanford Digital Libraries Working Paper,1998.

[4]http://media.ccidnet.com/media/ciw/1154/d0901.htm

[5]史忠植.知识发现.清华大学出版社.2002:334~363

现代校对新法探索:网上搜索法 篇2

【关键词】现代校对;网上搜索;原文核对

【作者单位】尤建忠,浙江工商大学人文与传播学院。

引经据典是大家写文章时用来加强说服力的论证方式,也可以用来彰显文章内容的学术性。与引经据典相似的是旁征博引,就是在说话、写文章时引用材料作为依据或例证。引经据典与旁征博引不同的是,前者只引用经典作品的材料,后者则不仅限于经典作品;两者相同的是,都要引用他人材料。

过多引用他人材料,一方面如果所引用的材料字数占文章内容比例过高,会有抄袭嫌疑;另一方面在核对这些引用材料的原文时,也会给编校人员造成很大的压力:一是核对工作量过大,二是原文资料不容易找到。引用内容不核对原文容易出问题,这方面媒介多有报道。一些知名刊物和学者的文章或图书中,屡屡出现原文引用方面的错误,严重时作者的引用根本曲解了原文的意思。

那么,实际编校时有哪些原文核对问题,我们又当如何避免出现错误,找到比较好的解决办法呢?本文介绍现代校对新法的网上搜索法,以部分解决原文核对问题。

一、核对原文困难的症结分析

编辑和校对在实际加工引用内容比较多的文章时,核对原文工作屡屡出现错漏,分析其原因大致有以下几种。

1.编校日常工作量过大

现在的编辑和校对的日常工作量和改革开放前相比,已经不知道增加了多少倍。如果编辑按年发书稿20本算,校对月收入按3500元,校对市场价格每1万字12元算,那么现在的编辑年编辑工作量达400万字,校对的年校对工作量达3000万字,在出版社中已经是很普通了。

在这么大的日常工作量下,编辑和校对很少能顾及原文的核对。事实是,要做好原文校对工作,根本做不到正常收入所需要的工作量。因此,在大工作量的定额下,要求编辑和校对花很多时间去核对原文,也是不现实的。

2.作者引用没有准确说明出处

很多时候,作者在引用他人材料时,并没有注明出处,这一方面是作者认为无须给出处;另一方面,可能是作者也不知道出处,但觉得引文很适合文章就使用了。还有一种情况,不是作者没有给出处,而是所给出处不正确,或者,作者给的文献出处有几个版本,但没有特指哪个版本或哪个译本,而各版本或译本又差别甚大,这样核对就很困难了。

3.原文不容易获得

有时,引文给出了文献出处,但一般不容易获取,比如某个部门或地方文件、某所大学的博士论文(而该大学的博士论文正好大家所用的商业数据库中没有收录)。有一篇文章这么写的:根据县人民政府《关于加强2009年普通高校毕业生就业工作的实施意见》(安政办发〔2009〕94号)的精神,大学生在我县见习训练期间,由县财政按照我县最低月工资标准的8%给予生活补贴。这里,其他地方都是按最低月工资标准的百分之几十给予生活补贴,而文中所指县只有8%,直觉数字有问题,可由于当地文件不太容易获得无法核对。当然,需要说明的是,原文件中其实是按最低月工资标准的80%补贴的,不核对原文真的数据相差很大。

4.编辑和校对工作不仔细

工作态度不认真,编辑和校对不仔细,这是核对原文经常出问题的一大原因。比如,引用内容是转引自某文献的,核对了该文献确实没有错,但转引的文献,恰好是错误的,结果造成自己引用还是错误的。这种情况很多,比如从大报或核心刊物文章转引的有关领导人讲话,和原文核对,就发现要么多了几个字,要么少了几个字。

还有一种情况就是核对原文没有错,关键原文有上下文的,结果断章取义,只用了前半句,没有引用后半句,造成意思不同。比如,我们在表达“活到老,学到老”时,会用庄子的“吾生也有涯,而知也无涯”,意思是知识是无限的,人生是有限的,所以要勤奋学习,人生才会充实。可是,庄子原句还有“以有涯随无涯,殆已”,其本义是用有限的人生追求无限的知识,是必然失败的。庄子的原话就是表达做什么事都不要绝对化,要适可而止。世界上永远有你达不到的东西,你又何必苛求。如果了解本义,很多励志场合估计就不会引用庄子的这句话了。

5.编辑和校对功力不到位

有时,不同版本的原文核对也是非常困难的。特别是古文,有通假字,再加上有的文献没有原本,是通过其他版本流传下来的。比如,西汉刘向的《别录》,唐代已散佚,现在都是通过其他文献转述的。这种原文的校订,本身就需要一定的功底,不是简单就能决断。

比起不同版本的古代文献决断,外文文献的引用,更是困难。这不仅是在查阅外文文献上存在障碍,最关键的是理解不同,各人的翻译就有所不同,存在版本差别,必须要回到原版,这就需要外文基础,非普通编辑和校对能力所及。

二、核对原文问题的突破口

通过核对原文困难的症结分析,我们知道,核对原文的问题其实就是资料和编校人员两方面的问题。

编校人员的问题,一是时间上的,二是工作态度上的,三是能力上的,但这些都是编校人员主观努力上的问题,需要相关人员自己解决,也可能牵涉单位的制度调整。

至于资料问题,从现实的条件来看,要短期解决纸质资料获取困难的问题,是不现实的。不过,获取数字资料还是可以一试。经过多年的努力,世界范围的文献数据库建设已经非常完备,而且互联网的信息储备也越来越多。事实是,只要你敢搜索,很多问题都能通过搜索引擎解决。

因此,要解决编校工作中的原文核对问题,网上搜索法是可行的。何况,网上搜索非常便利,速度又快,不会占用编辑和校对太多的时间,只要配以一定的技巧,网上搜索法就能事半功倍。

三、网上提供的信息内容和有用工具

网络资源众多,而且随着时间的推移,信息会越来越丰富。因此,针对目前实际编校工作中的原文核对错漏,我们认为,可以使用网上搜索来解决一部分的原文核对工作。这一搜索技术国外一些编辑已经开始使用,比如牛津大学出版社一位老编辑,来中国帮助审读英文版学术专著,仅仅使用谷歌和维基百科,就发现了许多学术上的问题。

那么,网上究竟能搜索到什么内容,又能在编校工作中提供哪些有用工具呢?下文做一些简单的介绍。

1.网上能搜索到的内容

互联网的内容是丰富翔实的,从目前的网上搜索实践来看,网上信息主要有三大类。

数据:数值型信息,包括各种调查数据、统计数据、特性数据等。例如,某一企业的年销售额、某一国家的人口数量、某一物质的密度等。

事实:描述型事实,包括机构、企业、人物或其他事物的基本情况。例如,某一企业的地址、法人、经营范围,某人的生平,某一事件的背景资料等。

文献:含特定信息的各类文献。按文献的分类,大致有图书、报纸、期刊、会议论文、学位论文、研究报告、专利文献、标准文献、产品样本、技术档案、网络文本。可以说,各种文献网上都能找到,只是有的文献获取是有偿的,有的是免费的。另外,随着大量文献的数字化,许多古代文献已经上网,这对编辑和校对工作中的文献原文核对,是非常有用的。

至于政府部门的一些通知、公告、规定等文件,只要是非保密的,都能在相关网站上搜索到。

2.网上提供的有用工具

网上除了提供丰富的信息,还有许多有用的工具,其中最实用的是以下三类:

(1)百科

目前网上百科众多,比较有名的有百度百科和维基百科,一是知识可靠,二是词条目多。其中,百度百科以中文为主,维基百科以外文为主。百科主要用于知识性错误的识别,使用时可以按信息的语种进行选择。

(2)字典

网上字典非常多,有百度词典、搜狗词典、有道词典、金山词霸、新华字典,甚至是康熙字典。查阅中文或外文均可,有网上版,也有下载版。

需要说明的是,严格符合编辑和校对标准的网上字典还是比较少,原因在于一是更新慢,二是常用的《现代汉语词典》和《辞海》因为版权关系,网上没有数字版。当然,这两种词典纸质版最好是手头必备。

相对而言,百度词典比较实用,查询方便。其他词典,在手头没有纸质版的情况下也可以选用。

(3)数据库

目前,成熟的商业数据库产品很多,特别是国内知网、维普和万方三家数据公司的产品,深受用户好评,这些商业数据库对稿件的引用内容原文核对非常有用。

商业数据库汇总图书、报纸、期刊、会议论文、学位论文、研究报告、专利文献、标准文献等,这些海量的文献为编校工作提供了极大的方便。商业数据库的使用非常方便。即使单位没有购买这类商业数据库,个人只要在国家图书馆用真实身份注册,就能下载相关文献。

四、网上搜索的使用技巧

虽然网上资源非常多,可以找到的信息也很丰富,但要真正起到核对原文的作用,还是需要一些网上搜索的技巧。

1.百度搜索

百度是国内最大的搜索引擎,也是世界上最大的中文搜索引擎,有成熟的搜索技术,能帮助我们搜索到许多需要的信息。因此,在编校工作中,要经常使用百度来搜索所需的信息。

(1)长段文字搜索

长段文字搜索就是针对稿件中有长段引用的原文进行核对。此时,可以复制整段文字,然后粘贴到百度搜索框中直接搜索。理论上,百度搜索时用的文字越多,获得的搜索结果越少。整段文字,能匹配上的信息基本也就是你需要的内容。不管你要搜索的引用内容对不对,百度都会采用模糊技术,把最接近的匹配信息找出来。当然,百度最多能匹配的文字也就38个字,也就是前38个字只要完全一样,都会变红色。所以,前38个字里有不是红色的,表明和网上提供的原文不一样,结果一目了然。38个字后面的,就需要编辑一一对比,此时必须使用点校法。

(2)关键词搜索

有时,引用的内容不是一整段原文,而是具体的事例,甚至是一个数据。此时,可以使用关键词搜索。在使用关键词搜索前,必须对事例进行关键词抽取。关键词可以有多个,以寻找特定信息。关键词越少,所能找到的信息越多,要分辨无用信息的工作量就越大。因此,要提高效率,必须准确选用关键词。

(3)电子图书搜索

由印刷版数字化的电子图书,不管是扫描版还是可复制的数字版,都是不能获得纸质版的情况下,编校工作人员最希望获得的网上资源。

电子图书少有Word版,大多数为PDF版。因此,搜索时可以使用以下百度搜索语法:

伦理学 pdf

伦理学 filetype:pdf

也就是书名加“pdf”,或书名加“filetype:pdf”,注意书名后要加空格。这两种用法,适用于不同场合:前者是一个网页,在该网页里有下载的地址;后者直接是下载的地址。实际使用时,可以都试试,以找到所需要的书为主。

2.谷歌搜索

谷歌是世界最大的搜索引擎,提供全球海量信息。谷歌的信息搜索方式和百度基本一样,只是谷歌偏重于英文信息。谷歌能搜索到的中文信息,就如同百度能搜索到的英文信息一样,不是长项。在实际编辑和校对工作中,如果是英文内容需要核对,就选用谷歌;如果是中文内容需要核对,就选用百度。

五、网上信息的处理

网上提供的信息特别多,这为我们核对原文提供了方便。但是这些信息比较混杂,有正确的,也有错误的。稿件中引用文字与网上的原文不符,未必就是错,这同我们在传统古籍校订中的版本对比是一样的。

因此,实际使用中,用网上搜索获得的信息核对原文,我们可以完全相信一部分文献的真实性,比如和原版一样的电子图书、报刊文章等。至于大多数网页形式的文字内容,如果用其来核对原文,并出现不符,只能说明两点:其一,网上信息提供了原文的线索,这对于本来稿件中引用内容出处不明的情况下要确定文献出处,无疑是非常有益的;其二,稿件中引用的内容有错误的可能,需要进一步核对。

网上信息的采信,是一件极其复杂的事情,可以按一定的可信度排列来决定哪个信息更可信,比如印刷文献的数字版、官方网页信息、百度百科、博客信息、其他网页信息等这样的排序。但这不是绝对的,有的还是需要使用理校法来决断。

稿件中引用文字的原文核对问题自古就有,只是在编校工作量不大,编校比较认真的情况下不太严重。随着出版业呈现规模化增长,这一问题逐渐受到关注。

网上搜索法就是在这种情况下出现的积极应对办法,既有技术含量,又能高效解决部分原文核对问题,因此值得进一步研究探讨,使其更好地服务于编校工作。

[1]蔡藩.编校稿件对引文书证要核对原文[J].今传媒,2010(8).

[2]林穗芳.编辑要认真核对引文[J].出版发行研究,1992(5).

个性化元搜索结果整合算法的研究 篇3

随着Internet的迅猛发展以及Web信息的飞速增长,网络已经成为人们获取信息的必要途径和重要手段,但是网络中的信息种类繁多、信息数目庞大、再加上新信息的不断出现以及网页的快速更新等特点,人们要找自己感兴趣或有用的信息,需要花费大量的宝贵时间。虽然各种各样的传统搜索引擎能够帮我们快速找到相关的主题,但是,传统搜索引擎搜索结果通常成百上千,有些结果跟用户的搜索关键字毫不相关,故无法满足人们对查全率、查准确率的要求,为了解决这些问题,元搜索引擎应用而生。

元搜索引擎是搜索之上的搜索引擎,它通过调用多个搜索引擎来实现搜索,并对搜索结果进行整合处理,能解决传统搜索引擎查询覆盖率低的问题[1],但是元搜索引擎的各个成员搜索引擎索引数据库的覆盖范围、搜索算法和排序算法各不相同[2],导致搜索出来的结果也不尽相同。目前,常见的元搜索引擎的结果整合方法有:

(1)简单罗列式,只是将多个成员搜索引擎的搜索结果简单地罗列出来,没有考虑结果的相关度,这种方法的缺点显而易见;

(2)基于相关度和位置的结果合成方法,这种方法的不足之处是仅仅依靠成员搜索引擎返回的有限描述信息来判断查询字符串和这个结果的相关性,没能结合用户兴趣和考虑成员搜索引擎的优先级问题[3],导致所得的相关性信息局限性太大;

(3)基于训练集的结果整合算法,这种方法在训练集计算耗时较大。

元搜索引擎综合了多个搜索引擎的搜索结果,提高了搜索的覆盖率,但是返回的结果往往数目庞大,并且很多结果与用户查询并不相关,这直接影响了用户检索的质量并增加了用户检索的代价。因此,本文提出一种基于用户兴趣的个性化元搜索引擎模型,系统通过对用户建立兴趣库,提取个性特征形成不同用户群,并对检索到的结果进行整合处理,返回给用户个性化的搜索结果。

1基于用户兴趣的个性化元搜索

1.1个性化搜索技术

个性化搜索技术是指根据不同用户的个性化行为采取不同的、有针对性的服务策略,提供符合用户个性化需求的服务内容。在本文中具体表现为针对不同的用户兴趣偏好,采用不同的目标站点,帮助用户更快,更准确地找到信息。

基于现有元搜索引擎结果整合算法存在的弊端,本文针对查询结果整合问题,结合个性化搜索技术,提出了一种基于相关度和用户兴趣相结合的结果整合算法,通过用户反馈和对用户浏览日志进行挖掘,得到用户兴趣库,计算搜索结果与成员引擎的相关度、用户兴趣库中最常出现的关键词与搜索结果的相关度,然后考虑成员搜索引擎的权重、搜索结果的重复度等因素,最后计算搜索结果的权重值,对结果进行整合排序[3]。

1.2基于用户兴趣的个性化元搜索引擎模型

为了提高搜索引擎的查全率、查准确率,满足用户的个性化搜索,本文提出了基于用户兴趣的元搜索引擎,来实现元搜索引擎的个性化。基于用户兴趣的元搜索引擎主要的组成模块有:用户兴趣库模块、引擎调度模块、查询分发模块、结果处理模块、反馈模块,日志处理模块等(见图1)。

用户兴趣库模块中存放了用户感兴趣的关键词,出现次数以及创建时间,更新时间等,当进行结果排序时,将用户兴趣库中的信息与查询结果进行匹配,从而将用户感兴趣或最需要的信息尽可能地排在最前面,本文将在下一部分介绍用户兴趣模型的建立及更新。

引擎调度模块是指研究元搜索引擎如何为用户选择数量合适并贴近用户查询要求的成员搜索引擎。常用的调度技术有好几种,本文采用用户手动选择技术即根据用户的喜好来选择成员搜索引擎。在实验中,选择的成员搜索引擎有Google、Yahoo、Bing等。

查询分发模块是指根据用户输入的关键词,将查询请求转化为各成员引擎能接受的格式,并提交给引擎调度模型选中的成员引擎。

结果处理模块有结果提取和结果整合两部分。结果提取是将各成员搜索引擎的搜索结果保存下来,结果整合是指将结果提取中保存的结果按照一定的规则进行排序,把用户最需要的信息排在最前面,其中,每条结果对应一个搜索引擎和用户兴趣的关键词。

反馈模块是指及时更新用户兴趣库的内容,以便满足用户不停变化的需求,在本文中通过两种方式来进行用户反馈,一方面是用户通过自己的主观判断,修改用户自身的兴趣;另一方面是针对不同关键词之间的、关键词与成员搜索引擎之间的相关度来更新用户兴趣库。

日志处理模块存放的是用户浏览网页的信息数据,包括用户的访问时间、用户的IP地址、输入的查询串等,是用户兴趣库的数据来源,日志处理模块的存在解决了一般元搜索无法获取成员搜索引擎的网页相关度与数据库中词条等统计信息这一不足。

2用户兴趣库的建立

本文采用显式获取和隐式获取相结合的方式进行用户兴趣库的建立,这样做的好处是减少了单纯显示搜集方法中的搜集步骤,也在大多数时间上避免用户在使用中感到不便[4]。用户在使用系统时是需要注册的,注册成功后,用户的基本信息就保存在系统的数据库中,比如用户的id,可以根据用户id来提取用户感兴趣的查询,从而建立用户兴趣库。最终,将用户最需要、最感兴趣的搜索结果呈现给用户。

2.1显式获取

系统中提供一种界面,在这个界面中用户可以自愿、显式地输入自己感兴趣的内容即关键词,然后在数据库中根据用户注册id记录用户的输入,包括关键词,创建时间,更新时间,出现次数等。

2.2隐式获取

用户在长期的上网过程中会浏览很多的页面,其中不乏一些有价值的页面。可以在浏览器的记录中找到他们,对其进行收集,其集合表示为M。在时间段T内,用户浏览的网页按M中的数据来表示为p={(p1,t1,r1),(p2,t2,r2),…,(pn,tn,rn)}[5]。网页的兴趣度计算公示为a=tiri/∑tjrj,其中tj为用户在时间T内浏览网页的所有时间之和,rj内网页出现的次数,基于此可以定义用户对网页的兴趣度,其中a为网页在时间段T的兴趣度,1/lg(length)说明网页长度对兴趣度的大小起负作用。

根据上面得到的网页兴趣度值,可以对用户浏览的网页进行过滤,给网页的兴趣度Ri设定一个阈值。只有Ri值大于这个阈值的网页才会把网页信息放入到日志处理模块中。然后对用户信息需求、偏好进行甄别、归纳、总结,分析用户的兴趣,并将信息进行整理、组织,从中分析出用户的信息偏好,再根据用户的这些信息建立用户兴趣库[6]。其中包括关键词、出现次数、创建时间、更新时间等。当进行结果整合时,将用户兴趣库中的信息与用户查询条件进行匹配,从而将更加符合用户需求的信息排在最前边。

3个性化元搜索的结果整合算法

个性化元搜索引擎中,由于各个成员搜索引擎对各自的排名算法不公开,这就导致了元搜索引擎在进行结果整合的时候,无法根据成员搜索引擎采用的算法排序方式来调整元搜索的排序方式,在成员搜索引擎提供的每个搜索结果中,应该为用户提供查询串在该结果中的权重,并且提供数据库中包含该查询串的文档数,从而方便元搜索引擎进行结果整合时使用[7]。现在,元搜索引擎只有根据成员搜索引擎返回的结果定制相应的算法。以前的元搜索引擎在定制算法时,往往只考虑到了查询关键字与返回结果的相关程度,而忽略了用户的因素。事实上,每个用户在查看查询结果的时候,都会根据返回的简短的描述信息来判断这个搜索结果是否包含自己想要的信息。因此在基于相关度和用户兴趣的元搜索引擎结果整合算法中,引入了搜索引擎的权重、网页的兴趣度[8],以及用户的兴趣特征等概念。对于以查询串q来说,它和某个搜索结果resulti的相关度定义如下:

式(1)中SEWeigh的影响因子,即成员搜索引擎在本系统中的权重。Position表示结果在成员搜索引擎结果集中的位置,Correlation表示查询字符串与结果相关联的程度,Repeats表示搜索出resulti的搜索引擎的个数,Internet表示用户与该结果的匹配程度。下面分别对这几个影响因子进行讨论

3.1搜索引擎的权重

各大成员搜索引擎各有特色,比如有的偏向于搜索结果多,有的偏向于搜索时间短。例如,百度侧重新闻搜索,Google侧重学术搜索。搜索引擎所占的市场份额,反映了该搜索引擎的受欢迎程度。所以在本文中,基于搜索引擎所占的市场份额,计算出搜索引擎的权重,作为搜索结果排名的一个影响因子,假设搜索引擎SE所占的市场份额为S,则搜索引擎的权重可以定义如下:

3.2结果在成员搜索引擎中的位置

成员搜索引擎返回的搜索结果是按照搜索引擎自身的算法计算,且依据某种条件按降序排序后的一个有序结果集。排名越靠前的文档,与查询词的相关度越高。因此,将每个文档在结果集中的位置作为元搜索引擎结果整合排名的一个依据是很有道理的。假如对于某个查询词q,成员搜索时引擎返回了m个搜索结果,那么处于位置k的文档result与查询词的位置相关度定义如下:

3.3结与描述信息的相关度Correlation

与查询词相关的描述信息片段主要有两部分:网页的标题和网页正文的摘要。标题一般是对整个网页信息的最精炼的概括,摘要则是对文档中出现查询词的相关部分的提取。比如:如果查询字符串q出现在标题中,那么说明这个网页的重要行大于q出现在正文中的网页。同样地,q出现在正文中的次数多的网页的重要行大于q出现次数少的网页的重要性。那么查询字符串q和返回结果resulti的相关度可以表示如下(在本文中未考虑标题的影响)

式(4)中,length(resulti)表示结果的长度,count(q,resulti)表示查询词q在resulti中出现的总次数,Position(q,resulti)表示q在resulti中出现的位置。

3.4结搜索结果的重复度Repeat

搜索引擎由于其数据库的覆盖范围的差异,搜索算法和排序算法的不同,搜索的结果集不尽相同,但是也可能有重叠。如果一个文档能同时被多个搜索引擎检索出来,那么可以认为该文档与查询关键字的相关程度非常高,因而在元搜索排序中也应该排在最前边,因此将搜索结果集的重叠看作排序的影响因子之一,本文中,简化起见,我们将搜索结果result的重复度定义为检索出result的搜索引擎的个数占成员搜索引擎总数的百分比,定义如下

式(5)中,Total_count是成员搜索引擎的总数,Search_count是根据查询关键字搜索出的result的搜索引擎的个数,由此可见,PepeatRank介于[0,1]之间。

3.5用户兴趣特征Interest

在用户兴趣库中选择出现次数最多的10个关键词,用成员搜索引擎返回的结果去匹配这10个关键词,计算返回结果和keywords的匹配程度,作为排名的一个依据。搜索结果和keywords的匹配程度越高,说明该搜索结果越符合用户的需求,在结果排名中就应当越靠前。用户兴趣库中出现次数最多的10个keywords和搜索结果resulti之间的匹配程度定义如下

式(6)中count(keywordj,resulti)表示keywordj在resultj中出现的次数,length(resulti)表示搜索结果resulti的长度,length(keywordj)为keywordj的长度,Title(keywordj,resulti)表示keywordj是否出现在标题中。

3.6用搜索结果总排名计算

上面分别讨论了元搜索引擎进行结果整合时考虑的几个影响因素,以及影响值的计算方式。因此可得出,对于一个查询串q,检索结果resulti从搜索引擎SE取得的权值计算公式如下:

从以上可以得出对于查询串q的搜索结果resulti在元搜索结果整合排名中的计算公式如下

下面给出基于用户兴趣和相关度相结合的结果整合算法:

输入:由结果提取模块得到的各搜索引擎返回的n条结果。

输出:按结果权重由大到小排列好的m(m≤n)条结果。

Begin:

(1)初始化结果列表All Results,

初始化最终结果列表LastResults;

(2)ForAllResults中的每一个Result;

(3)if Result中包含查询词、用户兴趣库中的关键词,则计算结果在All Results中的重复次数,删掉其它重复项;

(4)elseif继续执行(2);

(5)根据公示(7)计算Result的权重值;

(6)LastResults.add(Result);将符合条件的结果放入最终结果列表中;

(7)EndFor;

(8)对LastResults根据每个结果的权重值进行排序;

(9)返回排序后的结果。

4实验结果

本文提出了元搜索基于用户兴趣的结果整合算法,建立了基于用户兴趣的元搜索引擎系统,通过大量的实验挖掘出了用户感兴趣的关键词,建立了用户兴趣库,随着实验次数的不断增加,搜索引擎针对不同用户的兴趣词搜索能力的差异逐渐地体现出来,通过实验绘出了Google,Yahoo,Bing三个搜索引擎与用户兴趣词比如Cure的相关度变化曲线(见图2)。

通过程序实验上述提出的算法,并与Google、Yahoo、Bing等搜索引擎进行平均相关度比较,结果如表1所示,从实验结果可以看出,该算法的平均相关度明显好于单个搜索引擎,充分证明了算法的可行性。注明:表中MyTest为文中提出的算法。

5结论

元搜索引擎的结果合成算法的好坏直接影响着整个元搜索引擎系统的效率。基于用户兴趣的元搜索引擎系统继承了元搜索引擎搜索范围广的特征,同时提出了结果整合算法,将相关度、用户兴趣和用户反馈考虑到结果整合和排序中,在一定程度上解决了搜索引擎结果庞大,用户缺乏耐心去查看所有搜索结果的问题,提高了查准率,使得最终显示给用户的结果更加地合理和真实。

参考文献

[1]原福永,梁顺攀.元搜索引擎的现状与发展.计算机工程与设计,2005;26(12):3278—3280

[2]徐宝文,张卫丰.搜索引擎与信息获取技术.北京:清华大学出版社,2003

[3]徐科,崔志明,郑冬冬.元搜索引擎中基于用户兴趣的查询结果合成技术.微电子学与计算机,2006;23(7):199—201

[4]韩娜,沈西挺,刘岩.基于用户兴趣的个性化搜索系统研究.软件导刊,2010;9(1):38—39

[5] Kaw_aiLamandchiH0IJeung.Rank Aggregation for Metasearch Engines.InACM,2004

[6] Liu Kinglup,Yu C M,Weiyi N P.Astatis-ticalmethodforestimatingth-eusefulnessoftextdatabases.IEEE Transactionson Knowledgeand DataEngineering,2002

[7]张健沛,李连江,杨静.个性化搜索引擎排序算法的研究与改进.第三届全国信息检索与内容安全学术会议;1994—2010:516—520

上一篇:诗歌作品的抒情方法下一篇:数据泄露