母亲的搜索引擎

2024-07-18

母亲的搜索引擎(精选九篇)

母亲的搜索引擎 篇1

未来的搜索引擎将集合多种不同来源的内容, 并提供即时而丰富的答案。用户只需提问, 就可以获得答案。而用户甚至无须输入一个完整的问题。搜索引擎将越来越个性化, 更能理解每一个用户的喜好、所处地点、偏好的内容类型、此前搜索的和浏览习惯, 以及社交圈的信号等。

未来, 用户不用进行搜索, 就可以获得所有的信息。这些信息将会在用户指尖自动出现。这将使越来越多的搜索行为远离传统的搜索结果页面, 使搜索更具相关性。

未来的搜索引擎将专注于提供答案, 这样的答案并不仅仅来自问答网站。目前, 大部分搜索引擎的目录为数百亿的网站链接, 这些链接数目正在向上千亿发展。信息是动态的、经常变化的。例如, 用户附近的电影院每周上映的电影都有所不同, 电影播放时间也在改变。球队的比分和球员状态也是不断改变的。因此, 尽管问答网站能解决用户的部分需求, 但这只能回答一部分的问题。

母亲的搜索引擎 篇2

一个网站的诞生,首要决定的就是主题,想表达什么内容,希望解决用户的什么问题,能给用户带去什么样的有用信息,这也是搜索引擎来到你的网站第一个要认识要了解的重要点。

NO、2网站更新频率

众所周知,互联网时代是信息海量传输的时代,那么最及时,最新的咨询信息自然是最抢手的,搜索引擎判断一个网站的存活情况自然要根据你网站的更新频率来下结论,所以要保证用户来到你的网站能获得最新的信息。可如果是一个企业展示型网站或一个淘宝客网站,需要更新的内容并不多,怎么办呢?

方法1:给网站加上新闻版块或一些行业动态等版块,把这些版块合理放到每一个页面;

方法2:加一个随机调用版块,比如dede系统中的orderby=rand标签,可以让某一个版块的文章每次都按不同的顺序随机调用。

简单一点说就是让搜索引擎觉得你的网站是有人照看的,有人更新的,这样才能给予一个网站最基本的重视。

NO、3网站内容原创性

互联网衍生了一个同质化严重的时代,大量信息的重复性发表与传播现象充斥着网络世界的各个角落,要想自己的网站长久被搜多引擎喜爱,那只有提高原创率才能达成,

试想,如果某一天,整个互联网到处都充满是一样的内容,那还怎么发展,搜索引擎也是为了防止这一点的发生,才尽量督促各网站都写点和别人不一样的内容。当然原创内容于新手站长来讲是一个不小的挑战,但这是作为一个站长的基本功,如果实在无法,当然你可以进行伪原创。

NO、4网站的健康程度

这个健康是指你的网站会不会经常挂掉,是不是经常打不开,或者出现大量的404以及内部链接做的怎么样,一个好的健康的网站能够确保搜索引擎的蜘蛛自由顺畅地游走于你的网站的每个角落。

NO、5网站的受欢迎程度

比如有多少人来到了你的网站,PV能达到多少?游客来到了你的网站访问了多少网页,访问深度是多少?跳出率又有多少,是否比同行业的网站高?这些都可以判断出一个网站是不是受欢迎,是不是招人待见。

NO、6网站的重要性

如何判断你的网站或某个网页是否对别人重要,这个网站或网页的重要也就是指你的URL是否经常被引用,有两种方法可以判断:

方法1:站内是否有相关的锚文本引用这个URL,比如内容中的锚文本还有次导航中的锚文本,如果在主导航中出现则更佳;

方法2:站外的网页中是否有很多锚文本指向你的URL。

母亲的搜索引擎 篇3

【记者】:我国目前搜索引擎的用途主要有哪些?它最大的价值体现在哪里?

沈皓瑜:我们发现在搜索引擎上很多的搜索请求或者关键词是关于购物的, 其实在国外也是这样。目前我国网上的小商户并不发达, 可能是因为诚信或者付款方式的问题, 目前我国的网上购物还停留在规模比较大的平台上, 但在不久的将来, 互联网的天然优势和付款以及物流的成熟必将使网上零售展现一个百花齐放的景象。

此外, 搜索引擎作为一种营销方式被归类为搜索营销。我认为搜索引擎的成功, 不仅仅是打通从搜索到完成交易这一通路, 这只是一种成功的方式, 一种带来收入的方式。但是, 不管是对品牌广告主还是小广告主来说, 最后的目的不一定就是在线上完成交易, 它对线下交易, 品牌提升都是有可度量意义的。我觉得搜索引擎最大的成功是来自于让越来越多的广告主认识到这是最有效的、ROI (投资回报率) 最高的营销渠道。

【记者】:搜索引擎广告的形式有哪些?

沈皓瑜:所谓搜索引擎上广告投放, 目前为止最重要的广告形式是购买关键字和文字链。但真正的搜索引擎广告不仅仅只是这些。从平台、机理、定价方式以及更多的模式上, 搜索引擎实际上能够提供非常丰富的营销形式。

据DCCI发布的报告, 2008年搜索引擎营销收入增长至50.8亿元, 有史以来增幅最高, 达到了86.2%。

【记者】:为什么搜索引擎的效应如此之大?

沈皓瑜:首先我们要了解互联网时代消费者行为的改变以及由此引发的营销方式的变革。

以前人们都是直接到商店去询问这个产品, 再进行消费决策。传统营销方式一般都是猜测客户的需求是什么, 通过媒体广告对潜在市场推销某一产品, 引导这种消费。这种行为的内在驱动是营销方而不是客户方, 投资回报率肯定不够。而今天, 人们有某种需求时, 做的第一件事是到互联网上搜一下。而当人们真的实地去买产品时, 其实已经对这个产品十分了解了。

搜索引擎的产品展示很有针对性, 它把需求放在你面前。如果搜索结果在页面上展示不充分的话, 商家的很多前期准备可能就白做了。所以我们一直在跟客户讲, 搜索应该同其他所有的品牌推广活动结合起来。搜索引擎的特质是一个主动由消费者来寻求信息的媒体, 而不是把信息强加给消费者。所以, 每一次做线下或者其他非搜索的线上广告推广活动时, 你都要想一想, 消费者对这个东西了解之后, 他会在搜索引擎上做什么?否则, 这就像撒了个大网, 结果网漏了, 没有拿搜索引擎去接住。

以前是宣讲, 是单方面的展现。而今天更多的是对话, 尤其是通过搜索引擎。互联网也提供了分享内容的平台, 比如对产品的评价, 以前这些内容都在人的脑子里, 现在有了一个分享的平台。而且, 搜索引擎是一个获得内容的入口, 这些东西反过来又补充了搜索引擎能够搜索到的内容的集合。这样就构成一个好的循环, 互联网上的内容越来越多, 而且通过搜索引擎才能更方便地找到。这样, 这些内容能够得到更好的分享。

搜索营销的出现是“革命性”的, 它是“主动的”、“直接的”, 是“凸显个性需求的”, 而它的营销价值正基于此。

【记者】:您为什么认为搜索引擎最有基础、最有优势做营销革新?

沈皓瑜:网上有几种行为——搜索行为, 浏览行为。浏览行为是很普遍的, 但是一般看不出网民的兴趣和需求在哪里, 而搜索能最直接地看出网民的信息。我们的搜索引擎有一个联盟业务, 就是我们帮很多第三方网站做流量的变现。我们汇集了伙伴们大量的用户流量, 不仅掌握搜索流量, 还掌握着互联网上大量的浏览流量。另一方面我们还提供足够多的客户数量和强大的变现能力。这就是我说搜索引擎最有基础、最有优势做营销革新。

【记者】目前搜索引擎、WEB2.0社区和电子商务三个平台有交叉的趋势, 这方面有什么样的特点?您怎么看待未来网络营销平台的发展趋势?

沈皓瑜:WEB2.0社区信息是很好的对搜索引擎结果的补充, 电子商务和搜索引擎的关系就更为密切了。电子商务类的网站是搜索引擎很大的客户, 他们本身就是通过互联网起家, 懂得怎样在网上做推广, 尤其是这种带有交易性质的平台通过搜索引擎关键字转化收益效果都是很好的。

搜索现在已经是被证明的一个很有效的营销形式, 付费搜索也是全世界被证明的互联网的很好的盈利模式。搜索只占互联网上流量很小的一部分, 例如, 中国搜索引擎营销发展至今, 中小企业一直是最积极的投入者, 也是最大的受益者。中国有4000万家中小企业, 但是已经应用搜索引擎营销的不到千分之七, 这块还有很大的市场潜力需要我们去挖掘。

非搜索流量还是互联网流量很大一部分, 但是那些方式如何变现, 如何作为一个营销平台还是一个待解决的问题。有些形式比如说门户的浏览流量也是通过例如广告等变现, 但是变现能力还是很差。web2.0变现能力更差。无论是Facebook还是Myspace都有很大的流量, 但如何变现、能否变现和怎样成为一个好的营销平台, 这样的探索国外也是一直在做, 但还远没有成功。

【记者】:百度联盟是您现在负责的主要业务之一, 这部分业务是通过什么方式变现的?

沈皓瑜:百度联盟的部分收入来自于搜索, 部分来自上下文广告。上下文广告这一块会是今后的重点, 我们会尝试多种办法, 如前面所提, 非搜索流量的变现潜力巨大。

【记者】:您觉得这种趋势将引起服务模式怎样的变化?

沈皓瑜:对客户来说, 要有更多可衡量的效果。像搜索引擎是第一次将营销变成一种科学而不只是艺术, 也就是一件说得清楚的事情。而且搜索引擎上的商业数据蕴含着巨大的商业潜能, 使得在服务方式上可以在营销端为客户, 尤其是广告主提供大量前瞻性、趋势性的数据、报告以及竞争分析等等。

【记者】:市场教育方面该如何来做?

沈皓瑜:我们在各地经常开一些产品的介绍会, 而且还准备成立百度营销学院, 做搜索营销培训、认证等。我们想把这个做得社会化一些, 比如针对大学生, 现在大学生不是普遍就业难吗?前不久, 我们和国务院下属的发展研究基金会搞了一个活动, 在北师大做试点。希望全社会能更好地认识搜索引擎的效果, 企业里能够有更多这方面的人才帮助他们做这个事情。

【记者】:您觉得下一个网络营销的变革会在哪里?

沈皓瑜:我觉得搜索流量在国内还会有很大的增长, 而且, 在已经使用搜索的网民当中, 搜索次数的增长还是有很大潜力的。另外, 随着社会的逐渐成熟, 人们会逐渐认识到互联网还有其他更多的功用可以更好地帮助人们生活和工作, 互联网的泛娱乐化现象会逐渐减少。那么, 从可以商业化的流量方面来说, 搜索引擎的增长空间还是相当大的。

从变现能力方面, 国内每个点击收到的钱和国外相比低很多, 这个方面说明广告主还是低估了搜索引擎的价值;另一方面, 也说明变现方法还有很多空间。

母亲的搜索引擎 篇4

在开始搜索之前,首先应当考虑选择哪个搜索引擎。每个搜索引擎都有自己的信息采集原则,知道了搜索引擎都收集那些信息,将有助于找到合适的信息。

现在大家比较常用的门户网站的搜索引擎都是综合性的搜索引擎,信息内容函盖生活的方方面面,衣食住行的信息都有,

这就造成了门户网站的信息内容不可能很细,比如你想找一个网站下载mp3,可以用搜狐的搜索引擎查找,无论用关键词查找还是目录导航,都可以找到满意的结果。但是如果你想找一首具体的歌,比如王菲的“人间”,你直接用搜狐的搜索引擎就找不到具体的歌曲,你需要先找到一个mp3歌曲下载的网站,然后再到这个网站里查找具体的歌曲;或者还有一个方法就是用网页搜索,也可以找到具体的歌曲。

商业主题搜索引擎的研究 篇5

互联网对商业发展产生了巨大的推动作用, 我国商业信息网站已经发展到成千上万家, 在传播商业政策和信息方面发挥了显著作用。随着网络信息数量的迅猛增长, “信息过载”、“信息超载”现象引起了人们的重视。如何高效、准确的获得包含用户所需的信息的网页, 日益成为需要迫切解决的问题。

垂直搜索引擎是解决这一问题的一个有效方法。面向商业的中文专题垂直搜索引擎有针对性的搜索网上商业专题信息, 从而使商务人员高效检索所需的信息。而随着万维网上的信息数量呈指数增长, 大量信息垃圾也混杂其中。如何向商业用户提供质量好且数量适当的检索结果成为垂直搜索引擎关注的方向之一。

二、国内外现状与发展趋势

垂直搜索引擎大都处于研究和试验阶段, 利用其搜索的结果再加上专业人士的加工而形成的面向某一学科、领域的垂直门户网站也已经出现。目前在国外, 对有关主题搜索引擎的研究已经成为一大热点, 我国主题搜索引擎的研究则刚刚起步。

目前面向主题的网络搜索主要有两种技术:

一是基于内容的搜索, 这种搜索方式是传统的信息检索技术的延伸。它的主要方式就是在搜索引擎内部建立一个针对主题的词表, 搜索引擎的爬行器根据其内设的词表对网上的信息进行索引。各个不同的系统词表建设的复杂度也大不相同。

二是基于链接分析的搜索。网页之间的链接指引关系与传统的引文索引非常相似, 通过对链接进行分析, 可以找出各个网页之间的引用关系。由于引用网页与被引用网页之间内容上一般都比较相关, 所以就可以很容易地按照引用关系对大量网页分类。

三、技术关键

基于面向商业的垂直搜索引擎服务具有其自身的特性, 下面列举出实现商业信息垂直搜索引擎的四大关键技术。

1. 针对性、实时性和易于管理的网页采集技术:

面向商业的垂直搜索带有专业性或行业性的需求和目标, 所以只对局部来源的网页进行采集, 采集的网页数量适中, 但其要求采集的网页全面, 必须达到更深的层级, 采集动态网页的优先级也相对较高。在实际应用中, 垂直搜索的网页采集技术应能够按需控制采集目标和范围、按需支持深度采集及按需支持复杂的动态网页采集, 即采集技术要能达到更加针对性、实时性和易于管理, 并且网页信息更新周期也更短, 获取信息更及时。

2. 结构化数据的网页解析技术:

由于面向商业的垂直搜索引擎服务的特殊性, 往往要求按需提供时间、来源、作者及其他元数据解析, 包括对网页中特定内容的提取。在商业垂直搜索服务中, 要求对于作者、主题、地区、机构名称、产品名称以及特定行业用语进行提取, 才能进一步提供更有价值的搜索服务。

3. 全文索引和联合检索技术:

面向商业的垂直搜索由于在信息的专业性和使用价值方面有更高的要求, 因此能够支持全文检索和精确检索, 并按需提供多种结果排序方式。另外, 还要求按需支持结构化和非结构化数据联合检索, 比如结合作者、内容、分类进行组合检索等。

4. 智能化的文本挖掘技术:

面向商业的垂直搜索是以结构化数据为最小单位。基于结构化数据和全文数据的结合, 垂直搜索才能为用户提供更加到位、更有价值的服务。整个结构化信息提取贯穿从网页解析到网页加工处理的过程。同时面对上述要求, 垂直搜索还能够按需提供智能化处理功能, 比如自动分类、自动聚类、自动标引、自动重排, 文本挖掘等等。这部分是垂直搜索乃至信息处理的前沿技术。

四、设计方案

1. 技术路线。采用如下的研究开发路线:

(1) 针对商业信息的分布特点以及用户的实际需求, 在充分调研的基础上, 详细了解和比较其他研究人员在类似领域取得的一些重要而有一定创新性的成果, 在此基础上初步提出平台的整体架构。

(2) 结合面向对象设计技术, 对上一步设计出的平台进一步细化, 从而明确对该项目所采用的具体设计模式。

(3) 根据设计模式所面临的具体问题 (例如, 如何提高爬行速度问题、系统资源限制问题、网页分类器问题、HTML文档解析问题等) 给出有效的解决方案。

(4) 将以上的方案付诸实施, 形成一个面向商业的信息查询与共享平台;同时对系统的各种参数进行进一步测试, 不断地完善和优化, 最终形成一个界面友好、响应速度/查全率/查准率均符合用户要求的面向商业的垂直搜索引擎。

2. 创新点。为达到商业信息搜索引擎预期的响应速度、查全率和查准率, 在系统的开发中有如下创新点:

(1) 系统总体为模块化结构, 各个模块之间高内聚, 低耦合。

(2) 系统使用面向对象语言开发, 能够有效地重用系统部分代码。

(3) 在设计过程中, 使用面向对象的思想做指导, 建立系统类图, 便于开发人员之间的交流。在编码过程中, 不断重构代码, 使得代码具有很高的运行效率, 大大提高其重用性。

(4) 系统集成时, 使用XML文档作为模块间传递信息的工具。

(5) 大量采用散列表来提高数据的查找速度, 优化系统性能。

使用搜索引擎的负面效果 篇6

瑞典传播学者温德尔 (Sven windahl) 将“效果”这一概念分为“效果”和“后果”。他把大众传播内容引起的结果称为效果;把由使用大众媒介本身而引起的, 如排除、减少或防止了其他活动, 而非传播内容引起的结果称为后果;而把大众媒介的两种结果合称“效—后果”。 (1)

搜索引擎是媒介的观点已经得到广泛认可, 如南京大学杜骏飞教授在《如何抵御“网络搜索霸权”》一文中呼吁“必须重新界定搜索引擎作为一种媒体或准媒体的定义” (2) 。还有学者在麦克卢汉关于电子媒介是人类中枢神经系统外化的论断基础上, 提出“搜索引擎是人类大脑的延伸”这样一种观点。 (3) 而据CNNIC 2009年9月21日下午发布的《2009年中国搜索引擎用户行为研究报告》显示, 中国搜索引擎用户已达2.35亿人, 半年增长率达15.6%。搜索引擎在全国网民中的使用率为69.4%, 比2008年底增长了1.4个百分点, 2007年以来搜索引擎使用率首现增长趋势。 (4) 所以, 我们可以认为搜索引擎不仅是媒介, 而且还是大众媒介, 不仅传播者多, 受众也多。

网络时代, 不是信息缺乏, 而是信息过剩, 如何在浩如烟海的信息海洋中提取自己所需要的那一点的确不是件容易的事。正如里德 (listen.com创始人之一) 所说:在一个无限选择的时代, 统治一切的不是内容, 而是寻找内容的方式。搜索引擎正是我们寻找内容的方式, 它从互联网提取各个网站的信息 (以网页文字为主) , 并能检索与用户查询条件相匹配的记录, 按一定的排列顺序返回结果。因而, 搜索引擎成为网上传播的关键形式毋庸置疑。伴随着上传功能的日益完善, 用户自创内容将会以几何形式剧增, 那时网络世界的网页恐怕就不是数以亿计了, 搜索引擎的角色也只会更加突出, 搜索引擎不再仅仅是一种技术, 其使用也必然成为一种社会现象。

然而媒介在一定程度上仍然是外在于人的东西, 与人形成互动的关系, 因而使用媒介包含了产生各种影响的可能性, 而在这些影响中其负面影响恰恰更容易被忽视, 因而应给予更多的关注。通过对使用搜索引擎的研究以及形成的结论, 可以使大家更谨慎地使用搜索引擎, 更客观地看待通过搜索引擎检索到的内容, 从而尽可能减少可能存在的传播内容与实际情况的距离。由此, 笔者觉得分析使用搜索引擎这种大众媒介所引起的“效—后果”, 尤其是负面的“效—后果”很关键。

使用搜索引擎的效果分析

这里所说的效果分析是指由传播内容引起的结果。我们知道搜索引擎在检索与呈现过程中有两个方面涉及内容:一是搜取什么样的信息, 二是怎样呈现出来。至于搜取什么样的信息, 与传者比较贴近, 因为它反映了传者传了什么, 有没有机会被搜取到, 进而决定能否传播;而怎样呈现出来却又与受者比较接近, 因为它反映了受者找了什么, 以及找到了什么。虽然很多时候在网络世界里传者和受者之间的界定是模糊不清甚至是一体的, 传播和接收在很大程度上也是同时进行的, 无论是搜取还是呈现的信息都与传受双方密不可分。在这种情况下, 我们很容易形成“黑箱思维”, 认为传受过程比较杂乱无章。但是当我们把它们扯开来看, 才能认识到这混沌的两者之间还有第三方的存在——搜索引擎这一媒介。可以这么说, 在网络世界无论是传者还是受者都要经过搜索引擎这个媒介中转才能实现信息的大众传播。搜索引擎在网络世界里充当了“把关人”的角色, 而且是个隐身的“把关人”, 这个问题我们留待后文具体分析。现在我们先来分析一下由搜索引擎所检索和呈现的信息本身引起的结果。

搜索引擎搜取的是完全、客观、真实的信息吗?

搜索引擎真的是搜索了网络世界里所有网页的信息吗?它真的是公正无私、客观中立、真实的信息吗?

据《新闻晚报》一篇名为《网上品牌维修店多李鬼搜索引擎应把关》的报道, 一般搜索结果的前10位, 大多是在该搜索引擎网站投放广告的。根据被检索的关键词热度不同, 价格也不相同;而其所处网页的位置、价钱也有高低。而且网页在各地显示的内容也不相同, 一般以贴近当地生活的内容为主。这些都是搜索引擎特意设置的效果。所谓的“维修”, 也是维修企业与搜索引擎关键词代理公司联系, 支付相关费用后, “维修”一词便与该维修企业相联系, 按照关键词“维修”搜索的结果, 就跟该维修企业相关。而正规官方电话就淹没在这些企业名单之中, 有时甚至不会显现。比如, 输入“搬场”, 搜索结果会有很多冒名“大众搬场”等正规搬场的公司, 部分消费者在无法辨别的情况下, 就容易上“李鬼”的当。

通过该篇报道, 相信大家对搜索引擎搜取信息的真实性有所怀疑了吧。这个报道如果只能说明是网络行骗而不能责怪搜索引擎的话, 那么至少也可以说明搜索引擎并不是客观中立的, 它存在私心, 它搜取的网页和信息是不完整的, 它有所偏向, 搜索引擎的信息并不是以最自然、最真实的方式呈现的。不仅在排序上受到相关利益集团的控制, 甚至“网页在各地显示的内容也不相同”。所以, 我们不能把单次或者说使用同一个搜索引擎的搜索结果看得过于重要。下面这个事例可能会更真实地揭示这一点。

大家知道网络订票使人们足不出户即可获取优惠机票的信息, 缩短了购票时间, 减少了出行成本, 只要鼠标轻轻一点, 各种特价票、最低票价信息便涌入视野, 但是这些特价票、最低票价真的是特价、最低吗?且不说网络骗子如何利用搜索引擎在搜索结果中做手脚、发布虚假信息, 单说这些呈现给我们的信息, 我们暂且信任它的发布者, 可它这个价格确实是最低的吗?

今年4月8日, 笔者就这个问题在网上特地检索:北京到上海4月8日的机票, 去哪儿网站显示最低价格是上海航空FM9116和海南航空HU7603的870元, 携程旅行网则显示海南航空HU7603的机票为960元。为了避免一次查询结果出现误差, 笔者又查询了北京到厦门4月8日的机票情况, 去哪儿网站显示最低价格是厦门航空MF8132的1171元, 而携程旅行网显示则是厦门航空MF8106的1280元。所以, 虽然都标出特价机票, 但最低机票价格却并不相同。这里还只是将一个搜索引擎的两个显示结果作比较, 如果选用多个搜索引擎, 进行多个网页比较的话, 得到的信息又会是怎样的呢?恐怕比这个还要复杂得多吧。

这让笔者联想到曾在约翰·希利·布朗和保罗·杜奎德著的《信息的社会层面》一书中提到的反对美国航空公司的SAABRE系统的著名事例。该系统表面上声称将从一计算机数据库找出一切可搭乘的班机, 实际上它却狡诈地偏向美国航空公司的班机。他在事例结束后反思了技术透明度的问题。借助于他的启发, 笔者也不禁要问:谁能够识别数学计算方法复杂的搜索引擎的偏心呢?你怎么知道搜取的信息是公正的还是偏袒的呢?你能分辨出来吗?那么转而再细问:是谁在真正操纵你的搜索引擎, 是你, 是软件设计师, 抑或是向搜索引擎馈送信息者呢?如何能肯定你的搜索引擎没有被“做手脚”, 或现在已是一个有私心的家伙了呢?

搜索结果怎样有质、有序地呈现出来

我们知道, 目前搜索引擎基本上是依靠关键词检索, 是一种相对粗糙的检索方式, 并且我们不带任何说明的单一词汇的搜索本身, 也使搜索工作变得更为粗糙。正如《信息的社会层面》中所说:“我们的搜索结果主要用来提醒我们, 万维网乃是一个浩瀚的无序的并且变化极为迅速的信息海洋, 它具有大量重叠与重复的信息, 并且它的全部目录是不完全的和过时的。” (5) “也许更重要的是, ‘福尔摩斯’的目标搜索是在相对一般的条件下进行的, 这就暗示了将来若指派一类似‘福尔摩斯’的代理软件去执行‘给我找一个知识软件’时将会遇到的困难, 更别提给我一个‘最好的’、‘最有趣的’、‘最有用的’或‘最可靠’的知识软件了。” (6) 这里的代理软件其实是一种更专业的搜索引擎。专业的代理软件尚且不能解决这些问题, 更何况是我们普通人使用的大众搜索引擎。上文提到的这些问题我们在使用搜索引擎时也会经常遇到。关键词不准确, 致使经常搜索到的结果不是我们想要的;搜索结果重复、过时、数量庞大, 动辄几万条。

另外, 由于搜索引擎使用关键词搜索, 忽略了信息来源问题, 大量虚假、低劣、过时的信息凌驾于高质量的信息之上, 致使我们检索困难或者说使这些高质量的信息淹没在信息海洋中, 因为人们不可能在这一网页上找不到答案, 就去点击另外1000个网页试试, 精力和注意力毕竟是有限的。

在信息呈现方面, 最重要的就是信息排序, 而且最主要的是靠前的页面的排序。而搜索引擎呈现信息的方式是什么呢?时效性?质量?来源?点击率?还是别的?信息能否在靠前的页面显示关乎信息的点击率和读者的查准率, 因为读者在打开一两个页面后, 找不到有效信息就会关闭该搜索引擎或者换关键词重新查找。信息越靠前越容易被受众检索到。而随着页面的排序向后推移, 被阅读的可能性就越小。排到10页以后的页面, 被点击的概率几乎为零。搜索引擎, 如百度, 在靠前页面的排序上, 采用了竞价排名的方式。近年来频发的对搜索引擎竞价排名的诟病反映了搜索引擎在信息排序方面存在的弊端。如王世枚就在《媒介应当好广告宣传的“把关人”》中指出:“竞价排名作为搜索引擎特有的广告经营模式, 与传统媒体的广告发布最大的不同在于, 其基于计算机网络的自助式广告发布模式。比如, 一家企业要在CCTV发布广告, 至少需要与CCTV广告部或其代理公司联系, 提交广告意向, 斟酌投放方案, 并一定要进行各种严格的资质审查后, 才能发布广告。而在百度这个特殊的媒体上, 广告主只需注册一个竞价排名账户, 然后与银行卡账户关联或预先存入若干费用, 即可自行设置与广告匹配的关键词, 之后, 这一广告的发布即可生效。可以看出, 这个过程原则上说是完全自动、无人工把关的。这正是竞价排名区别于常规广告经营模式的最大不同。也正是这种不同, 给予了非法广告主和非法信息乘虚而入、钻空子的机会。” (7)

总之, 我们不能把一次检索结果看得过于重要, 毕竟搜索引擎搜取的信息的全面性、客观性和真实性有待考察。另外, 信息的呈现也是重复、繁杂, 受特定利益控制的。正如我前文所说:谁能够识别数学计算方法复杂的搜索引擎的偏心呢?你怎么知道搜取的信息是公正的还是偏袒的呢?你能分辨出来吗?

使用搜索引擎的后果

温德尔把由使用大众媒介本身而引起, 如排除、减少或防止了其他活动, 而非传播内容引起的结果称为后果。使用搜索引擎到底产生了哪些后果?

(一) 真的是省时又省力吗?

使用搜索引擎真的是方便快捷吗?我在这里把使用搜索引擎所花费的成本分为有形成本和隐形成本, 把在使用搜索引擎时所花费的金钱、物质等可以计算的成本称为有形成本, 而把花费的时间、精力等无法估量的成本称为隐形成本。有形成本容易计算, 也容易引起人们重视, 而隐形成本却在不知不觉中产生。

首先, 是吞噬时间。技术系统是脆弱的:莫名奇妙的失效、数据破坏、不相容问题、下载故障不断、令人惊叹的错误信息, 甚至频频发生的未知错误等。我们不可能都是技术专家, 遇到这些问题有时候只能唉声叹气, 不停地尝试新的链接, 在与技术的交战中, 我们经常处于劣势, 不知不觉中我们浪费了大把时间却丝毫没有收获。另外, 即使打开网页, 由于我们不可能搞懂计算机里关键词的设置与我们概念中有什么不同, 我们找到的内容也是庞杂的、重复的、不精确的。太多的选择不仅令人迷惑, 也会令人不堪重负。一个又一个网页的搜寻, 这个不行再打开那个, 好不容易打开却发现原来是重复的。如此循环往复……

其次, 是使人懒于交流。Linda stone指出, 互联网时代的新病是“持续的心不在焉”, 他说:“我们都快要找不到仪器和我们自己的关闭键了, 我们不停地戴着ipod, 不仅为了听自己的音乐, 也是为了把自己和身体的世界隔开, 为了不去听外边的噪声。我们可以在任何地方却唯独不在我们自己所在的地方。” (8) 搜索引擎的出现更加剧了这种心不在焉。随着人们网上搜索的普遍化, 物质现实似乎在成比例地缩小。人们没有直面周遭的事物, 而是在不断地和自己对话、和网络对话。碰到问题首先想到的解决办法就是到网上百度一下或者Google一下, 而没有意识到要和现实环境中的人进行实质性交流。他们把自己完全投身在网络世界之中, 以至于不借助搜索引擎、不借助于网络他们就无法看见或了解任何东西。人, 在虚拟的世界中迷失了自己。

人, 在使用媒介的过程中对媒介产生了依赖。人制造了媒介, 反过来又受到媒介的控制。搜索引擎的发明, 本来是为了帮助人们更方便地查找信息, 却没想到让人又一次迷失在信息的秩序海洋里。为了找到信息, 需要打开更多的页面, 找更多的信息, 花更多的时间、精力, 并付出用于实质性人际交流的机会。这也许就是人们常说的“为了得到一点, 需要付出更多”的道理吧。搜索引擎的使用为了节省时间而浪费了更多的时间, 恐怕是技术设计者在设计时也不会想到的吧。

(二) “我”是自由的吗?

上传后你的信息能否被搜索引擎检索到?以怎样的方式出现在受众面前, 或者根本就没有机会出现?你检索到的信息是全部的信息吗?上传和检索真的是自由无障碍的吗?

上文说过, 搜索引擎在检索与呈现过程中有两个方面涉及内容, 但我们可以看出在传者与受者之间隔了搜索引擎, 可以说搜索引擎在网络世界充当了“把关人”的角色。

搜索引擎的竞价排名制度影响信息的自由流动。公众有信息知情权, 而竞价排名制度却是利用技术手段造假、遮蔽信息, 对信息进行歪曲。一篇名为《百度搜索引擎竞价排名方式的利弊分析》这样评价:“百度建立在以广告客户为核心的竞价排名不可避免地制造不平等, 也就是倾向于反映那些具有金钱和权力的客户的观点、兴趣和信息, 而不顾及甚至排斥其他的观点、兴趣和信息, 比如未参与关键词竞价的广告信息被恶意屏蔽, 非盈 (营) 利性公共类信息排名靠后不易搜索等。” (9) 所以, 经过搜索引擎的把关, 我们的上传和获取信息的自由受到了干扰, 并不能真正做到自由。

它不像传统的报社、电台、电视台, 这种把关有时是在我们全然不知的情况下, 悄悄地借助于技术的力量来完成。这种把关既不是记者, 也不是编辑, 更不是公司或某种组织, 而是隐形的技术, 所以可以说, 这是一种隐形的“把关人”。这种把关是在上传者自由上传、受众自由浏览的表象下进行的。很多人相信只要没有人从中间“审查”的信息就是自由的, 也就是说很多人相信技术是中立的。其实, 技术也是人创造出来的, 其一经出现就带有了某种目的性, 就像洗衣机用来洗衣服、电话用来联系一样, 只不过技术的影响可能并不仅限于此。况且, 这种技术本身代表了谁的利益, 偏向于谁却也很难搞清楚。

美国学者阿特休尔在他的《权力的媒介》一书中, 用大量篇幅论述了一个观点, 即不论是过去的还是现在的大众媒介, 都不是自立的、自为的, 都是某种权力的“吹鼓手”, 都是某种权力的代理人。那么搜索引擎到底是谁的代理人呢?

注释

1 石庆生:《传播学原理》, 安徽大学出版社。

2 杜骏飞:《如何抵御“网络搜索霸权”》, 《广州日报》, 2008 (12) 。

3 雷赫:《互联网搜索引擎的传播学意义》, 《青年记者》, 2006 (10) 。

4 《2009年中国搜索引擎研究报告:问题及建议》, 新浪科技, http://tech.sina.com.cn/i/2009-09-21/15363454694.shtml

5 (6) 约翰·希利·布朗、保罗·杜奎德[美]著, 王铁生、葛立成译:《信息的社会层面》, 商务印书馆, 2003年版。

6 (7) 王世枚:《媒介应当好广告宣传的“把关人”》, 《中华新闻报》, 2004年版。

7 (8) 托马斯·弗里德曼[美]著, 何帆、肖莹莹、郝正非译:《世界是平的:21世纪简史》, 湖南科学技术出版社, 2009年版。

谈网站的搜索引擎优化 篇7

关键词:搜索引擎优化,SEO,关键词,外链

调查显示, 大多数网站70%以上的流量来自于搜索引擎, 在搜索引擎获得更多的流量和更好的排名是网站建设推广成功的重要标志[1]。在这个背景下, 搜索引擎优化 (Search Engine Optimization, 简称SEO) 成为网站管理者必备的能力, SEO是指从自然搜索结果获得网站流量和排名的技术和过程。

以下为影响网站SEO的几个因素。

一、网站结构

网站页面的收录很大程度上依赖良好的网站结构, 网站在提交给搜索引擎之后, 搜索引擎的蜘蛛 (Spider) 会沿着超链接连接起来的网页上爬行, 再把网页抓取给搜索引擎的服务器中存储起来, 清晰而不复杂的网站结构能使得蜘蛛沿着链接顺利爬行, 因此, 构建利于蜘蛛爬行的网站结构是SEO的基础。

网站结构规划构建原则:1.不用过深的目录做栏目, 搜索引擎认为:二级域名的权重>二级目录>根目录文档。2.建立良好的内部链接结构以传递页面权重。3.制作html和xml的网站地图利于蜘蛛爬行以便让搜索引擎更快更多地收录页面。4.保证网页url能被抓取, 数据库动态生成页面做伪静态化, 避免url含有过多参数。5.避免蜘蛛陷阱, 常见的蜘蛛陷阱包含:过多应用Flash、Session ID的应用、可疑的页面跳转、应用框架结构、强制使用Cookies等。6.网站上线后, 模板不可随意修改。大多数情况下, 模板修改会导致网站被搜索引擎降权并引起收录量下降。

二、网站页面

网站页面优化内涵丰富, 是网页是否有利于被收录的主要决定因素, 通常一个对搜索引擎友好的页面包含下面几个元素:

1. 页面标题

页面标题是页面优化中重要的元素。标题的优化需要具备三个主要特点:

(1) 独特性。同一网站出现多个同样的网页标题会受到搜索引擎的惩罚。中小网站页面标题最好人工撰写, 大型网站需要调用页面上特有的内容生成标题。

(2) 相关性。页面标题中需要含有文章中的目标关键词, 搜索引擎能够迅速通过标题判断页面的相关性。在标题中加入搜索频率高但与页面无关的关键词会被搜索引擎认为是作弊行为。

(3) 不堆砌性。页面标题堆砌关键词不但不能提高相关性, 还可能会被认为是作弊, 标题堆砌关键词比正文堆砌关键词更容易引起蜘蛛的警觉。

2. 描述标签。

描述标签是页面Head部分用于说明页面主体内容的标签。目前, 经过各大搜索引擎算法不断完善, 描述标签对搜索结果排名已经不起作用, 但对用户点击率具有一定影响, 因为搜索引擎结果列表的页面摘要来自于描述标签。

3. 正文关键词。

(1) 正文关键词的词频密度不可过高, 正文堆积关键词可能会被认为作弊。一般认为, 正文关键词密度控制在全文的3%-5%较为理想。 (2) 文章正文部分越早出现关键词对页面优化越有利。通常正文前100个词中出现关键词的页面会获得较高权重。实际操作中, 大多数页面的第一段文字的第一句话就会出现关键词。

4. ALT文字。

图片的ALT文字出现关键词对页面相关性具有一定影响, 是页面优化的重要一环。实验证明, 很多在搜索引擎排名靠前的页面靠的是ALT文字而非其它元素。

三、网站内容

1. 网站关键词。

(1) 关键词必须与网站内容具有相关性。 (2) 核心关键词不能过于宽泛, 宜选择搜索次数多、竞争力小的关键词。 (3) 确定核心关键词后, 需进行有效的关键词扩展, 加入长尾关键词以提升网站流量。

2. 文章内容

(1) 文章的原创性。原创内容最受搜索引擎青睐, 采集文章则需要进行伪原创处理, 纯复制采集的网站内容会让搜索引擎对网站信任度降低, 出现收录减少与快照更新缓慢的现象。

(2) 文章添加的持续性。持续规律地给网站添加高质量原创内容, 会增加搜索引擎对网站的信任, 获得更多的权重、取得更好的排名。

一段时期以来, 各大搜索引擎延长了对新站的考察期, 所以网站内容维护需遵循“坚持就是胜利”的原则, 不能“三天打渔、两日晒网”, 否则, 搜索引擎释放收录页面速度将减缓甚至出现不收录的状况。

四、网站链接

1. 网站内链。

内链是指同一网站下的内容页面之间互相链接。包含导航、栏目、内容页之间的链接以及站内关键词之间的Tag链接等。网站内链建设遵循的原则:

(1) 每篇文章内链不超过2个, 相同关键词只加一次链接。 (2) 核心关键词链到网站首页, 长尾关键词链接到相关性最高的内页。 (3) 内页不宜链接至所属栏目列表页, 原则是寻找相关关键词链接至其它栏目列表页。 (4) 每篇文章都用3个左右tag, 用来增加内链让页面互通, 而且要把tag设为静态。 (5) 减少页面层级链接, 合理的层级页面, 更有利于蜘蛛抓取, 对搜引得擎优化更加友善。 (6) 不可出现死链。

2. 网站外链。相对于内链, 外链建设对SEO具有更加重要的意义。网站外部链接遵循的原则有[2]:

(1) 内容相关性。外链网站内容须与本站相关, 内容相关同时适用于网站级别与网页级别, 如果外链网站内容与本站无关, 外链的权重传递效果甚微。

(2) 锚文字分散性。外链锚文字不可过于集中, 网站获得的外部链接全都使用一个锚文字, 会导致搜索引擎惩罚。此外, 锚文字使用关键词也要与本网站内容相关。

(3) 链接来源广泛持续性。链接来源网站种类要丰富, 包含新闻网站、论坛、博客、社交媒体等, 不可在同一外部网站做过多外链。外链数量要平稳持续增加, 短时间爆炸式增长的外链数量会被搜索引擎认为是作弊。友链交换时, 不可链接向被搜索引擎惩罚的网站, 防止被连带降权。

参考文献

[1]徐晓力.SEO及其策略研究[J].电脑知识与技术, 2010 (59) .

互联网上的搜索引擎综述 篇8

飞速发展的互联网极大地改变了人们的生活,WWW已经成为人们交流和获取信息的重要媒介。1999年全球网页总数量不到30亿,2000年达到了近50亿,预计到2003年,这一数字将达到惊人的150亿以上,这就意味着全球平均每人拥有两个以上的Web页面[4]。面对这浩渺无边的数据源,人们常常遇到一种令人心烦的情形,比方说,在百度搜索引擎中键入“how to improve English”,返回结果高达21700个网页,而真正想要的很少或在结果集中排位很低。于是人们呼唤一种去伪存真、去粗存细的技术来解决资源泛滥而又知识贫乏的矛盾,作为信息检索工具的搜索引擎就应运而生。

1994年,6个斯坦福大学的毕业生开发出第一个搜索引擎World Wide Web Worm(后来改名为Excite),当时它收集的网页数仅为11万,这虽然在一定程度上缓解了人们面对信息海洋不知所措的问题,然而互联网上的信息爆炸使得人们很快发现要找到自己真正感兴趣的知识是一件极其耗时费力的事。人们渴望另一种技术,它就像一个旅游向导一样能把你带到最有趣的景点,像一位图书管理员能帮助你在浩瀚书海中迅速找到你想要的书籍。基于此种需要,华人杨致远与他的好朋友D a v i d Filo将索引网页进行分类创办搜索引擎Yahoo!。由于绝大多数搜索引擎的设计都有其特定的索引范围、独特的功能与使用方法,以及预期的用户群指向,一种搜索引擎不可能满足所有人或一个人所有的检索要求,人们为了获得想要的知识需要使用多种搜索引擎,对其结果进行比较筛选。为了消除逐一登陆各引擎进行同一检索的烦琐操作,1995年,华盛顿大学硕士生Eric Selberg和Oren Etzioni推出元搜索引擎(MeteCrawler),为了提高搜索引擎的各项智能搜索引擎的研究,当今许多国内外著名学术机构都在开展智能搜索引擎的研究,目的使得搜索引擎能根据不同兴趣类别的用户提供不同的服务内容,实现查全率(R e c a l l)、查准率(precision)、响应性能等多方面搜索性能的提高与改善。

2 搜索引擎的分类及其结构

目前的搜索引擎主要可分为三类,索引基于网络机器人的搜索引擎、索引基于类别和模板的搜索引擎和基于其他引擎的元搜索引擎。

1)基于网络机器人的搜索引擎

它由网络机器人Spider(Crawler)沿着页面链接Web graph中爬行,检索回文档并建立索引库,服务器端的CGI或Servlet处理由客户端发送来的检索请求并以检索结果作为响应返回至客户端。典型的此类搜索引擎国外有:Alta Vista、Google、Excite,国内有baidu。其基本结构见图1。

2)基于人力分类建模的搜索引擎

它依靠人力收集网页并将它分类编目索引,其类别与模板相互嵌套构成树状结构,大多数URL是由用户推荐与分类的,它们组织方式良好,很具有个性化色彩。其代表国外有Yahoo、Open Directory Project、Look Smart,国内有新浪、搜狐、网易等。

3)基于其它搜索引擎的元搜索引擎

它是用户同时登陆到多个搜索引擎进行信息检索的媒介。它根据用户提交的检索请求,并行或串行调用源搜索引擎进行搜索,对源搜索引擎返回的结果进行筛选、合并与排序等操作,以统一的格式在客户端显示,它没有自己的网页采集机制也没有自己独立的索引库。其代表国外有InfoGrid、ProFusion、Mamma等。其基本结构见图2。

3 性能指标及关键技术

评价搜索引擎性能的主要指标有查全率、查准率、响应时间和受欢迎程度等。查全率是一次搜索结果集中符合用户要求的数目与和用户搜索相关的总数之比。查全率在很大程度上取于该搜索引擎的索引库容量,目前运营的搜索引擎查全率都比较低,这是由于单一的搜索引擎很难与日益浩大而又动态更新的w e b资源保持一致。查准率是指一次搜索结果集中符合用户需要的数目与该搜索结果总数之比。受欢迎程度体现用户对搜索引擎的偏爱度,一般来说,知名度高、性能稳定且搜索质量高的搜索引擎备受欢迎。

如何提高搜索引擎的性能是研究者、商家与用户都期待解决的问题。解决该问题要涉及计算机网络、模式识别、人工智能与机器学习等多个领域的知识。主要的关键技术包括文档内容分析、识别检索条件、信息排序与集成和搜索引擎个性化。

1)文档内容分析

文档内容分析主要包括文本分类、文本聚类、文本摘要等。其基本思想是借鉴知识发现的思想,首先文本按照内容的相似程度划分成若干类别抽取每类的特征,作为该类的标记信息。然后对每个文本进行文本结构分析,将文本分解为层次状的结构单元,抽取各个结构单元的特征,并生成文本摘要,最终形成文本结构树。常用的分类方法有贝叶斯分类器、模式识别、后向反馈神经网络、K-NN和各种统计方法;常用的聚类方法有以G-HAC算法为代表的层次凝聚法与以k-means等算法为代表的平面划分法。将分类与聚类二者有机结合能使文本分析获取更令人满意的效果。

2)识别搜索条件

识别搜索引擎条件主要包括两个方面的任务:一是如何从查询条件中提取有效成分,二是如何将提取到的有效万分与知识库结合进行同义、近义或相关词的组合。于是若一个用户进行一个搜索条件比较复杂的查询时,搜索引擎就很难据此进行索引库查询,而自然语言的查询使得搜索引擎很难进行有效成分的提取。因此建立简洁清晰的查询表示机制是搜索引擎中非常关键的一步。

3)信息排序集成

简单地采用基于文本的检索技术,使得检索结果非常繁大,很容易造成“信息迷失”。互联网的链接结构提供了另一种理解信息资源的方式:一个网站的作者选择链接到另一个网站这意味着这两个网站有相似的内容。HITS[2]算法就是依据这一直觉知识来定义出超文本集中“authoritative”和“hub”网页,这二者是相互信赖的:好的“authorities”就是为许多“hubs”所链接的页面,而一个好的“hub”也是一个链接许多“authorities”的页面。PageRank[3]等算法就是依据HITS算法的思想来对网页质量进行排序。Google[1]与CLEVER系统中链接评价体系就运用了超链分析对返回结果进行排序和集成。

4)搜索引擎个性化

由于不同的用户具有不同的兴趣爱好,因而有不同的需求,只根据查询条件来返回结果肯定会使得许多用户找不到自己想要的信息。要想使搜索结果个性化,必须要准确动态地描述用户的兴趣与偏好,建立用户各自独立的UIH(User Interest Hierarchy),可以根据用户的书签文件、检索时输入的关键词、所访问页面的内容关联以及用户的点击流对用户的Profile进行动态更新,也可以不编辑用户兴趣描述文件而直接进行动态学习[5]。

4 发展趋势

1)查询语言自然化

自然语言的输入将更加方便用户的使用,使得用户能更精确表达自己的要求,也更易于用户与搜索引擎的交互。为了克服关键字查询怀目录查询的不足,自然语言智能查询业已出现。用户可以输入诸如“Where can download the java developing kit?”。搜索引擎可采用多种方式逐步与用户进行交流,达到理解用户真正意图的目的,进而提供给用户更满意的结果。若简单采用关键字查询肯定会出现大量与“Coffee”有关的结果,而这些根本不是用户所想要的。使用自然语言进行查询会使得返回结果集容量小而又质量高。

2)搜索范围专业化

浩如烟海的网络资源正在成指数增长,单个的搜索引擎无法收集全所有主题的网络信息,即便是信息主题收集得比较全面,也由于主题范围太泛使得搜索引擎很难将各主题做精做专,从而导致检索结果中垃圾过多,查准率大大降低。用户与研究者对具有高度专业化的面向主题搜索引擎日益看涨。以天气、新闻等为专题的面向主题搜索引擎越来越受到欢迎。

3)查询结果个性化

个性化是市场的一种必然趋势,根据个体用户或集体用户的兴趣与使用经验进行增量式地搜索,对返回结果进行过滤以提供更符合用户实际意图的结果。建立在搜索引擎基础之上的元搜索引擎的一个突出特点就是集中精力对各搜索引擎返回结果进行智能化个性化处理。

5 结束语

Internet正将世界各地的信息资源带到每一个人的面前,目前运作的搜索引擎带给人们的信息是过量,而不是不足,方便及时地从这个浩大的知识海洋中获得自己真正想要的信息是每个“surfer”的心愿,基于此种需要,本文介绍了搜索引擎的发展历史,讨论了搜索引擎的分类及其结构原理,分析了它所涉及的关键技术,并在此基础之上对搜索引擎的发展趋势进行预测。

摘要:随着互联网上的信息急剧增加,是否能找到信息的问题变成了如何才能找到相关的信息,尽管搜索引擎的出现在一定程度上解决了这一问题,但依然还有许多艰巨的任务有待完成。在此文章中我们概述了搜索引擎的发展历史,阐述了搜索引擎的基本结构并提出了搜索引擎研究领域涉及的关键技术,在此基础上我们描述了它的发展趋势。

关键词:搜索引擎,WWW,信息检索

参考文献

[1]Sergey Brin and Lawrence Page.The anatomy of a large-scale hypertextual web search engine.In Proceedings of the Seventh International World-Wide Web Conference,Brisbane,Australia,April1998.

[2]J.Kleinberg.Authoritative sources in a hyperlinked environment.In Proceedings of the ACM-SIAM Symposium on Discrete Algorithms,1998.

[3]L.Page,S.Brin,R.Motwani,and T.Winograd.The PageRank citation ranking:Bringing order to the web.Stanford Digital Libraries Working Paper,1998.

[4]http://media.ccidnet.com/media/ciw/1154/d0901.htm

[5]史忠植.知识发现.清华大学出版社.2002:334~363

面向主题的搜索引擎设计 篇9

关键词:垂直搜索,k-means,TF/IDF

一、引言

随着信息多元化的增长, 千篇一律的给所有用户同一个入口显然不能满足特定用户更深入的查询需求。这就需要一个分类细致精确、数据全面深入、更新及时的面向主题的搜索引擎[1]。它的研究意义在于: (1) 主题Web搜索引擎是目前的一个研究热点, 也代表了搜索引擎未来的发展方向。传统的搜索引擎由于面向所有用户, 因此其信息采集也面向整个Web。影响了用户进行信息检索时返回结果的全面性、准确性和时效性。而主题搜索引擎使用户在进行信息检索时能够获得更新、更准确, 也更全面的信息, 能比较有效地解决目前搜索引擎领域内面临的问题。 (2) 将Internet上无序的“信息”转化为有序的知识, 为用户提供高质量, 个性化的服务, 满足特定用户群体的信息需求。从用户的角度来考虑, 主题搜索引擎能为用户提供高质量, 个性化的服务, 满足特定用户的信息需求, 具有相当重要的研究意义。 (3) 传统的信息采集领域存在一些问题, 对这些问题作深入地研究并提出一些解决的方法, 对主题搜索引擎的发展有一定的促进作用[2,3]。

本文基于统计的方法, 在传统搜索引擎搜索结果的基础上, 提出一种新的面向主题的搜索引擎设计方法。本文假设爬虫已经将Web中的各种网页信息采集了, 在此基础上, 使用改进的k-means算法对结果进行聚类, 然后利用相关词抽取技术抽取代表每类的词语, 供用户选择感兴趣的类别。以减少用户在大量的结果中寻找自己感兴趣的页面的时间, 提高检索效率。

二、算法介绍

本文提出的方法主要包括两个功能模块: (1) 用改进后的k-means算法对搜索结果自动聚类; (2) 抽取每个类别中的相关词作为描述该类的词汇。下面我们详细介绍这两个模块的具体算法。

2.1 对搜索结果聚类

k-means算法是统计学和机器学习中的一个比较经典的算法。算法的工作过程如下:首先从n个数据对象任意选择k个对象作为初始聚类中心;而对于所剩下其它对象, 则根据它们与这些聚类中心的相似度 (距离) , 分别将它们分配给与其最相似的 (聚类中心所代表的) 聚类;然后再计算每个所获新聚类的聚类中心 (该聚类中所有对象的均值) ;不断重复这一过程直到标准测度函数开始收敛为止。

传统的k-means算法有个局限就是k值的选择。因为在聚类之前, 可能并不清楚类的个数。如果任意指定k值, 反而会影响聚类效果。本文中, 采取自适应的方法进行对k值的调整。经过试验研究发现, 90%文本聚类的类数在2-6之间, 本文对2-6之间的k值分别进行聚类, 然后计算每类文献之间的相似度和, 最后把所有类的相似度和加起来作为该聚类后的相似度, 从中选择最高的那种聚类作为最后的聚类结果。这样就可以避免传统的k-means聚类算法带来的局限。

2.2 抽取每类的可鉴别词

对聚类后每类中的网页文本, 分别进行N字串的频率统计f (设2≤N≤8) , 同时统计该字串出现的网页文本数m。然后对该字串赋以权重f/m。用频率评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加, 但同时会随着它在语料库中出现的频率成反比下降。

对字串的频率f及权重f/m设定两个阈值 (阈值是经过反复试验经验获得) , 若字串的频率和权重超过阈值就成为候选可鉴别词。然后对候选鉴别词进行一些简单的规则过滤, 如以“的”开头或结尾的词、以“是”开头或结尾的词。再对候选鉴别词是否是另一个候选鉴别词的子串进行过滤。最后再对候选鉴别词按照子串长度进行从高到低的排序, 取前K (设K=3) 个, 就得到了描述该类的可鉴别性词。

三、试验数据及结果

我们利用百度搜索引擎, 对关键词“诺贝尔”进行了搜索, 在得到的搜索结果中, 用我们所提的方法进行聚类和获取可鉴别词, 结果如下:

主题一: (诺贝尔奖、诺贝尔经济学奖、经济学奖得主)

主题二: (诺贝尔瓷砖、瓷砖价格表、建材)

主题三: (诺贝尔和平奖、民主、政治目的)

四、结论

试验数据显示我们的方法是有效的。我们对传统搜索引擎搜索结果的改善是较为显著的, 用户可以直接先选择自己感兴趣的主题, 然后再从中选择自己感兴趣的网页进行浏览, 提高了用户的查询效率。

参考文献

[1]程跃.面向主题的搜索引擎的设计[J].信息科学, 2009, 12.

[2]唐志.主题Web信息采集与分析技术研究[D].硕士学位论文, 2006.

上一篇:城市景观中的水体设计下一篇:幼儿美术教育问题