链接分析

2024-07-04

链接分析(精选十篇)

链接分析 篇1

关键词:HITS算法,权威网页,中心网页

0 引言

互联网与传统数据环境相比, 具有另一种丰富的信息, 就是互联网的超链接拓扑结构。链接能反映一种思想:如果存在一条超链接从网页A指向网页B, 那么A的作者认为B包含了有价值的信息, 且B中的信息是与A相关的。HITS (Hyperlink-Induced Topic Search) 算法是Web结构挖掘中最具有权威性和使用最广泛的算法, 其基本思想为利用页面之间的引用链来挖掘隐含在其中的有用信息 (如权威性网页) , 具有计算简单且效率高的特点。

1 HITS算法

广泛主题搜索过程往往返回大量的结果以至于用户无法消化。针对这种情况, Kleinberg致力于提供有效的搜索方法过滤网页以得到一个最权威的网页集合。根据权威性网页能被大量的网页作者所认可的特点, Kleinberg于1999年提出了关于超链接的检索算法--HITS算法。HITS算法基本思想是通过网页的链接分析得出每个网页的权值从而得出网页的权威性。HITS算法将页面分为两种类型:一种为表达某一主题的权威页面, 称为Authority页面;另一种为能把这些Authority页面联结在一起的页面, 称为Hub页面。HITS算法涉及两个重要的权值概念:

Authority:表示一个权威网页被其它网页所引用的加权数量, 即该权威网页的加权入度值。若某网页被引用的数量越大, 则该网页的加权入度值越大, Authority越大。

Hub:表示一个Web页面指向其它网页的加权数量, 即该Web页面的加权出度值, 它提供了指向权威页面的链接集合。若某网页的加权出度值越大, 则该网页的Hub值越大。Hub起到了隐含说明某话题权威页面的作用。

1.1 创建万维网集中子图

设查询字段为σ, 创建一个网页集合Sσ使其满足以下条件:

(1) Sσ相对较小;

(2) Sσ包含了丰富的与查询相关的网页;

(3) Sσ包含了绝大多数最重要最权威的网页。

网页集合Sσ的收集过程:首先从一个基于文本的搜索引擎如Alta Vista开始, 得到关于的查询字段σ排序最先的t (t为参数, 一般设置为200) 个网页, 称这t个网页为根集合Rσ。此根集合满足上述 (1) 、 (2) 的要求, 但与 (3) 的要求相差甚远。因为在Rσ中的网页只有很少的链接。实验表明, 查询词"java"的Rσ集合中网页仅有15个链接关系, 而查询词"censorship"只有28个链接, 与200个根集合Rσ中的网页潜在链接数200×199=39800相比是极少的, 算法所基于的思想是权威网页必将有大量的链接。因此, 需要利用Rσ集合来产生满足三个条件的Sσ集合。HITS算法的另一个思想是:与主题相关的权威网页极有可能被Rσ中至少一个网页所指向。

通过沿Rσ中网页链接来增加子图中权威网页的数量。具体地, 通过如下过程实现Sσ的收集过程:

根据上述过程将得到的Sσ集合称为查询σ的基础集合。实验中令t=200, d=50在Alta Vista中构建的基础集合Sσ, 满足上述三个条件, 集合所含的网页数量介于1000到5000之间。图1表明了基础集合的收集过程。

1.2 HITS算法数据结构描述

HITS算法使用的数据结构为图G[Sσ]= (V, E) , 其中结点集合V是所有属于Sσ的网页, 而边集合E为属于且仅属于基础集合Sσ中网页之间的链接, 其中的有向边 (p, q) 表示链接从网页p指向网页q。

1.3 Authority权威度和Hub中心度的计算

Hub中心网页和Authority权威网页之间显示了一种相互加强的关系:好的Hub网页会指向Authority网页;Authority网页会被许多好的Hub网页所指向。利用中心网页和权威网页之间的关系, 通过一个交互算法来保持并更新每个网页数值权重。

HITS算法输入数据是图G[Sσ]的一个N×N (N为Sσ所含网页个数) 的相邻矩阵A, 其中如果网页i存在一个链接到网页j, 则Aij=1, 否则Aij=0。

HITS算法为每个网页i分配两个度量值:中心度hi和权威度ai。设向量a= (a1, a2, …, aN) 代表所有基础集合中网页的权威度, 而向量h= (h1, h2, …, hN) 则代表所有的中心度。最初, 将这两个向量均置为u= (1, 1, …, 1) , 操作In (a) 使向量a=ATh, 而操作Out (h) 使向量h=Aa。反复迭代上述两个操作, 每次迭代后对向量a和h范化, 以保证其数值不会使计算溢出。Kleinberg证明经过足够的迭代次数, 向量a和h将分别收敛于矩阵ATA和AAT的主特征向量。通过以上过程可以看出, 基础集合中网页的中心度和权威度从根本上是由基础集合中的链接关系所决定的, 更具体地说, 是由矩阵ATA和AAT所决定。

2 HITS的改进算法

HITS算法遇到的问题, 大多是因为HITS是纯粹的基于链接分析的算法, 没有考虑文本内容, 没有区别对待不同的链接 (即没有区分链接的重要性) 。继Kleinberg提出HITS算法后, 很多研究者对HITS进行了改进, 这里主要介绍ARC算法和SALSA算法。

2.1 ARC算法

IBM Almaden研究中心的Clever工程组提出了ARC (Automatic Resource Compilation) 算法, 以HITS算法为核心, 并试图通过增加对网页内容信息的利用来克服HITS算法的主题漂移。ARC算法考虑在链接 (href) 周围的文本内容会较大程度地反映链接所指向的网页的内容。如果这个链接周围的文本出现了查询的主题, 那么可以更加确信链接所指向的网页也是与查询主题相关的。这样在赋予网页集对应的邻接矩阵初值时结合了链接锚文本内容, 适应了不同的链接具有不同权值的情况。

剩下的问题就是如何将这种信息反映到HITS算法的迭代过程中, 基本思想是为每个链接分配一个权值w (p→q) , 如果p到q的链接周围出现的与主题相关的文本越多, 那么这个链接的权值也就越高。与HITS算法一样, 迭代过程也始于两个向量x和y, 其分量的初值均设为1, 但与HITS算法不同, 相邻矩阵的构造不再是布尔型矩阵。邻接矩阵W的每一项对应于一对网页, 如果他们之间存在链接, 则Wpq=w (p→q) , 反之。迭代过程的每一步可以表示为x=WTy, y=Wx。

如何将链接 (href) 周围的文本映射成一个量化的权值呢?Chakrabarti的方法是将href的左右看作是一个B字节的窗口 (包括之间的文本) 。B是一个由实验决定的参数, 设n (t) 表示在窗口中出现的与主题相关的词 (用户查询的关键词) 的频度, 那么链接权重的定义可以表示为W (p→q) =1+n (t)

2.2 SALSA算法

从理论基础上看, SALSA算法基于概率论中的马尔可夫链原理, 并依赖于数据收集时的"随机漫游"的随机特性。

R.Lempel和S.Moran在SALSA算法中, 仍然沿用了HITS算法的两个基本概念, 将网页分为两类, 即Hubs和Authorities。对每个页面而言, 它们也有两个权重, 即hub weight (中心权重) 和authority weight (权威权重) 。与此同时, SALSA算法更强调Web用户浏览的随机性及向前浏览网页的直觉知识, 借鉴了Page R-ank算法的随机冲浪思想, 同时摈弃了HITS算法所描述的hub与authority相互增强的方法

具体的算法步骤如下:

(1) 首先用基于文本的搜索引擎 (如Alta Vista或Hotbot) 来得到查询式的结果, 取排名最高的前t位形成根集Rσ, 其中的t一般取值为200。其次, 扩充根集, 分两步进行, 一是将所有Rσ所指向的页面扩充进去, 该扩充在数量上没有限制;二是将指向Rσ的每一页面的链接页面取其中任意d (d<=50) 个页面扩充到原来的Rσ中形成基本集Sσ去除无关链接, 如内在链接、CGI脚本链接、广告和赞助商的链接等, 只保留提供信息的链接, 形成集合Gσ。

(2) 从集合Gσ中构造二分无向图G'= (Vh, Va, E) , 其中Vh={sh|s∈C and out-degree (s) >0} (G'的hub边) ;Va={sa|s∈C and in-degree (s) >0} (G'的authority边) 。E={ (sh, sa) |s→r in Rσ}。从而定义了两条马尔可夫链, 即hub链和authority链。

(3) 通过定义矩阵方法分别定义了hub矩阵和authority矩阵, 并求出其特征向量, 即可找出两条马尔可夫链的静态分布。其中authority矩阵中值大的网页即为所求的authority网页。

3 结束语

HITS算法是Web结构挖掘中的重要算法之一, 针对该算法存在的一些问题, 许多学者提出了各种改进算法, 且这些改进算法还在不断研究发展中。通过改进的HITS算法, 可以获得高的查询精确度, 当然, 也可能增加了算法的复杂度。如何改进HITS算法, 使其具有较高查准率和查全率, 同时又能降低算法的复杂度, 这应是HITS算法研究的方向。

参考文献

[1]KLEINBERG J.Authoritative sources in a hyperlinked environment[C]Proceedings of the9th ACM-SIAM Symposium on Discrete Algorithms.New Orleans.ACM Press, 1997.

[2]Sergey Brin, Lawrence Page.The Anatomy of a Large-Scale Hy-pertextual Web Search Engine.Proceedings of the Seventh Interna tional Conference on World Wide Web7, Brisbane, Australia, 1998Amsterdam, The Netherlands, The Netherlands, Elsevier Scienc Publishers B.V., 1998.

[3]ZhangMin, Gao Jianfeng, Ma Shaoping.Anchor Text and Its Con text Based Web Information Retrieval.Journal of Computer Re search and Development, 2004 (1) .

[4]王晓宇, 周傲英.万维网的链接结构分析及其应用综述[J].软件学报, 2003 (10) .

[5]冯国臻.基于结构分析的大规模WWW文本信息检索技术的研究[D].北京:中国科学院计算技术研究所, 2001.

[6]张聪.基于HITS的链接分析算法研究与改进[D].大连:大连理工大学, 2007.

[7]刘悦.WWW上链接分析算法的若干研究[D].北京:中国科学院2003.

谈谈网站排名的链接分析技术 篇2

谈谈网站排名的链接分析技术

所有对搜索引擎优化稍有了解的人都知道,链接是网站排名的重要因素,但却不一定完整理解链接分析是从哪些方面影响搜索引擎排名的,今天简单介绍一下我的观察和想法。

首先有两点要强调:

1)链接分析技术的含义比Google PageRank要广泛的多。因为Google的光环和对PR的宣传,使得很多人把PR看的异常重,以为PR是链接分析中的主要内容,其实搜索引擎对链接的分析要广泛的多。

2)链接分析包含了导入链接和导出链接。我下面只谈导入链接,以后有时间再谈导出链接。但必须要明确的是,适当的指向权威网站的导出链接有助于网站排名,而不像很多人以为的,导出链接会使本网页的PR损耗,从而降低网页排名。

搜索引擎对导入链接的分析很可能包含以下这些方面:

导入链接数目

导入链接本身的重要性,也就是链接向你的网页本身的重要性

(这两点也就形成了Google PR,但后面的这些因素都和PR没有直接关系,

)

反向链接增加的速度

反向链接所在网站本身的内容主题

反向链接所在页的内容是否相关

反向链接的链接锚文字

反向链接锚文字前后周围的文字

链接在页面的位置

反向链接所在的域名年龄

反向链接所在的域名是否曾经转手

反向链接所在页第一次被收录的日期

反向链接所在页页面内容是否曾经有变化?有什么样的变化?

反向链接第一次出现在页面上是什么时候

链接文字是否曾经变化?变化是什么?

反向链接所在页还链接向哪些其他网站?这些其他网站内容是否相关?质量怎么样?

反向链接是否有垃圾链接嫌疑?比如来自论坛签名,博客等地方。

链接点击率

用户点击链接后在你的网站停留多长时间

网络链接侵权责任分析及其司法实践 篇3

[关键词] 网络链接 信息网络传播权 侵权分析 司法实践

[中图分类号] G230 [文献标识码] A [文章编号] 1009-5853 (2015) 04-0051-03

Analysis of Infringement of Network Links and Its Judicial Practice

Wang Hua

(Zhejiang Education Publishing House,Hangzhou,310013)

[Abstract] Premier Li Keqiang put forward the Internet Plus strategy in March to encourage the application of the Internet in traditional industries. Against this background, the traditional publishing industry is striving to explore a digital road aiming at integration and development. In this process, copyright problems caused by the use of new technologies have created confusion to the publishers. This paper is a brief analysis of criteria of conviction for direct infringement and indirect infringement of technology-based network linking behavior on the basis of domestic and foreign judicial practice.

[Key words] Network links Transmission right of information network Analysis of infringement Judicial practice

2015年4月,国家新闻出版广电总局、财政部联合印发的《关于推动传统出版和新兴出版融合发展的指导意见》提出,“立足传统出版,发挥内容优势,运用先进技术,走向网络空间,切实推动传统出版和新兴出版在内容、渠道、平台、经营、管理等方面深度融合”。在出版融合大发展的形势下,一批新技术、新产品在出版物开发过程中得到应用,如App技术、二维码链接技术等,随之而来的网络版权保护和侵权责任问题是作为出版人必须了解和明晰的问题。作为构成网络世界运行基础和核心功能的超链接技术,其侵权认定标准,一直是业内关注、讨论的热点。

1 链接定义及其分类

链接,又称为超文本链接、超链接,是指通过使用超文本标记语言编辑包含标记指令的文本文件,通过通用资源定位符指向其他内容,在两个不同的文档或同一文档的不同部分建立联系,使访问者可以通过一个网址访问不同网址的文件或通过一个特定的栏目访问同一站点上的其他栏目等[1]。超链接实质是指从一个网页指向一个目标的连接关系。

我国司法实务中,一般将网络链接分为浅层链接和深层链接两类。浅层链接,也称一般链接或普通链接,指的是对第三方网站首页或者其他网页的链接。用户点击链接之后,会脱离设链网站,进入被链接的网页。而深层链接是对第三方网站中存储文件的链接。用户点击链接之后,可以在不脱离设链网站的情况下从第三方网站下载该文件,或在线打开来自于第三方网站的文件,欣赏其中的作品。此时用户浏览器中显示的网络地址仍然为设链网站的地址,而不是被链接的文件在第三方的地址[2]。从中可以分析得出,深层链接与浅层链接相比,具有几个明显的特点:一是用户的操作是在设链者网站上完成;二是设链者是通过各种技术手段直接抓取和使用第三方网站内容。但是不论是浅层链接还是深层链接,被链接的内容始终存储于第三方网站的服务器上,链接提供者并没有在自己的服务器上上传作品。

2 关于超链接侵权认定标准

关于链接是否构成侵犯信息网络传播权,中外法院适用的标准主要有三类,分别是“用户感知标准”、“新公众标准”和“服务器标准”。

2.1 用户感知标准

用户感知标准是一个主观标准,即网络服务提供者对第三方网站中的内容设置深度链接,只要用户误认为该内容来自于设置链接的网络服务提供者,即可认定网络服务提供者的行为构成直接侵权。这是一个判定网络链接侵权的主观标准。其核心点在于用户是否误认为作品内容直接来自于设链的网站。

2009年,北京网尚文化传播有限公司诉四川一家网站未经许可播放原告享有独家专有权利的电视剧。最终,四川高院终审认为,点击播放涉案视频时,网页地址始终在被告网站名下,使用户不能明确知道,自己转入了另一个网站,因此被告网站已直接参与了相关信息的加工处理,构成侵权行为。

2.2 新公众标准

“新公众标准”代表性案例是2014年2月欧盟法院审理的“Svensson”案。在该案件中,原告Svensson等为记者,将文章发布在公司的报纸和网站上,用户可以自由点击观看。被告Sverige公司则通过设置链接的方式为用户提供一系列连接至其他网站的文章,其中就包括Svensson等人的文章。原告参照“用户感知标准”,认为用户点击被告设置的链接后不会明显察觉到已经转向了其他网站,并以此为由,就被告侵犯了自身的“向公众传播权”而提起诉讼。

nlc202309051337

欧盟法院认为,构成“向公众传播”行为必须符合两个要素,一是构成传播行为,二是将作品传播给公众。在本案中,用户可以通过链接直接接触作品,设立该链接就构成了传播行为。但是只有在该传播行为指向权利人在进行原始传播时没有考虑的那部分公众,即新的公众时,设链行为才构成“向公众传播”行为。即如果权利人在进行初始传播时的受众与通过链接行为接触到作品的受众产生重合,那么链接行为不构成“向公众传播”。如果权利人采取加密等技术限制措施,只允许部分满足条件的受众接触作品,那么绕过该技术措施,使其他用户,即新的公众能够接触到该作品,该链接行为就构成侵权。

基于以上分析,欧盟法院做出了里程碑式的判决,认定链接行为只有向“新公众”传播,才构成向公众传播行为。如果权利人在进行初始传播时,没有采取技术措施限制公众对作品的接触,则链接不需要经过权利人的授权。

欧盟法院关于链接侵犯“向公众传播权”的新解释解决了到目前为止保护版权人合法利益与对基础网络技术支持之间的矛盾冲突,这是版权法又一次对新技术的适应与妥协[3]。

2.3 服务器标准

“服务器标准”即以网络服务提供者是否将作品内容上传至自己的服务器,供公众获取,作为判断是否构成侵犯信息网络传播权的关键点。服务器标准是我国司法实践中普遍使用的一个标准。

“服务器标准”符合我国各项法律法规的立法意图。关于网络链接是否构成侵权问题,我国《著作权法》及其实施条例、《信息网络传播权保护条例》以及《关于审理侵害信息网络传播权民事纠纷案件适用法律若干问题的规定》等都做出了相应的规定。根据《著作权法》第10条第1款第(12)项的规定,“信息网络传播权”是“以有线或者无线方式向公众提供作品,使公众可以在其个人选定的时间和地点获得作品的权利”。由此可以看出,“信息网络传播权”控制的“网络传播行为”是“以有线或者无线方式向公众提供作品,使公众可以在其个人选定的时间和地点获得作品的行为”。其中,“向公众提供作品”是评判网络服务提供者的行为是否构成信息网络传播权控制行为的关键性要素。在网络环境下,将作品上传至服务器的行为构成了“向公众提供作品”行为,而提供链接的行为仅仅是为作品传播提供了通道。“服务器标准”在《最高人民法院关于审理侵害信息网络传播权民事纠纷案件适用法律若干问题的规定》(以下简称《规定》)中得到进一步明确。《规定》第四条指出,网络用户、网络服务提供者未经许可,通过上传到网络服务器、设置共享文件或者利用文件分享软件等方式,将作品、表演、录音录像制品置于信息网络中,使公众能够在个人选定的时间和地点以下载、浏览或者其他方式获得的,人民法院应当认定其实施了前款规定中的提供行为,即侵害信息网络传播权行为。进一步从法律层面体现了“服务器标准”在判定网络版权侵权案件中的重要作用。

单纯的超链接不构成对著作权人信息网络传播权的侵害的又一出发点是链接对著作权人的利益实质上没有造成冲击。提供链接实质上提供的是一种获取信息的通道,因此很难将链接固定化为著作权人的一种权利[4]。

采取“服务器标准”与“新公众标准”在司法实践中得出了基本相同的结论,即设置链接的行为一般不构成网络传播行为,只不过两者采取了不同的法律路径。

3 超链接间接侵权认定分析

我国司法实践通过间接版权责任来追究设置链接的行为。在某些情况下,网络服务提供者并不存在直接提供作品的行为,不构成直接侵权,但是会因为明知或者应知侵权行为的存在,仍然提供帮助行为,而承担间接侵权责任。

3.1 明知或应知侵权行为,未采取断开链接的必要措施,构成帮助侵权行为

《规定》第七条提到,网络服务提供者明知或者应知网络用户利用网络服务侵害信息网络传播权,未采取删除、屏蔽、断开链接等必要措施,或者提供技术支持等帮助行为的,人民法院应当认定其构成帮助侵权行为。

2000年刘京胜诉搜狐公司爱特信信息技术(北京)有限公司侵犯著作权案中,被告网站仅仅是将搜索引擎搜索的结果提示给用户,并通过链接使用户进入了提供信息的网站。原告并未将作品信息存储在自己的服务器上,因此不构成侵权。但是在开庭时,原告明确要求被告断开链接,被告予以拒绝,此时被告已经是明知链接的作品侵权之后仍不断开,实质上起到了对侵权人继续实施侵权的帮助,法院最后判定被告应当对这种行为承担侵权的法律责任。

3.2 对于明知和应知的推定

《规定》第九条提到,人民法院应当根据网络用户侵害信息网络传播权的具体事实是否明显,综合考虑以下因素,认定网络服务提供者是否构成应知:网络服务提供者是否主动对作品、表演、录音录像制品进行了选择、编辑、修改、推荐等。第十条指出,网络服务提供者在提供网络服务时,对热播影视作品等以设置榜单、目录、索引、描述性段落、内容简介等方式进行推荐,且公众可以在其网页上直接以下载、浏览或者其他方式获得的,人民法院可以认定其应知网络用户侵害信息网络传播权。

在北京世纪悦博科技有限公司与正东唱片有限公司侵犯录音制作者权纠纷一案中,北京市第一中级人民法院认定,在世纪悦博公司网站的页面上提供了对权利人作品的下载服务;被链接下载的网站也是世纪悦博公司事先选定并推荐给网络用户的;下载的操作步骤是世纪悦博公司逐层递进引导的;所下载作品是世纪悦博公司事先通过搜索选编、并整理的。由此可以认定,世纪悦博公司的链接行为,已经不是提供链路通道服务,而是直接参与相关信息的加工处理,并对加工处理后的信息通过异站进行深层次的链接。

对于超链接是否构成侵权行为,学术界有着不同的声音,各国司法实践也采取不同的标准。对于以内容为核心的出版行业来说,如何在数字出版大发展时代,规范自身行为的同时,规避对他人权利的侵害,是我们必须思考和探索的问题。

注 释

[1]刘凯,李洁.如何判定网络链接的著作权侵权[N].江苏法制报,2012-03-01

[2]王迁.论网络环境中版权直接侵权的认定标准[N/OL].[2009-05-04]. http://blog.sina.com.cn/s/blog_46a2d1f50100dk6m.html

[3]龙井瑢.探析链接版权法律责任在欧盟和英国的新发展:兼评中国相关版权司法实践[J].青年法苑,2014(12):125-132

[4]徐美玲.网络链接的版权法规制综述[J].电子知识产权,2014(8):39-43

(收稿日期:2015-06-10)

链接分析视角下的电子商务网站分析 篇4

一、链接分析的原理及特点

1. 链接分析的原理

链接分析又称链接流行度分析, 是搜索引擎进行排序的重要依据。链接分析的原理为反向链接的数量、质量及相关性的综合评价, 一个网站被更多的外部网站链接, 则有更大的可能被高权威值的网站关联。而与用户搜索的关键词关联性越强, 则越能形成有效的访问。

2. 链接分析的具体内容及方法

链接分析的主要内容是反向链接的数量、质量及相关度。首先应对所有反向链接进行筛选, 对链接所在网站进行分级;并对链接所在位置、周围文字进行分析;最后, 将网站与用户搜索的关键词进行比较, 评价相关度及用户点击的概率。

反向链接数量越多, 说明网民更愿意选择该链接, 在搜索的结果中的数量越大, 对搜索排名越有力。但并不是所有链接都是有效的, 一方面大量的无关网站及低权威值的网站进行链接, 不仅不被用户信任, 还会增加厌恶感。只有被具有高权威值的网站链接, 才能带来更多有效的访问。另一方面, 链接数量增长过快可能会被定性为人为操控, 从而影响网站在搜索中的排名。

链接的质量包括链接网站的或网页相关性、链接所在的位置等。链接所在网站的内容与链接的相关性越强, 则对链接的推广作用越大, 如导购网站对电子商务平台网址的链接, 旅游网站对机票中介网站的链接等。游戏网站对食品网站的链接则没有太大的相关性, 在游戏中往往会被视为垃圾广告。除网站主题之外, 网页的内容与链接强相关也能提升链接的影响力, 如在营销博客中链接海底捞网站, 也很可能给海里捞带来大量体验的用户。此外, 链接在网站的位置和形式不同, 对链接影响力的提升作用也不同, 如页面顶端比页面中间或底部更具有吸引力, 因为大量用户在浏览网页时基本只看标题或三分之一的内容。

除了数量和相关性外, 点击率是检测用户选择行为的重要指标。链接所在的网站如果用于较高的点击率, 且老用户数量越多, 说明网站权威性越强, 网站中的链接也越被信任。

二、影响电子商务网站链接分析的主要因素

链接可以以多种形式出现, 最为普遍的是图片可列表, 电子商务市场中存在不计其数的商家, 用户也无处不在。但并非所以链接都能获得较高的访问量。因此, 通过各种手段将自己的链接嵌入访问量大, 优质用户数量多的网页中, 成为商家营销的核心战略。其中一些是通过正当的途径积累点击率和访问量, 而更多的是通过买卖来实现。

链接的影响里最根本的是链接内容的有效性, 即能够为用户的选择带来价值的链接内容。即使是出现在相关性较低的网站中, 只要链接的内容足够有价值, 也能促进链接更大范围的传播。链接的有效性还一定程度上取决于网站或网页的稳定性。许多网站或网页会随着自身发展不断更新内容和地址, 而其中的链接也有可能会失效。因此在大量的反向链接中, 只有哪些稳定可访问的部分才是真正具有价值的。

另外, 电子商务作为消费的模式, 网页的访问最终应以形成交易为评价标准。在大量的反向链接中, 并不会直接形成交易, 而只是引导用户点击查看, 而后续的交易最多情况下还是用户访问主页后形成的。因此, 外链网站的内容与本站的关联性及链接提供的内容, 将决定链接是否会被用户再次访问。链接本身的内容如果质量不高, 则会被用户作为垃圾链接处理。

而在目前的电子商务市场中, 有许多链接影响力是通过不正常的手段获取的。不正当的链接买卖好比贿选, 通过购买用户的点击, 如访问赠送积分或者优惠, 而有的是直接雇佣专职人员进行高频率的点击。而网络的劣势在于身份的隐藏和快速复制, 一个人通过一定的技术手段能够伪装成成千上完的虚假用户进行访问。这样一来, 对通过正当途径进行积累的商户是极为不公平的, 而更为严重的是, 市场中充斥着大量的垃圾广告和虚假访问, 严重误导消费者的判断, 破坏了市场的整体信用。

三、链接分析的案例分析

以淘宝、京东和苏宁易购为例, 通过链接分析进行对比:

1. 研究方法及指标选择

利用搜索引擎进行采样, 并选用网页数量、总链接数、内外链数量及其影响因子作为评价指标。

网页数量:某网站所拥有的网页数量越多, 则信息量越大;链接总数指引擎搜索到的存在目标网站链接的网页数量。正常情况下, 链接数越大, 说明网站的影响里越大;内链数量是指主域名下各网页的相互链接, 他反应了网站内部的层次及相互关系;外链是指其他域名网站对本站链接的引用。外链更能反应链接的外部影响力, 是网站建设的主要指标;链接影响因子, 指通过其他链接访问目标链接的访问量, 是反向链接权威性的体现;搜索引擎排名等。

不同的搜索指令, 直接影响采样的结果。如检索淘宝网时使二级域名时返回的链接数大大少于顶级域名的搜索结果。下层域名的流量从属于上层域名, 为全面分析网站的影响力, 必须使用最高级别的域名作为检索指令。

2. 检索结果分析

采样后的数据表明, 淘宝网在各个指标上都较大幅度领先京东和苏宁易购, 京东相比苏宁易购在指标是具有一定的优势。淘宝网的人均页面访问量是京东的2.5倍, 是苏宁易购的3.7倍。京东的外部链接影响因子较高, 但由于数量上不占优势, 因此对网站整体的贡献不明显;而通过相关性分析看出, 各指标之间都有较明显的正相关性, 说明规模效应在电子商务市场中的发挥重作用。

此外, 通过对支付工具的链接数量和影响因子分析, 支付宝在对淘宝的贡献显著, 而京东和苏宁易在自有支付平台上的实力远远落后于淘宝;支付宝移动客户端已经不仅仅是支付的工具, 而是及帐户管理、转账支付、理财、购物与一体的智能钱包。除了淘宝网内的交易外, 任何支持支付宝支付的电子商务交易, 如购买电影票、车票、餐饮等, 都可以通过帐号密码或扫描二维码导入钱包。如此一来, 将有大量用户安装使用支付宝钱包, 从而建立了一个自有的流量入口。

在外部网络链接中, 社区对网站的贡献最大, 尤其是淘宝网在QQ空间等社区中的网页数量很大, 这与淘宝的商业模式密不可分。淘宝用户在博客、空间、论坛等所有能够进行宣传的场所进行店面推广时, 同时也将淘宝网进行了推广。尤其是在自主推广的模式下, 大量的亲朋好友是外部链接的访问者, 因此对网站的贡献极大。京东及易讯需要在社区连接上进行推广难度较大, 然而通过移动客户端进行网页访问的数量迅速增加, 因此在移动客户端的入口上进行挖掘, 能够弥补一定的劣势。

四、提升电子商务网站影响力的途径

电子商务为买卖双方提高了广阔的交易平台和选择空间, 正因为如此, 每一个电子商务网站或商家都希望自己摆在用户选择的最前面, 尽可能地提高用户访问恩机率。但选择过多之后, 用户会形成选择性疲劳, 而逐渐锁定几个熟悉和便捷的渠道获取信息。电子商务网站应顺应客户的消费行为的改变, 有的放失地进行链接设计和布局。

首先, 瞄准关键平台和入口。俗语说酒香不怕巷子深, 但这在电子商务时代却不适用。电子商务的最大特点是变化, 需求和供给、商业模式、营销策略等都在不断革命。这种变化不是改进, 而是颠覆是破坏, 一直新的商业模式的形成将导致旧的模式的隐退, 好比移动互联网对传统行业的冲击。电子商务网站的链接推广已经告别无序的时代, 平台和流量入口成为最权威且数量有限的链接发布场所。而其中把握了流量入口就直接把握了平台, 这也是各大电子商务网站进行自由平台建设竞争的原因。一旦自己形成平台, 则可以极具大规模的买卖双方, 衍生出眼花缭乱的配套服务和产品, 规模优势和范围经济效应都能得到极大释放。

其次, 最好内容是立足平台的根本。电子商务的内核为信任机制, 如果用户缺乏信任, 则会在瞬间进行迁徙。因此, 每个购物网站都必须不断地提升网站的内容质量, 以抓住老客户并不断吸引新客户。而网页的内容十分丰富, 包括网站信息的丰富程度, 网站访问的便利度, 交互能力, 评价及信用管理体制, 服务流程及售后等体验等。电子商务环境下, 同质化竞争极为激烈, 差异化也极易被模仿, 因此只有通过在内容上不断更新或创新, 才能保持用户体验不降低。以京东为例, 有别与淘宝的全民电子商务化, 在B2C模式上不断探索, 从质量管控、网页设计、物流服务提升及移动客户端的开放上不断提高, 积累了大量的优质供应商和优质用户。尽管在规模上与淘宝存在差距, 但从用户信任度上看具有较强实力。

最后, 布局移动互联, 顺应时代潮流。移动互联网是新的互联网革命, 也是电子商务的新时代。移动终端的智能化愈演愈烈, 愈来愈多的网民通过手机查询购物信息, 下订单并完成支付, 并随时随地进行跟踪。而随着各行各也进入电子商务模式, 任何产品和服务交易都可以通过移动终端来完成。电子商务网站不可能在移动终端上进行大规模的链接投放, 也不可能要求用户为每一个网站都安装一个应用。因此未来的平台竞争是寡头垄断, 是流量入口的竞争。其中, 导航应用将发挥巨大作用, 是用户进入各大电子商务网站的入口。

一方面电子商务网站在设计上要对智能终端进行适配, 尽量减少低价值信息的传递, 以防止用户在通过移动网络访问是耗费大量时间和流量。另一方面要加强网页的交互功能, 最大程度提升用户在查找、输入和支付等操作上的便利性。同时需要加强网页的安全性, 保障客户的账户和资金安全, 让用户能够放心地在各种设备上进行访问。

五、结语

随着电子商务移动化的发展, 流量入口将逐渐集中, 用户终端上能够浏览的网页数量有限, 因此电子商务平台必须开发手机应用, 以抓住客户有限的入口。平台化和权威化将进一步加强, 在一定程度上看, 未来的链接分析将逐渐从数量规模分析转向为质量和位置的分析。占据了关键的位置, 就能以最快捷的方式吸引流量。

此外, 网站影响力除了与链接的布局有关外, 根本上还是需要电子商务在交易体验上的创新和改进。在客户面临众多链接可选的情况下, 网站应抓住仅有的几次与客户交易的机会, 以优质的交易体验来赢取客户的再次光顾。主要包括网页访问的便利性、界面的交互性、物流及支付、售后等服务的体验等。同质竞争的电子商务市场里, 唯有客户体验得到满足才能获得长久的信任。

摘要:链接作为网站的入口, 能够以多种形式出现在网络的各个角落, 链接的曝光度越高, 能给企业带来的潜在收益就越大。但链接并不是随意设置都能带来收益和影响力, 本文从链接分析的角度, 探讨链接布局和推广对电子商务的影响, 并提出了促进电子商务企业链接影响力提升的措施建议。

关键词:链接分析,电子商务,网站,评价

参考文献

[1]汪传雷.基于链接分析的C2C电子上商务网站分析——以三大C2C购物网站为例[J].现代情报, 2012 (1) .

[2]张琳, 徐莉莉.基于链接分析的企业网站评价指标的有效性分析[J].图书馆情报工作, 2010 (16) .

[3]陈太洋, 任全娥.中外企业网站的链接分析及网络影响力评价[J].情报理论与实践, 2008 (4) .

链接分析 篇5

【摘要题】理论纵横

【正文】

20世纪90年代以后,以数字化技术、多媒体技术、网络通讯技术综合而成的现代信息技术,引发了人类社会的第二次信息革命,人类业已迈入知识经济时代。新的社会环境使包括情报学在内的学科研究发展面临着新的挑战,我们需要新的理论和方法来加以研究和利用,情报学的传统方法在面对新的问题时,就要进行自身的转化。如面对浩瀚的网络信息资源,传统的文献计量学方法就显得力不从心,相应地网络信息计量学(WebmetricsorCybermetrics)就应运而生,用新的研究方法如链接分析法来描述和组织网络信息世界。网络信息计量学

网络信息计量学是在网络信息环境下迅速形成和发展起来的,作为信息计量学的一个新的发展和重要的研究领域,它的出现使传统的基于文献和信息的文献计量学、信息计量学面临着新的变革。关于其定义主要有:网络计量学是一门计算机科学,是一门研究互联网上数据相互引用的科学,是一门对网络文献规律进行统计分析的科学,基于Web和软件计量分析工具,集计算机技术、网络技术、计量学方法、统计学方法于一体,其应用范围覆盖了所有基于网络通信技术的信息测度。网络计量学是综合采用文献计量、信息计量、统计学方法、计算机技术和网络技术对网络文献规律进行统计分析的一门科学。网络信息计量学是采用数学、统计学的各种定量方法,对网络信息的组织、存储、分布、传递、相互引证和开发利用进行定量描述和统计分析,借以揭示网络信息的数量特征和内在规律的一门新兴学科。它主要是由网络技术、网络管理、信息资源管理与信息计量学等相互结合、交叉渗透而形成的一门交叉性边缘学科。链接分析法研究现状

2.1 链接分析法的内容

链接分析法是网络信息计量学中一个重要方法,它可以看成是文献计量学中引文分析法在网络环境中的应用。网络超文本通过链可以将结点链接起来,一般使用两种方法——索引链和结构链进行链接,它既可以表示信息之间的关系,又是构成网络的手段。在将网络相关信息资源内容链接起来形成新的信息链或信息集合的基础上,融合了参考文献链接功能,并通过引文关系来分析链接网络信息资源的方法。可以按照引用程度和引用权威信息源来分析,在网络信息组织、检索、评价、服务等方面起着重要作用。

2.1.1 链接分析法在网络信息组织方面的作用

网络信息资源生产者如网页创作者使用链接分析,创建一些对访问者有用的链接,可以链接到不同主题或相同主题质量更优秀的网页。一般来说链接类型大致有:合作链接(被链接网站和链接网站之间存在合作关系)、友情链接(网站之间可能由于在资源或其它相关方面有关系,相当于影视术语中的友情客串)、推荐链接(被推荐网站由于质量好、人气旺、访问用户多或是热门网站等原因链接)、内容链接(被链接网站和链接网站在内容上存在着互补或相通关系等),可以起到网络导航的作用,大大方便用户在网上冲浪。Google还通过链接分析来确定网络上的权威信息源来进行相关的排名。Google认为网页制作者仅创建他们认为重要的网页的链接,链接到另外的网页就像一本书的引文,网页之间的这种引文关系“像是对网页进行评论的过程”。例如,网页的制作者们创造了几千个Yahoo的链接,困此Yahoo被当作一个重要程度点;如果许多重要的网页都指向Yahoo,则其重要程度会更高。这种方法的好处是网页制作者不可能误导网站的排序,并且扩展性极好——当网络增长时,产生更多的重要网页的链接,自然更能确定该网页是否是权威的信息源。

2.1.2 链接分析法在网络信息检索方面的作用

链接分析主要应用于网络信息检索方面,如搜索引擎收集信息、检索结果的排序等。网络信息检索为用户提供海量信息多媒体数据库,采用超文本技术使检索空间比传统的信息检索范围更广泛,以结点为单位组织,以超链接的方式链接相关内容,更加符合人们的思维方式,打破了线性存储的限制,真正实现多维检索。Web信息检索系统可以利用链接信息来优化对相关文献的查询,能够极大地提高检索结果的相关性。在搜索引擎收集信息的过程中,J.Kleinberg认为搜索引擎的Robots直接访问Web提取出权威页(AuthorityPage)。但是如何提取出权威页,这需要一个原始积累和评价过程。先给出一批起始网页,Robot从这些源网页开始收集,可以按照深度优先或广度优先的算法进行。当网页提取回来后,采用链接分析技术(具体用递归算法)来计算出权威页。有了权威网页,Robot在收集Web信息时,就有针对性地、高效率地访问Web网页。搜索引擎检索结果排序方面也运用了链接分析技术,由于索引数据库容量大,若用户输入一个关键词,有可能会有成千上万条记录相匹配,搜索引擎对如此庞大的结果如何排序,如何把最相关的几十条记录显示出来?搜索引擎按记录号的顺序提取结果集中的前几十条记录,再按邻近图(NeighborGraph)算法对这几十条记录排序,最先显示给用户。这种检索结果排序就是利用链接分析技术,大大减轻了搜索引擎的负担,Yahoo、Google等搜索引擎就采用了超链接分析技术来对检索结果排序。2.1.3 链接分析法在网络信息资源评价方面的作用

传统的引文分析法在学术方面衡量学术期刊重要性的指标之一是“影响因子”(IF),哪家期刊和论文被引用次数多,影响因子就高,谁就被认为是权威,论文也就是优秀论文。在互联网上IF对应于统计指向某一网页的链接数目后对该网页作出的排序,网站引用分析对应的是某个站点网页被其它站点引用的情况的统计分析,也就是网页可能被其它网站搜索提问命中的结果数的多少,采用计分法和线性代数方法对中心网页和权威网页分数进行迭代求和,以确定权威网页和中心网页。这与百度搜索引擎的创始人李彦宏1996年提出的搜索引擎的第二定律:“人气质量定律”相一致。根据这一定律,用链接分析法进行统计网站被链接和访问次数,可以作为评价网站和网络信息资源质量的一个指标。再加上相应的链接文字分析,就可以用在搜索结果的排序上了,对搜索结果进行的按相关性排序,不完全依赖于词频统计,而是更多地依赖于超链分析。在Internet上链接关系反映的是网页在全世界范围内、同一学科类属的影响力,评价范围是很广的、甚至全球性的。目前主要利用搜索引擎工具在网络上检索网站和网页的链接情况,并按相关性对检索结果进行排序,大大方便了用户在浩

翰的信息海洋中迅速准确地获得有用的信息,易于操作、实用且可以节省用户的时间,在一定程度上可以弥补同行评议等定性方法的缺陷。

2.2 链接分析法对情报学研究方法的意义

苏联科学家巴甫洛夫说过:“科学是随着研究方法所取得的成就向前的。研究方法每前进一步,随之我们面前也就开拓了一个充满种种新鲜事物的更辽阔的远景。”情报学是一门新兴的综合性边缘学科,是一个开放的综合性知识体系,它善于吸收其它相关学科的知识和研究方法。上世纪60年代后,随着科学的日益发展,科学研究中应用研究、实用研究和开发研究比重逐渐增大,情报学研究方法体系取得了长足进步,表现在:一是情报研究的领域、对象、内容等的扩大和深化;二是现代科学学科与方法的创立和发展。情报学研究方法体系是动态的、发展的。情报学科要想在原有的基础上实现学科研究模式的更新、学科结构的变革和学科体系的拓展,就必须研究和采用新的思维方式和新的研究方法,及时反映最新的学科学术动态和最新的理论学说,移植、借鉴其它学科的研究方法,如哲学方法、数学方法、社会学方法、经济学方法、信息技术方法等来丰富自己的研究方法,并加以创造和大胆创新,不仅引起自身学科结构的变革和深化学科前沿的研究,而且不断发展新的分支学科,促使学科研究充满时代气息。

链接分析法大大拓展了信息计量学在网络环境下的应用,充实了网络信息计量学的内容,是情报学研究的新领域,完善了情报学方法论体系。它是情报学逐渐成熟的一个重要历程碑,标志着情报学理论方法的一个新的飞跃。

2.3 链接分析法目前存在的问题

在文献计量学中,传统的引文分析法只要统计参考文献数据就可完成引文分析的任务,但是在互联网上,链接分析法的研究对象是网络信息资源,网络信息资源覆盖范围广、动态性强,具的信息量巨大、不确定性、缺乏合理组织、难以预测等特点,且信息过载(InformationOverload)和信息污染(InformationPollution)现象严重;引用与被引用关系也变得十分复杂;链接分析法的适用范围也是有限的;Internet是在一个商业化的环境中发展起来的,一个网站的被链接数量还与它的商业推广有着密切的联系,因此这种评价体制在某种程度上缺乏客观性。因此,在使用链接分析法时要充分考虑以上问题,尽大可能保证其结果的可靠性。结束语

由于链接分析法借鉴了引文分析法的方法和思路,是情报学研究方法在网络环境下新应用,目前链接分析法主要实验工具是搜索引擎,但随着网络信息技术如人工智能、网络信息检索、计算机网络、知识挖掘、自然语言处理等的发展,必将为链接分析法的研究和开发应用提供更为有力的支持。情报学也必将充分利用网络信息技术,吸收其它学科的先进方法来深化、完善自己的方法论体系,建立起更为完善的体系结构,从而改变情报学学科的面貌。

链接分析 篇6

摘要: 对搜索结果的排序是搜索引擎中至关重要的一项技术,算法的好坏直接关系到用户输 入关键词后能不能迅速查看到要查找的信息。系统的介绍超链接分析技术及基于超链接分析 的搜索引擎页面排序算法。对两种最基本的页面排序算法PageRank和HITS的算法思想和实现 原理进行详细阐述。通过分析对比,总结出它们各自存在的优点和不足进而指出适合其应用 的条件领域。最后指出搜素引擎应用超链接分析时应注意的一些影响因素。

关键词:搜索引擎;超链接分析;页面排序;PageRank;HITS

中图分类号:TP301文献标识码:A[WT]文章编号:16721098(2008)02007305

Analysis of Two Kinds of Search Engine Pageranking

Algorithm Based on Hyperlink Analysis

ZHANG Shujiang

(School of Computer Science and Engineering, Anhui University of Science and Tec hnology, Huainan Anhui 232001, China) Abstract: Search results sorting is a key technology in search engine, the algo rithmhas a direct influence on whether users can quickly find their expected i nformation afterkeywords are entered or not. The technology used for hyperlinkanalysis andpageranking algorithms based on hyperlink analysis were system ic ally presented. The ideas and principles of two of the most fundamental pager an king algorithms, PageRank and HITS, were expatiated. After analysis and comparis on, their respective advantages and disadvantages were summed up, and the condit ions and fields suitable for their application given. Finally some factors to benoted when search engine uses hyperlink analysis were pointed out.

Key words:search engine; hyperlink analysis; pageranking;PageRank; HITS

在互联网发展初期,网站相对较少,信息查找也比较容易。然而伴随互联网爆炸性的发展, 从1994年万维网(World Wide Web,WWW或Web)出现到现在短短十几年的发展,由于其开放 性和其上信息广泛的可访问性极大的鼓舞了人们创作的积极性使其日益发展成为一个最为丰 富庞大的信息资源库。对于一个普通互联网用户要想在这个硕大的信息库中找到自己所需的 资料简直如同大海捞针,这时为满足大众信息检索需求的专业搜索网站便应运而生了。

这些专业搜索网站的核心就是搜索引擎技术。而搜索引擎技术中搜索结果页面的排序算法在 搜索引擎中处于举足轻重的地位,因为排序算法决定了系统索引的网页与用户查询意图的相 关程度,同时也决定了网页在查询结果中出现的次序。它的好坏直接关系到用户输入关键词 后能不能得到要查找的信息。因此搜索引擎页面排序算法越来越受到众多研究学者的青睐, 尤其是基于超链接分析的排序算法更是层出不穷。

1超链接分析技术简介

传统的Web搜索引擎大多数是基于关键字匹配的,返回的结果是包含查询项的文档。也有基 于目录分类的搜索引擎,比如早期的Yahoo、新浪的搜索服务。但这些搜索引擎的搜索结果 并不令人满意。因为有些网站拥有者为了使自己的网站在搜索结果中能排在较为前端的位置 故意提高某些关键字的出现频率从而破坏了搜索结果的客观性和准确性。此外,有些重要网 页可能并没有包含查询项因而也就不可能被搜索引擎检索到。

然而,一些研究学者们逐渐发现,Web上超链结构是个非常丰富和重要的资源,如果能够充 分利用的话,可以极大的提高检索结果的质量[1]189。进而提出了基于超链接分析 的搜索结果排序算法。文献[2]78提出的PageRank算法开启了超链接分析研究的热 潮 。超链接分析的基本原理是:在某次搜索的所有结果中(大型商业搜索引擎通常会有数十万 甚至上百万个搜索结果),被其它网页用超链指向越多的页面,其价值就越高,在输出排序 中就应该排得越靠前[3]。即一个网页的重要性取决于该网页被其它网页链接的数 量,特别是被一些已经被认定为“重要”网页链接的数量。

超链接分析其实是一种引用投票机制,也就说如果一个网页被另外一个网页链接一次就相当 于另一网页对其投了一票,其重要性被肯定一次。对于静态网页或网站主页,这种机制具有 一定的合理性。因为这样的网页容易根据其在互联网上受到的评价而产生超链接指向的数量 ,超链分析的结果可以从很大程度上反映该网页的实际重要程度,能够为搜索用户返回接近 其搜索意图且很有价值的搜索结果。事实上,超链分析技术除了分析网页本身的文字外,还 分析所有指向该网页的链接URL、链接文字、甚至链接周围的文字。这样,有时候即使某个 网页html1中并没有包含某个词,比如“下载”,但如果有别的网页html2用链接文字“下载 ”指向这个网页html1,那么用户在搜索“下载”这个关键词时也能找到网页html1。而且, 如果有越多网页(html2、html3、html4、html5…)用“下载”链接指向这个网页html1 ,或者给出这个链接的源网页(html2、html3、html4、html5…)越优秀,那么网页html 1在用户搜索“下载”时就会被认为越相关,在搜索结果中的排名也就会越靠前。

由此看见,所谓链接分析主要基于如下两个重要假设:①超文本链接包含了用户对一个网站 的判断信息;②对一个网站而言,如果其他网站链接到该网站的链接数(即入链数)越多, 则该网站越重要。这两个假设在各种基于链接分析的算法中均以某种方式体现出来[2 ]78。

基于这种超链分析思想,一些学者提出了许多页面排序算法。目前有:PageRank算法、HITS算法、SALSA(Stochastic Approach for LinkStructure Analysis)算法、PHITS算法(Probabilistic analogue of the HITS);贝叶斯算法、Reputation算法[3]6。还有在各自的基础上进行改进而产生的算法变种。这些算法 有的已经在实际的系统中实现和使用,并且取得了良好的效果。在这些算法中,PageRank和 HITS是最著名也是最基本的页面排序算法,其它算法是在两者基础之上进行某种程度的改进 版。下面对这两个基本算法作个详细的介绍与分析以为以后的研究工作做好基础准备工作。

2基于超链接分析的算法

2.1PageRank算法

2.1.1基本思想在基于超链接分析的排序算法中,PageRank算法是最有名的一种。它最初是Sergey Brin和L awrence Page在1998年提出的,后来被用在世界上最著名的搜索引擎Google中一直到今天。 Google通过PageRank元算法计算出网页的PageRank值,从而决定网页在搜索结果集中的出现 位置,PageRank值越高的网页,在结果中出现的位置越靠前。

其基本思想是:如果某一网页玊存在一个指向网页A的链接,则表明网页T的所有者认为网页 A是比较重要的,从而把T重要性得分值(即网页T的PageRank值)的一部分赋予獳。A 得到的分值大小由玊的PageRank值玃R(T)和T的出链(从T链出的链接)数C(T)决定。用公 式表示为:PR(T)/C(T)。因而对于页面A,其PageRank值玃R(A)就是从所有指向它的页 面分得的重要性分值的总和。可用以下公式计算オPR(A)=PR(T1)/C(T1)+…+

PR(Tn)/C(Tn)(1)

其中:玊1、T2、T3…Tn为含有指向A的链接的页面。

由于互联网上也存在一些页面没有入链或出链那么就无法计算其PageRank值。为避免这个问 题(即所谓的LinkSink问题)一些研究学者对其进行改进,为式(1)添加一个阻尼系数 玠使其变为

PR(A)=(1-d)+d[PR(T1)/C(T1)+…+PR(Tn)/C(Tn)](2)

玠为阻尼系数,Google常指定为0.85[4]。这样在整个网络内的页面经过多次递 归迭代计算,直到PR值达到收敛即求得页面的PageRank值。

2.1.2优缺点分析从以上PageRank的计算公式中也以看出,一个页面会将自己的PageRank值均匀的分配给它所 引用的页面,它引用的页面越多,每个被它引用的页面所分得的PageRank值越少。因而一个 页面会因为别的页面对自己的引用而增加自己的PageRank值,但并不会因为自己对别的页面 的引用而提高自己的PageRank值。这样,对于一个网页来说要想获得较为靠前的排名就要获 得较大的PageRank值,而要获得较大的PageRank值就要被较多重要的网站所引用,因为只有 那些重要网站才有较大的PageRank值。而如果两个页面各自本身的PageRank值都很低,则它 们互相链接后也增加不多,重复链接对两者更是有害无益。由于页面的链接数越多,被链接 页面得到的PageRank值就会越低因此高级别的网站也不会与质量不高的网站互换链接。一个 网站要想获得较高级别的PageRank值就只有一个办法那就是要求网站拥有者老老实实地做好 自己的每一个网页,提高整个网站的质量水平才能换得高级别网站的链接。所以PageRank技 术可以很有效的避免某些网站为获得较高排名来欺骗搜索引擎。

PageRank技术的另外一个优点在于它是一个与查询无关的静态算法。尽管所有网页的PageRa nk值都要通过进行递归迭代计算以求得收敛值,这一过程中计算量很大,但这些计算不要求 实时性,可以离线计算获得结果后保存起来。这样能有效的减少在线查询时的运算量极大的 缩短查询响应时间。

然而,PageRank技术的缺点也是显而易见的。因为PageRank仅仅依靠计算网页的外部链接数 量来决定该网页的排名,而完全忽略了页面的主题内容与用户查询意图的相关性从而影响搜 索结果的相关性和准确性。另外,有一些Hub页本身并不突出,除了链接外也没有多少内容 也没有多少链接指向它,但它却指向了某个话题最突出的页面链接。可以说一个好的页面由 多个好的Hub页面所指向,一个好的Hub页面指向多个好的页面。这应该是一种互动关系,但 在PageRank中并没有考虑到[5]。再者,对于一些较新的网页由于还没有被发现故 被引用的次数很少因而即使质量很高也不会获得很高的PageRank值。也就是说PageRank会对 新网页表现很大的歧视性。

2.2HITS算法

2.2.1基本思想HITS(Hyperlink Induced Topic Search)算法是Kleinberg在1998年提出的,是基于超链 接分析排序算法中另一个最著名的算法之一。在该算法中,按照超链接的方向,将网页分成两 种类型的页面:Authority页面(权威页)和Hub页面(目录页)。二者是HITS算法中两个十 分重要的概念。Authority页面是指与某个查询关键词和组合最相近的页面;Hub页面是指它 的出链中包含了很多的Authority页面的页面,它的主要功能就是把这些Authority页面联合 在一起[6]。

HITS基本思想是:将查询玵提交给传统的基于关键字匹配的搜索引擎,搜索引擎返回很 多网页,从中取前玭个网页作为根集(Root Set),用玆表示。R一般满足如下三个条件 :① R中网页数量相对较小;② R中网页大多数是与查询q相关的网页;③ R中包 含 较多的权威网页。然后根据这个集合R在整个网页有向图中的位置来扩展这个根集合。即通 过向R加入被R引用的网页和引用R的网页将R扩展成一个更大的集合称为基集T。在得到这 个集合后,就开始计算集合中每个网页的目录型权值和权威型权值。利用Authority页面和H ub页面互相增强属性,对集合玊进行链接分析,通过迭代的计算方法为玊中的每个页面 计算一个Authority值和一个Hub值,作为结果页面排名的依据。

假定基集玊中的页面分别为 1,2,3,…玴 。每个页面玴有一个Authority值玜 p和Hub值玥p;页面玴的入链页面集表示为Bp(m),出链页面集表示为獸p(n )。则ap和hp用如下公式进行计算

ap=∑[DD(]m[]i=1[DD)]hi(i∈Bp(m))

hp=∑[DD(]n[]i=1[DD)]ai(i∈Fp(n))

这样的递归式很容易用矩阵方法表示。令所有选出来的网页都进行标号,得到所有网页的编 号集{1,2,…,玭}。令相邻矩阵A为一个n×n的矩阵,如果存在一个从 网页i 链接到网页j 的超链,就令矩阵中A的第(i, j)个元素置为1,否 则置为0。同时,将所有网页的权威型 权值x和目录型权值y都分别表示成向量x=(x1,x2,x3,…,xn),y=(y1,y2,y3, …,yn)。由此可以得到计算x和y的简单矩阵公式:y=A•x,x=A 琓•y其中A琓是A的转置矩阵。进一 步,我们有:

x=A琓•y=A琓•Ax=( A琓A)•x

y=A琓•x=AA琓y=(AA琓)• y

因此向量玿,y均可经过多次迭代而得。经过一定次数的递归运算后,会得到集合中每个网 页的权威型权值和目录型权值。按照这两个不同的权值,分别取出前k个页面输出返回给 用户。根据线性代数的理论,迭代序列经过标准化最终将收敛于矩阵A的 特征向量,即上文计 算的Hub权值和Authority权值是页面集合的固有特征,不是由初始向量和参数的选择决定的 。

2.2.2优缺点分析由HITS的计算过程我们可以看出这种算法是一种依赖于查询关键字的算法。每得到一个检索 ,它都要从数据库中找到相应的网页,同时提取出这些网页和链接构成的有向子图,再通过 运算获得各个网页的相应链接权值。实际应用中,由R生成T的时间开销是很昂贵的 ,需要下 载和分析R中每个网页包含的所有链接,并且排除重复的链接。一般玊比R大很 多,由T生 成有向图也很耗时。需要分别计算网页的A/H值,计算量比PageRan k算法大。已有实验数据 表明,这种算法获得的排名准确性高于PageRank算法。但在用户检索时进行如此大量的运算 ,检索效率显然不高。

HITS算法最大的弱点是处理不好主题漂移问题(topic drift),也就是紧密链接TKC(Tigh tlyKnit Community Effect)现象[7]。由于HITS只计算主特征向量,也就是只 能发现玊集合中的主社区(Community),忽略了其它重要的社区。如果在集合玊中 有少数与查询主题无关的网页,但是他们是紧密链接的,HITS算法的结果可能就是这些网页 ,从而偏离了原来的查询主题。因此,HITS更适合于宽主题的查询。

另外,HITS算法不能有效的识别网站制作者对搜索引擎的欺骗。Web页面中有许多链接是为 其他目的而创建的,例如付费广告、网站本身导航等等,因此单凭链接数目来判断页面的Auth ority值和Hub值,是不合理的。

用HITS进行窄主题查询时,还可能产生主题泛化问题,即由根集到基集的扩展后引人了比原 来主题更重要的新主题,新主题可能与原始查询无关。泛化的原因是因为网页中包含不同主 题的向外链接,而且新主题的链接更加具有重要性。

3超链接分析应注意的问题

基于超链接分析的算法,提供了一种衡量网页质量的客观方法,独立于语言,独立于内容, 不需人工干预就能自动发现Web上重要的资源,挖掘出Web上重要的社区,自动实现文档分类 [3]4。但由于互联网的开放性和自由性使得Web页面上的超链接也呈现鱼龙混杂状 态,给超链分析工作带来一定的干扰和欺骗。避害趋利,力求算法做到最大程度的精确 有效。有一些共同的问题影响着算法的精度我们必须给与重视。

(1) 根集的质量根集质量应该是很高的,否则,扩展后的网页集会增加很多无关的网页, 产生主题漂移,主题泛化等一系列的问题,计算量也增加很多。算法再好,也无法在低质量 网页集找出很多高质量的网页。

(2) 噪音链接Wed上不是每个链接都包含了有用的信息,比如广告,站点导航,赞助商, 用于友情交换的链接,对于链接分析不仅没有帮助,而且还影响结果[1]196。如何 有效的去除这些无关链接,也是算法的一个关键点。

(3) 锚文本的利用锚文本有很高的精度,对链接和目标网页的描述比较精确。在具体的实 现中我们应大加利用锚文本来优化算法。如何准确充分的利用锚文本,对算法的精度影响很 大。

(4) 查询的分类每种算法都有自身的适用情况,对于不同的查询,应该采用不同的算法, 以求获得最好的结果。因此,对于查询的分类也显得非常重要。

4结束语

随着Internet上信息量的爆炸式增长,人们越来越依赖于搜索引擎获取所需信息。虽然目前 的商用搜索引擎取得了很大的成功,但还有许多方便需要进一步完善。本文主要对基于超链 接分析的两种最基本的搜索结果排序算法PageRank和HITS进行了详细介绍和分析对比。希望 为将来在这两种算法思想的基础上进行改进,提出更精确更完善的排序算法打下基础。搜索 引擎的研究是一个热点,要能真正的研究并有所创新,对现有基础技术理论的学习和深入理解 是基础。

参考文献:

[1]李晓明,闫宏飞,王继民.搜索引擎——原理、技术与系统[M].北京:科 学出版社,2004:189,196.

[2]吴江.使用超链分析技术的搜索引擎[J].图书情报工作,2004,48(7):78 81.

[3]李绍华,高文宇.搜索引擎页面排序算法研究综述[J]. 计算机应用研究,2007,24(6):47.

[4]刘琨,郑有才.搜索引擎剖析[J].微机发展,2004,14(3):1922.

[5]徐宝文,张卫丰.搜索引擎与信息获取技术[M]. 北京:清华大学出版社,200 3:109110.

[6]张娜,张化祥.基于超链接和内容相关度的检索算法[J]. 计算机应用,2 006,26(5):1 1711 173.

[7]郑煜,钱榕.一个基于链接分析的相关度排序算法及其在专题搜索引擎中应用 [J].计算机应用与软件,2007,24(7):5455.

链接分析 篇7

网络技术发展日新月异, 各种新闻类APP成为多数人浏览新闻的选择。 (1) 2014年初北京字节跳动公司推出的一款新闻聚合类APP“今日头条”。“今日头条”APP使其所在的网站流量大量增加, 搜狐公司对“今日头条”侵犯著作权和不正当竞争行为提起诉讼。 (2) “今日头条”提供深层链接, 将网易、搜狐等各门户网站的新闻链接到自己APP, 其中包括直接的链接, 也包括删除门户网站广告后提供的链接。分析“今日头条”加框链接是否侵犯门户网站的利益, 在深层链接这个角度, 关键是认定深层链接行为的性质、深层链接是否侵犯信息网络传播权。对于“今日头条”的加框链接在法律上应该如何界定?对于加框链接或者说是深层链接是否构成信息网络传播权的直接侵权?

二、“今日头条”的加框链接是否侵犯著作权

(一) 关于加框链接是否侵权的两种判定标准:“用户感知标准”和“服务器标准”

深层链接有两种形式即图像链接加框链接, 加框链接是通过加框技术将网页分成几个独立的区间, 这样网页制作者可以在每个“框”中设链, 设链的内容来自不同的网站。 (3) 目前判断深层链接是否侵权有两种理论即“用户感知标准”和“服务器标准”, “用户感知标准”是指如果用户感知到设立深层链接的网站提供的作品, 则其构成侵权。“服务器标准”是指未经权利人同意将文件上传至网络服务器的行为人构成直接侵权, 设立深层链接的网站在明知或者应知其侵权的情况下构成间接侵权。这两种标准是认定深层链接是直接侵权还是间接侵权的标准。

(二) “今日头条”加框链接的著作权侵权判定

第一, “今日头条”不是以某一网络服务提供者直接侵权为前提, 不存在第三方网络服务提供者链接该内容, 收到权利人通知后删除网站的内容, 不构成间接侵权, 因而今日头条抗辩称“通知后删除”是没有法律意义的。

其次, 加框链接门户网站的内容不侵犯复制权。用户通过加框链接的看到门户网站的新闻内容, 这部分内容不是对门户网站新闻内容文字的复制, 加框链接的内容没有复制门户网站的新闻内容, 不是复制权的侵权。

再次, “今日头条”对加框链接后的门户网站上的内容行进部分修改、添加评论内容、删除网页上的广告不侵犯修改权。

三、深层链接的侵权性质认定

(一) 深层链接不构成直接侵权

我国《著作权法》第十条 (十二) 项规定信息网络传播权“信息网络传播权, 即以有线或者无线方式向公众提供作品, 是公众可以在其个人选定的时间和地点或的作品的权利”。在《WIPO版权公约》第8条规定了“向公众传播权”, 包括将其作品向公众提供, 使公众中的成员在其个人选定的时间和地点获得这些作品”。对于“今日头条”的加框链接与直接将作品上传至服务器的行为有本质的区别, 法院不能依据《著作权法》第10条规定的著作权人、表演者和录音录像制作者享有信息网络传播权, 判定提供深层链接的“今日头条”构成对搜狐等门户网站的信息网络传播权的直接侵权。 (4)

(二) 采用服务器标准认定深层链接不构成直接侵权的合理性

第一, 用户感知标准只是一种主观标准, 网络服务提供者设置深层链接, 是直接侵权还是间接侵权, 要看用户认为该内容来源于设链者的网站或者是移动APP, 还是来自于所链接的网站。根据这种用户感知标准, 在认定侵权时可以依据“向公众提供作品, 使公众得以在其选定的时间和地点获得作品”, 构成信息网络传播权的直接侵权。第二, 根据用户感知标准来认定深层链接具有不确定性, 用户认为通过深层链接打开的内容来自设链者, 构成对信息内容提供者的直接侵权。

四、结语:“今日头条”加框链接会出现的其它法律问题

“今日头条”加框链接所链接的内容不能使作品一直“处于被公众所获悉的状态”, 不是对信息网络传播权的直接侵权。在判定深层链接性质时, 应采用“服务器标准”, 综合全文, 本人认为“今日头条”加框链接本身并不构成著作权侵权, 按照《反不正当竞争法》规定的11类不正当侵权行为, 亦不是一种不正当竞争。网络时代获得的巨大收益没有合法的依据, 这种商业模式构成不当得利。

注释

11郑江波.“酷派系”的新产品[J].创业邦, 2013:106.

22 凤凰网报道&lt;“今日头条”是谁的“头条”&gt;[EB/OL].http://tech.ifeng.com/internet/special/jrttqq/, 2014-12-22.

33 陈铭.从“Svesson”案看网络连接的著作权性质[C].2014年全国知识产权年会论文集, 2014:148-149.

医学期刊网站的链接分析法研究 篇8

目前链接分析法是广泛应用的评价网络影响力的方法之一。链接分析法,就是运用网络数据库、数学分析软件等工具、利用数学(主要是统计学和拓扑学)和情报学方法,对网络链接自身属性、链接对象、链接网络等各种对象进行分析,以便揭示其数量特征和内在规律,并用以解决各方面问题的一种研究方法[1]。国外很多学者利用链接分析法进行图书情报部门网站、大学图书馆网站研究[2,3,4],国内邱均平、强自力等人利用链接分析法研究了大学图书馆与科研得分、期刊影响因子与网络影响因子和外部链接数的关系[5,6]。

本文利用Alta Vista及AllTheWeb搜索引擎,采用链接分析法研究医学期刊网站的影响力,并和纸质版期刊的影响因子进行相关分析,同时应用链接分析法中的网站链接偏差度及网络影响因子对医学期刊网站进行评价。

2 材料和方法

利用Alta Vista及AllTheWeb搜索引擎;以2007版期刊引用报告中的影响因子为标准,采用EXCELL和SPSS11.5统计软件包做为统计分析工具。

2.1 链接检索式

以生理学报网站:www.actaps.com.cn为例,数据收集检索式见表1。

2.2 网络影响因子计算方法

总网络影响因子(WIF总):总链接/网页数

外部网络影响因子(WIF外):站外链接/网页数

链接偏差度:{(站内链接+站外链接)-总链接}/总链接

2.3 选择的期刊情况

选取2004年版的北京大学中文核心期刊目录中的基础医学、临床医学/特种医学、内科学建立网站或网址的期刊共20种,见表2。

3 结果

3.1 期刊网站的网络影响因子及链接偏差度

为保证数据的准确性,本研究对20种期刊网站的网络影响因子及链接偏差度分别在2008年10月8日、9日、10日下午3点对Alta Vista采集了3次数据,用Alta Vista3轮数据的平均值进行计算,并在2008年10月10日下午5点采集AllTheWeb数据1轮做对比研究,结果见表3。

3.2 网络影响因子与相应纸版期刊影响因子的相关分析

由于数据不符合正态分布,对Alta Vista和AllTheWeb统计得到的网络影响因子与纸版期刊影响因子均进行Spearman等级相关分析,结果见表4。

注:WIF外1、WIF总1和WIF外2、WIF总2分别对应于Alta Vista和AllTheWeb搜索的外部网络影响因子、总网络影响因子。

从表4中看出,Spearman等级相关分析P值均大于0.05,说明两种搜索引擎中外部网络影响因子、总网络影响因子与纸质版期刊的影响因子均不相关。

由于在检索过程中,几个杂志期刊的网站存在着异常数据:《生物化学与生物物理学报》总链接数远远小于内部链接数与外部链接数之和,链接偏差度比较大;《中国生物化学与分子生物学学报》的期刊影响因子为2006年影响因子,因未查到其2007年影响因子;《中华内分泌代谢杂志》的总链接数远远大于内部链接数与外部链接数之和;《中国实用内科杂志》与《中国公共卫生》的总链接数、内部链接数、外部链接数均为0;将这5种期刊的数据排除后,再次进行相关分析,结果见表5。

由表5看出,排除异常数据后,再次进行Spearman等级相关分析,结果显示P值均大于0.05,说明两种搜索引擎中外部网络影响因子、总网络影响因子与纸版期刊影响因子均不相关。

4 分析与讨论

本研究表明,网络影响因子越大,说明该期刊的网站越有影响力。从表3中可以看出,《中华内分泌代谢杂志》和《中国糖尿病杂志》总网络影响因子分别为1054.3333和20.3064,相应纸版期刊的影响因子分别为0.981和1.209,这在一定程度上反映出网络影响因子判断期刊网站的影响力有一定的可靠性。《中国实用内科杂志》的网络影响因子为0,其纸版期刊的影响因子为0.312,相对较小,但其并不是本文研究的影响因子最小的期刊,通过查找原文数据发现,该网站内部链接数、外部链接数、总链接数均为0,进一步对其网站进行查找发现,《中国实用内科杂志》为中国实用医学杂志社一分社的杂志,仅在中国实用医学杂志网站上建立了单个网页,导致对其进行链接查询数据为0。

链接分析法准确性相对较差。通过采集的3轮数据中得出,链接偏差度的绝对值最大的为《生物化学与生物物理学进展》,从理论上讲,网站总链接数=内部链接数+外部链接数,链接偏差度应为为0,由于网络资源的不稳定性,导致不同时间采集的数据信息不同。该期刊网站的总链接数远远小于外部链接数,数据统计不能获取准确的数值,通过查找该网站发现,其网站有中文版和英文版,链接搜索对该网站的总链接数相当于二次搜索的结果,所以链接偏差度较大,同时一定程度上反映了网络本身的不稳定性。

期刊网站网络影响因子与纸版期刊影响因子是否相关需要进一步研究。由表4可以看出,采用Alta Vista搜集的数据WIF外、WIF总与纸版期刊影响因子均不相关,在对链接数据存在异常现象的《生物化学和生物物理进展》、《中国生物化学与分子生物学学报》、《中华内分泌代谢杂志》、《中国实用内科杂志》、《中国公共卫生》5种期刊排除后,表5中的结果与排除前一致,采用AllTheWeb搜集的数据也得出网络影响因子与纸版期刊影响因子不相关的结论,这与其他学者的研究相反(邱均平等人研究发现中文期刊影响因子与网络影响因子和外部链接数均存在相关性)[5]。分析没有相关性的原因为:(1)样本量小,该文仅选取了20种医学期刊网站,代表性不够好;(2)一些期刊网站建设相对简陋,链接数小,甚至还有些是某学术网站的下属网页,没有形成一定的规模,其中有些网站总链接数不超5;(3)网络资源不稳定性,不同的时间采集数据信息不同,影响分析结果的稳定性;(4)其他因素,如病毒影响,有些网站的服务器存在病毒,使得搜索引擎计数难以进行。

5 小结

尽管国内外众多学者研究网络计量学评价体系,但由于缺乏成熟的理论指导,缺少完善的研究工具,同时各商业引擎也存在一定的缺陷,如覆盖率低,稳定性差、功能不完善等,使得该评价体系的评价结果不够准确,如何创建一种科学可行的理论指导并建立可靠稳定的搜索引擎是科研工作需要解决的问题。

依据本研究结果,建议期刊加强自身网站的建设,扩大期刊的网络影响力,以更好的促进学科建设的发展。

参考文献

[1董江山,胡吉祥,等.链接分析法及其应用[J].情报科学,2004,22(9):1084~99.

[2]Thelwall,M.Extracting macroscopic information from Web links[J].Journal of the American Society for Information Science and Technolo-gy,2001,52(13):1157~68.

[3]Oppenheim.The correlation between citation counts and the1992re-search assessment exercise ratings for british library and information science university departments[J].Journal of Documentation,1995,51(1):18-27.

[4]Thomas0an dwillett P.Webometrics analysis of departments of li-brarianship and information science[J].Journal of Information Science,2000,26(6):421-428.

[5]邱均平,等.中文期刊影响因子与网络影响因子和外部链接数的关系研究[J].情报学报,2003,22(4):398~402.

链接分析 篇9

关键词:网站,链接分析,物流企业,链接指标

1 引言

2011年是“十二五”规划的第一年,安徽省全省的经济社会发展开局良好,前三季度GDP总量达11078.1亿元,按可比价格计算,比上年同期增长13.8%。同时,安徽省物流业发展增长迅速,《物流调整和振兴规划》和《安徽省现代物流发展规划》的实施初见成效[1]。随着物流企业的发展和壮大,对信息化的需求越发强烈。物流企业信息化进程的加速,使得越来越多的企业认识到与客户的交流门户——公司官网之重要性,纷纷建立自己的网站。物流企业网站一般包括企业介绍、服务产品、企业文化、物流网络、合作伙伴等,网站功能主要是介绍信息发布、在线交流、网络营销等。基于物流网站对物流企业经营的重要性,选择安徽省A级物流企业网站作为研究对象,利用链接分析法对物流企业网站的建设状况和应用效果进行分析,以便发现网站存在的不足,进而提出对策和建议。

2 安徽省A级物流企业网站分析方法

2.1 链接分析法简介

1996年,Mc Kiernan提出“sitation”概念来描述网站(site)之间相互链接的行为。此后,许多研究者将文献计量学中的引文分析法移植到网络信息资源的研究中,由此产生了网络计量学的一种研究方法:链接分析法。

所谓链接分析法,就是运用网络数据库、数据分析软件等工具,利用统计学、拓扑学和情报学方法,对网站的网络链接自身属性、链接对象、链接网络等进行分析,以便揭示其数量特征和内在规律,用以解决网站存在的某些方面问题的一种研究方法。链接分析是引文分析在网络环境中的应用,是网络计量分析的核心方法,在网络信息组织、检索、评价、服务等方面发挥着重要作用[2]。目前,采用链接分析法对网站进行分析和评价已经取得一定的成果。例如,2002年刘雁书和方平通过对有代表意义网站的链接特征和站外链接类型及特征的调查分析,评价了利用链接关系评价网络信息的可行性[3];2003年邱均平、陈敬全和段宇锋利用链接分析和网络影响因子对中国大学网站进行分析,提出了外部链接量是测度大学网站网络影响力的有效手段之一[4];2004年沙勇忠和欧阳霞运用链接分析方法和网络影响因子测度方法,对我国省级政府网站的影响力进行了评价[5];2010年王皓,杨思洛尝试将网络链接分析法应用于评价世界500强中的34家国内企业,寻求企业排名与外链接量和企业网站影响力的关系[6]。安徽省物流业发展迅速,选择安徽省A级物流企业网站采用链接分析方法,分析各个指标之间的相关性,揭示企业网站建设和网站链接指标对企业网站影响力的关系,为完善物流企业网站提供参考。

2.2 链接分析对象

物流企业A级评估是依据《物流企业分类与评估指标》国家标准,按照运输型、仓储型、综合服务型三种类型,分别依据各自的评估指标体系,针对企业经营状况、资产情况、设备设施、管理及服务、人员素质、信息化水平六个方面,16至18个指标项目,按照规范、标准的流程进行的物流企业综合评估认证[7]。中国物流与采购联合会依据《物流企业分类与评估指标》国家标准评估认定A级物流企业,以此引领物流行业沿着标准化、现代化、规模化方向发展。根据中国物流与采购联合会2011年5月18日发布的A级物流企业名单[8],发现安徽省的A级物流企业共30家,其中5A级1家、4A级14家、3A级10家、2A级5家;本次评价对象只选择其中具有代表性的12家A级物流企业网站进行分析。

2.3 链接分析方法的工具

应用链接分析方法分析网站,采用的数据是否可靠很大程度上取决于采集工具,所以选择合适的链接分析工具至关重要。目前较常用的搜索引擎有Alltheweb、Alta Vista、Google、Hotpot、Excite和ISI数据库。基于研究对象是安徽省的A级物流企业网站,选择收集中文网站较全且性能较好的大型搜索引擎,综合考虑选择Google做为研究工具[9]。

2.4 链接分析方法测度的指标

为了全面反映安徽省A级物流企业网站的建设规模与网络影响力,选取6个链接分析指标:网页总数(WP)、总链接数(TL)、外链接数(EL)、网络影响因子(WIF)、外部网络影响因子(WIFe)进行分析[10]。

网页总数(WP):是指运用搜索引擎搜索到的某网站内的网页总数。一般地,某网站包含的网页越多,其信息含量越大。WP在一定程度上反映了网站的规模大小,但并不代表网站信息质量与信息浓度的高低。

总链接数(TL):是指运用搜索引擎搜索到的与某网站存在链接的网页总数。TL在一定程度上反映了该网站被链接的总量大小,是网站影响力的主要标志。

外链接数(EL):是指运用搜索引擎针对某网站范围外搜索得到的与该网站存在链接的网页数。一般地,EL比总链接数能更好地反映网站的外部影响力,是网站建设质量的主要评价指标。

网络影响因子(WIF):网络影响因子=总链接数/网页总数。WIF反映了网站网页被链接的总的平均水平。

外部网络影响因子(WIFe):外部网络影响因子=外链接数/网页总数。WIFe反映了网站网页被外部链接的总的平均水平。

2.5 链接分析检索指令

不同的搜索引擎的检索式是不同的,以芜湖安得物流股份有限公司(http://www.annto.com)为例,Google所采用的检索式如表1。

3 安徽省A级物流企业网站链接分析指标数据分析

3.1 安徽省A级物流企业网站链接指标数据

为收集安徽省12家A级物流企业网站链接指标数据,在2011年11月10日至2011年11月13日每天检索一次,取三次数据的平均数为最终链接指标数据,如表2。

3.2 物流企业A级排名与物流企业网站链接指标分析

为深入了解安徽省物流企业A级排名与企业网站链接指标间的关系,利用spss17的分类汇总对表2的数据分类汇总平均,结果如表3:

由表3可得,5A级物流企业网站的网页总数(WP)、总链接数(TL)、外链接数(EL)和网络影响因子(WIF)都明显的高于4A、3A和2A级物流企业,4A与3A级物流企业网站的网页总数(WP)、总链接数(TL)和外部链接数(EL)并没有明显的区别,而4A级物流企业网站的网络影响因子(WIF)和外部网络影响因子(WIFe)都明显的高于3A和2A级物流企业网站。可见,物流企业A级等级越高,企业网站的网络影响因子(WIF)和外部网络影响因子(WIFe)越大,即企业的网络影响力越大。这说明物流企业的等级与企业网站的影响力存在一定的正相关关系。中国物流与采购联合会对A级物流企业评估认定是综合考虑企业经营状况、资产情况、设备设施、管理及服务、人员素质、信息化水平六个方面确定的,这六个方面反映的物流企业A级等级与外部网络影响因子(WIFe)和外部网络影响因子(WIFe)存在一定的正相关关系。

其中,芜湖安得物流和铜陵有色金属集团铜冠物流的总链接数(TL)分别为271和237,超过200,而其他企业的总链接数(TL)不足100;对应的,芜湖安得物流和铜陵有色金属集团铜冠物流的外部链接(EL)分别为69和113,位居前两位。但网络影响因子(WIF)方面,合肥市宝元物流、安徽通华物流、芜湖远方物流位居前列,原因是网站网页总数(WP)和总链接数(TL)均较少。合肥市宝元物流、铜陵有色金属和芜湖安得物流的外部网络影响因子(WIFe)较大,说明其企业网站有很好的网络影响力。但是,综合考虑网络影响因子(WIF)和外部网络影响因子(WIFe)时,发现除了马鞍山长运控股集团和合肥明天物流以外,物流企业网站的外部影响因子(WIFe)与网站的网络影响因子(WIF)存在很大的差距。如芜湖远方物流的网络影响因子(WIF)和外部网络影响因子(WIFe)分别是0.531、0.069;合肥市宝元物流的网络影响因子(WIF)和外部网络影响因子(WIFe)分别是0.932、0.185。这说明了企业网站的网络影响因子(WIF)并不能完全反映网站的外部网络影响力。

3.3 物流企业网站链接指标相关性分析

为了进一步分析网站链接指标之间的相关性,利用spss17的spearman对表2的数据进行相关性分析,分析结果如图1:

由图1可见,物流企业网站的外链接数(EL)与网页总数(WP)在置信度为0.01的水平上显著正相关,即网页总数(WP)越多,外链接数(EL)就越多。外链接数(EL)与外部网络影响因子(WIFe)在0.05的水平上显著相关,说明外链接数(EL)越多,外部网络影响因子(WIFe)就越大。网站的外链接数(EL)与其他的链接指标并没有明显的相关性。

被调查的物流企业网站的外链接数(EL)都很低,原因可能有:第一,物流企业视野尚不够开阔,经营理念有待进一步开放。受传统文化和经营理念的影响,物流企业大部分是从内部物流演化而来,视野较窄,没有充分意识到利用外部力量可以有效增强自己的竞争力,没有充分认识到企业网站可以通过与同行或相关企业网站建立链接,能有效增加自身网站的网络影响力。第二,物流企业的管理体制尚不健全,机制尚不完善。相当部分的物流企业没有设置独立的信息部门,缺乏专门的信息人员,缺乏规范化的制度,信息管理随意性大,信息化水平总体偏低,部分企业管理人员对网站建设存在偏见,认为网站只是会花钱而没有效益,导致网站建设和运营投入不足,网站功能十分有限。第三,物流企业网站规划设计不合理,缺乏统一的信息构建。企业网站建设存在跟风现象,没有充分系统构思规划致使网站信息体系不完整,信息更新不及时。部分物流企业因因近年来新设、兼并、重组等缘由,企业名称发生变化,但企业网站却未及时更改和完善,造成链接数减少,检索效率下降。第四,物流行业仍是一个新兴的行业,其仍在不断地探索和发展中,物流企业网站的建设和完善随着企业的发展和壮大不断完善还需要一个过程。

4 结论和启示

通过对安徽省A级物流企业网站链接指标的相关性分析,总结物流企业的网站建设和开发利用的几点建议:

①想方设法拓宽视野,消除传统观念的误区。

物流企业应积极利用各方面条件,拓宽国际化视野,更新理念,重视企业网站建设。既要重视网站的建设投入,又不能盲目急于求成。随着计算机和网络技术的发展,许多企业都认为对计算机和网络的投入越多,给企业带来的效益就越大,殊不知在很多情况下,由于没有确定特定的目标和合理的分析而盲目投资,只会给企业带来负面影响,反而使企业经济效益下降。“IT黑洞”给企业敲响了警钟,在对网站建设的投入时,不能盲目求成。

②优化物流企业网站结构,完善网站信息构建。

物流企业网站的主要作用体现在宣传企业形象、发布企业信息、收集用户信息、开展客户服务等,可以建立简洁明了的网站导航和网站地图,提高网站的访问速度,节约服务器资源,可以增加对物流行业知名企业、物流行业知名组织等的网站的链接及与其他企业的互链接,通过链接实现信息交流,提高本企业网站的链接效率。物流企业因地制宜在搜索引擎开展排名等活动,使用户很容易地通过搜索引擎访问公司主页,提高用户的访问次数及网站的点击率。此外,通过网络推广和宣传提高企业网站的知名度和外链接数,有利于被搜索引擎检索,提升自然排名。

③建立信息体制机制,及时更新网站内容。

建立和完善物流企业信息体制机制,明确组织机构、人员职责。网络信息发布到网站后,应经常定时更新客户日常关注的信息,便于客户对企业动态的了解,增加顾客对企业的信任度,提升企业形象,这有利于使网站更受搜索引擎的青睐,更有利于提升网站的排名。

④及时分析和利用用户数据信息,支持决策。

用户信息是网站优化的最主要根据,了解和分析用户信息对网站建设十分重要。通过统计网站访问者的访问来源、访问时间和访问内容等访问信息,加以系统分析,进而总结出一些共性数据和规律,作为网站优化的依据。通过设置网上在线咨询和在线留言,与用户进行沟通;或者利用数据推送技术将企业和行业的最新动向发给客户,使客户能够第一时间了解企业的最新发展动向,进一步了解用户的需求,支持企业的可持续发展。

参考文献

[1]周古廉.办实事讲成效提升协会的服务水平和层次[R].安徽:安徽省物流协会,2011:1-12.

[2]沙勇忠,牛春华.信息分析[M].北京:科学出版社,2009:317.

[3]刘雁书,方平.利用链接关系评价网络信息的可行性研究[J].情报学报,2002,(8):401-406.

[4]邱均平,陈敬全,段宇锋.中国大学网站链接分析及网络影响因子探讨[J].中国软科学,2003,(6):151-155.

[5]沙忠勇,欧阳霞.中国省级政府网站的影响力评价——网站链接分析及网络影响因子测度[J].情报资料工作,2004,(6):17-22.

[6]王皓,杨思洛.链接分析在中国知名企业评价中的应用探究[J].情报杂志,2010,(3):48-52.

[7]A级物流企业评估指南[EB/OL].[2010-04-30].http://www.chinawuliu.com.cn/office/34/241/8119.shtml

[8]A级物流企业名单[EB/OL.[2011-05-18].http://www.chinawuliu.com.cn/office/34/239/8738.shtml

[9]汪传雷,汪涛,刘新妍.基于链接分析的安徽省省属企业网站研究[J].中国市场,2011,(10):80-83.

链接分析 篇10

随着互联网和电子商务的发展, 越来越多的企业通过建设自己的网站, 发布企业信息、宣传企业形象、实行网络销售等, 但企业网站质量参差不一。对企业网站的建设状况和应用效果进行分析和评价, 能够认识企业发展现状, 找出网站现存问题, 给出优化方法, 推动企业信息化建设。在对企业网站评价中, 以网络影响因子为主体的链接分析方法运用广泛。如沙勇忠、牛春华 (2004) 运用链接分析和网络影响因子测度方法, 对国内信息化优秀企业网站的影响力进行评价, 并将测度的结果与企业信息化排名作比较;陈太洋、任全娥 (2008) 评价企业网站的网络影响力以及链接分析指标的相对排序位置;范哲 (2009) 分析企业门户网站的外部链接, 评价国内优秀企业门户网站的推广方式和被利用情况;张琳、徐莉莉 (2010) 通过自主设计的爬行工具获取相关的链接指标, 得出链接指标可以合理评价企业网站影响力。本文采用链接分析方法对安徽省人民政府国有资产监督管理委员会公布的安徽省省属企业网站进行定量分析与评价, 旨在揭示企业网站链接指标与企业影响力的关系, 探讨影响企业网站评价的重要链接指标。

2 安徽省省属企业网站研究方法

2.1 研究对象

安徽省人民政府国有资产监督管理委员会公布的安徽省省属企业共33家, 考虑到这些企业自身的复杂性和实际情况, 结合《2010安徽企业100强》排名, 安徽省省属企业有17家进入100强, 选取这17家企业门户网站作为检索对象。考虑到搜索引擎的稳定性, 2011年4月3日至5日, 每晚20时检索一次, 取三次结果的平均数为最终分析数据。

2.2 研究工具

目前, 国内外链接分析研究采用的工具, 主要有商业搜索引擎和自主设计网络爬行工具。网络爬行工具大多是自编的, 难以获得, 而且功能简单、适用范围小。相比而言, 大型商业搜索引擎运用广泛, 主要有Alltheweb、AltaVista、Google等。通过查阅相关文献, 发现Google检索稳定性最好, 检索覆盖范围和数据库容量也优于其他搜索引擎, 故选用Google进行检索分析。

2.3 研究指标

网站研究指标能多方位反映所选样本网站的建设规模和网络影响力。陈太洋、任全娥 (2008) 采用网页数、总链接数、内链接数、外链接数、网络影响因子、外部网络影响因子、内部网络影响因子评价中国企业网站的网络影响力;王皓、杨思洛 (2010) 采用网页总数、总链接数、外部链接数、内部链接数、外部影响因子、共链数六项指标研究所选样本企业网站的建设规模与企业网络影响力;张琳、徐莉莉 (2010) 采用网站网页数、网域网页数、链接总数、外部链接网站数、外部链接总数、链接效率、网络影响因子探讨企业网站定量评价链接指标的有效性。参考以上研究, 主要选取六种指标:

网页总数 (WP) :某网站所拥有的网页数越多, 信息含量越大。

链接总数 (TL) :是运用搜索引擎搜索到与某网站存在链接的网页总数, 它反映该网站被链接的总量大小, 是网站影响力的主要标志。

外链接数 (EL) :是运用搜索引擎针对某网站范围外搜索得到的与该网站存在链接的数量, 即这些链接网页均来自该网站以外的网页。一般认为, 它比链接总数能更好地反映网站的外部影响力, 是网站建设质量的主要评价指标。

链接效率 (LE) :LE=EL/TL, 能够客观地表明网站对于外部社会的影响力。外链接数越多, 它所占链接总数的比例就越高, 其链接效率也越高, 网站的相对影响力越大。

网络影响因子 (WIF) :WIF=TL/WP, WIF越高, 网站的影响力越大。

外部网络影响因子 (WIFe) :WIFe=EL/WP。它有利于提升访问量, 用户通过A网站的链接点击到B网站从而带来访问量;还能分享一部分权重, 提高网站权威, A网站链接到B网站代表A网站告诉搜索引擎它信任B网站, 这样B网站就可以从A网站分享到一定权重, 使其在搜索引擎处的权重得到提高, 促使自然排名靠前。

2.4 检索指令

不同的搜索引擎、不同的检索指令对实际研究工作会产生较大影响, 在研究文献[2][9][12]所使用检索式的基础上, 通过对比验证, 以马钢集团 (www.magang.com.cn) 为例, 采用的检索式见表1, 在检索链接总数时发现, Google搜索结果显示“找到约3530条结果”包含大量类似条目, 同一链接网站中不同网页的链接被重复计算, 而记录搜索结果最后一页“获得438条结果”则更准确。

3 安徽省省属企业网站数据分析

3.1 省属企业网站指标及数据分析

根据表1检索式在Google检索安徽省省属企业网站的各项指标, 其中3家企业集团的外链接数 (EL) 异常, 最后确定14家企业网站指标数据计算整理后得表2。

由表2可见:①从网页总数 (WP) 的绝对量看, 安徽省能源集团网站网页数最多, 但由于它的链接总数 (TL) 和外链接数 (EL) 较低, 其网络影响因子 (WIF) 和外部网络影响因子 (WIFe) 较其他企业网站最低;②从链接总数 (TL) 看, 马钢集团和江淮汽车集团网站的TL最多, 由于马钢集团网站的WP比江淮汽车集团要少得多, 故马钢集团网站的WIF和WIFe比江淮汽车集团要高很多;③对比外链接数 (EL) 和链接效率 (LE) , EL值超过100的企业网站, 其链接效率 (LE) 都超过0.5;④对比网络影响因子 (WIF) 和外部网络影响因子 (WIFe) , 发现一些企业网站的前后网络影响因子发生较大变化, 如安徽叉车集团由0.69降为0.41, 马钢集团由0.59降为0.49, 铜陵有色金属集团由0.11降为0.02等。而另一些企业如安徽省能源集团、安徽徽商集团、淮北矿业集团等没有明显变化。在比较两种网络影响因子时, 这种偏差往往体现明显, 说明WIF因没有区分内链和外链, 难以客观反映网站真实的网络影响力。

3.2 省属企业排名与其网站链接指标相关性分析

为了进一步了解指标之间的相互关系, 使用SPSS18.0的Spearman对表2中指标数据进行相关性分析, Spearman相关系数又称秩相关系数, 是利用两变量的秩次大小作线性相关分析。由表3可见, 企业排名与链接总数 (TL) 在置信度0.05的水平上显著负相关, 即网站链接总数越多, 企业排名越靠前。但企业排名与网页总数 (WP) 、外链接数 (EL) 、链接效率 (LE) 、网络影响因子 (WIF) 、外部网络影响因子 (WIFe) 之间相关性不明显。因为《2010安徽企业100强》排名以企业营业收入为参考标准, 难以完全反映企业信息化水平和网站建设质量。

注:* 在置信度 (双侧) 为0.05时, 相关性是显著的。

3.3 省属企业网站外链接数与其他指标相关性分析

由表4可见, 网站外链接数 (EL) 与链接效率 (LE) 、外部网络影响因子 (WIFe) 显著正相关, 即外链接数越多, 链接效率越高, 外部网络影响因子越大, 网站影响力越大。外链接数与其他指标没有明显相关性。大型企业网站外链接数平均量为163.2, 本研究中只有马钢集团、海螺集团和江淮汽车集团网站的外链接数超过该平均数, 其他企业网站的外链接数相对较低, 见表2。究其原因, 可能有:①搜索引擎查准率、查全率不高, 算法和机制有待完善;②企业网站设计不合理, 使用不利于检索的框架网页结构, 有些企业网址和域名不止一个;③行业差别, 不同行业的企业网站外链接数差别较大;④企业信息化水平、电子商务应用能力、企业领导层对网站重视程度不同, 也是造成安徽省省属企业网站外链接数存在差异的原因。

注:**在置信度 (双侧) 为0.01时, 相关性是显著的;*在置信度 (双侧) 为0.05时, 相关性是显著的。

3.4 省属企业网站外部网络影响因子与其他指标相关性分析

由表5可见, 安徽省省属企业网站外部网络影响因子 (WIFe) 与其网页总数 (WP) 显著负相关, 与链接效率 (LE) 、网络影响因子 (WIF) 显著正相关, 与其他指标无明显相关性。其中, WIFe与WP负相关, 说明企业网站不能纯粹追求网站规模和网页数量, 而清晰的网站结构和便捷的浏览能增加网站的链接数量, 精练的网站也能够满足企业信息化的需求;WIFe与WIF的正相关系数达到0.91, 说明网站外部网络影响因子越大, 网络影响因子就越高, 网站影响力越大。

注:**在置信度 (双侧) 为0.01时, 相关性是显著的;*在置信度 (双侧) 为0.05时, 相关性是显著的。

4 结论与建议

通过对安徽省省属企业网站的网页总数、链接总数、外链接数、链接效率、网络影响因子等数据进行检索、比较、分析, 可以得出以下结论和建议:

第一, 优化企业网站, 完善网站架构。优化省属企业网站时, 可将博客标签的思维引入到企业网站优化中, 为每个网页添加一个或多个标签, 在网站上就可以看到所有使用相同标签的网页, 将其与企业经营内容有效结合, 能与其他网站产生更多的联系和沟通。在网站架构中, 可采用可视化站点地图 (SiteMap) , 但站点地图不要超过100个链接, 如果网站规模大, 网页数量多, 可以先将网页分类, 每类为一个网页。此外, 在建设网站的同时, 仅仅依靠网站内容的全面、功能的完善并不能优化企业网络品牌战略, 必须要主动寻找链源提升影响力。

第二, 增加网站链接, 提高链接效率。优秀的企业网站在社会网络中具有较大影响力, 从链接指标数据看, 链接数量多的企业在社会各领域中渗透性更强。企业网站应充分利用外部链接扩大影响力:如通过推荐链接进行自我宣传;通过行业目录, 增加与同行业网站的友情链接;借鉴知名网站, 通过资源链接、交换链接、合作链接等形式, 实现信息共享和交流。链接效率越高, 说明外部链接越多, 被其他网站认可度越高, PR值就越大, 有利于被搜索引擎检索, 提升自然排名。

第三, 结合行业性质和企业特点, 开展电子商务。不同行业、不同地区、从事不同业务的企业网站, 网络影响力不同。渗透性强、应用面广的企业网站的链接数量高于应用面窄的企业;信息化水平高的地区, 企业业务面向地理区域广, 其外部链接数量比较高;网上直销的企业网站, 网络影响力要大于综合型企业网站和信息展示型企业网站。所以, 不同企业要依据自己的特点, 合理定位网站功能, 采取不同的策略, 提升企业网络影响力。

第四, 观察用户浏览轨迹, 了解用户偏好。网站是为用户服务的, 了解用户的需求和喜好是一项长期工作。具体可以采用如下方法:①在网页上设置调查问卷和投票;②利用即时通信工具和用户沟通;③在网站各个地方安装流量统计分析工具, 获得访问总量、用户来源地、访问时间、停留时间、访问过的页面等信息。用户的停留时间与网站内容的吸引力 (网站的黏性) 正相关, 如果用户停留时间短, 表明网站内容缺乏吸引力, 需要对内容做出调整, 以增强网站的黏性;如果发现用户经常在几个较为固定的页面之间跳转, 那么就应该在这几个页面间显眼的位置设置超链接, 方便用户访问。分析、挖掘这些数据信息, 有利于优化企业网站, 发现并解决企业问题, 提升企业影响力。

摘要:安徽省省属企业是安徽省经济的重要支撑。本文采用链接分析方法, 利用Google搜索引擎, 统计安徽省省属企业网站的网页总数、链接总数、外链接数, 计算网络影响因子和外部网络影响因子, 并进行指标相关性分析, 探求企业网站指标与企业网络影响力的相关性, 发现网站现存问题, 提出对策建议, 推动企业信息化建设。

上一篇:童心童眼看世界下一篇:炮制规范