网页特征提取

2024-06-25

网页特征提取(精选七篇)

网页特征提取 篇1

随着信息技术的快速发展, 越来越多的组织、机构把Internet作为信息发布的平台, Web文档数量急剧增加, 如何对这些海量信息进行分类显得越来越重要。文本分类就是将一个文本划分到一个或者多个预先定义好的类中。

最常用的Web文本特征表示方法是向量空间模型[1] (VSM) 。文档空间被看作是由一组正交词条向量所组成的向量空间, 每个文档表示为其中的一个泛化特征向量V (d) = (t1w1 (d) ;…;tiwi (d) ;…;tnwn (d) ) , 其中ti为词条项, wi (d) 为ti在d中的权值, 可以将d中出项的所有单词作为ti, 也可以要求ti是d中出现的短语, 从而提高文本特征表示的准确性[2]。在该模型中, 文本空间被视为一组正交词条向量所张成的向量空间[3]。采用SVM[4]分类方法取得了较高的准确性, 但一个局限性就是向量空间的维数比较高, 有些选中的特征对文本分类作用不大, 甚至会降低分类的准确性, 由于特征维数比较高, 训练这些样本的时间会比较长, 所以引入有效的特征提取方法显得很必要。文中将把基于不确定性度量 (UncertaintyMeasure) 特征提取方法引入到SVM文本分类中, 该方法 (UM) 选择最确信的词来预测一个文本的类别, 通过实验, 结果表明在不降低分类准确性的前提下, 缩短了训练时间, 有效地提高了分类的效率。

1 特征提取方法

1.1 常用的特征提取方法

特征提取是指从一组特征中选出一部分具有代表性对正确分类贡献大的特征, 其目的就是减少计算复杂度, 提高分类的效率。文本的特征应该具有以下特点:能够对文本进行充分表示的语言单位;文本在特征空间中的分布具有较明显的统计规律;特征的提取比较容易实现, 计算复杂度不太大[5]。

传统的特征选择方法很多, 常用的特征选择函数有:

1.1.1 信息增益 (InformationGain, IG)

1.1.2 交叉熵 (CrossEntropy)

1.1.3 互信息 (MutualInformation)

1.1.4 几率比 (OddsRatio)

1.1.5 χ2统计 (CHI)

在以上公式中“类别”用随机变量C表示, 具有两个随机的取正例ci和反例ci。“特征项”用随机变量T表示, 这些函数在Web挖掘中得到广泛的应用, 但每种函数都有自己的优缺点。例如, “信息增益”, “几率比”, “χ2统计”都考虑了特征项未发生的情况, 对判别文本类别作用不大, 同时引入了不必要的干扰。“互信息”没有考虑单词的频率, 使得“互信息”评估函数倾向于选中稀有的特征项。“交叉熵”考虑了一个特征项在所有类别中出现的频率, 然而一种情况就是特征项tk在一个类别ci或者所有类别ci中出现了较高的频率, 根据“交叉熵”函数tk就会赋予一个较高的权重, 由于特征项tk在每个类别中都出现, 对分类区分度不大, 却增加了训练时间, 影响分类的效率。

1.2 基于不确定性度量的特征提取方法

针对以上常用特征提取方法中存在的问题, 本文提出了基于不确定性度量的特征提取方法。

我们认为当一个人判定一篇文本属于哪个类别时取决于他看到这个文本的关键字, 而这些决定文本类别的关键字取决于他看到的最确信的词。

一般情况下, 不确定性度量UM定义是一个特征项属于一个类别的概率, 它是通过公式 (6) 、 (7) 计算出来的。UM的值越接近1我们认为这个特征项属于这个类别的概率越大, 相反越接近0这个特征项属于这个类别的概率就越小。

tf (t, c) 是特征项t在类别c中出现的频率, tf (t) 是特征项t在整个类别集合中出现的概率。我们可以通过实验确定一个阈值th, 那些UM值小于th的特征项都被过滤掉, 只保留UM值高于th的特征项。在SVM分类中, 每个特征项都有一个代表该特征项重要性的权重, 我们同时也用UM值作为这个特征项的权重, 如果一个特征项的UM值高, 那么它的权重也就大。通过这种方法能够降低算法的复杂度, 减少向量空间的维数。

2 实验

2.1 评测指标

通常, 采用查准率 (Precision) 和查全率 (Recall) 作为每个类的评测指标, 为了对不同分类器的性能进行评估, 选取F1值作为标准测度[6]。

计算公式如式 (8) 。

式 (8) 中Pi为类i的查准率, Ri为i的查全率, Ai为正确分到i类的测试文档数, Bi为错误分到i类的测试文档数, Ci为属于但未被分到i类的测试文档数[7]。

2.2 实验过程

2.2.1 网页的预处理

网页文本的预处理一般包括提取正文、分词去停用词[8]等工作, 最后生成次序列。对于汉语必须进行分词处理, 经过分词网页文本将表示成词的序列, 同时进行停用词的去除。本文所用的分词系统是计算机汉语词法分析系统ICTCLAS, 处理成所需要的词序列。

2.2.2 网页特征提取和网页文本向量表示

对处理后的网页运用本文提到的UM方法进行特征提取, 由于在本文中同时用UM值作为特征项的权重, 减少了权重的计算量, 最终用这些权重把网页表示成向量空间模型。

2.2.3 用SVM方法进行训练和分类

具体的基于SVM的网页分类流程 (见图1) 。

2.3 实验数据集

从新浪、人民网、新华网等网站下载到2 820个网页。首先对下载的网页进行整理, 然后进行预处理、特征提取以及向量表示, 最后训练分类器并测试。在2 820个网页中, 选择1 880个网页作为训练集合, 940个网页作为测试集合。所有网页属于以下类别中的一个:环境、计算机、交通、教育、经济、军事、体育、医药、艺术、政治, 如表1所示。

本文实验采用LIBSVM软件包, 运行环境为WindowsXP, 实验结果表2所示。

对于取不同的阈值其对应的训练时间和F1值 (见图2) 。

2.4 结果分析

通过表2可以看出, UM方法能够在保持准确度没有下降的情况下很好地减少训练样本时所需要的时间。用UM方法因为每次选择的特征项都能准确判别一个类别, 减少了一些特征项的模糊度, 减少了特征项的数目, 所以缩短了训练时间。同时图2显示不同的阈值对F1值有不同的影响, 通过实验表明, 当取阈值为0.3时在各方面都取得了不错的效果。当阈值小于0.3时, 大部分过滤掉的特征是模糊的, 所以分类的准确度比较高, 但同时一些对分类作用不大的特征项没有被过滤掉, 使得训练时间较长;而当阈值大于0.3时, 部分过滤掉的特征项包含与分类相关的信息, 从而导致分类的准确性下降, 最后综合取定一个合适的阈值。

3 结论

本文提出一种基于模糊度的特征提取方法, 根据一个人判断一个文本所属于的类别, 选取确信度最大的特征项, 减少了模糊词的个数, 有效地减少了在SVM中训练样本所需要的时间。随着网上文档越来越多, 一些传统的分类方法由于在时间上和空间上的复杂度很难处理这些数据。UM方法在这方面取得了不错的效果。但同时对于该方法所需要的阈值不好确定, 对于不同的数据集, 取得较好效果的阈值也不同, 所以下一步的工作就是和别的特征提取算法结合起来, 找出一个比较容易确定的阈值, 减少训练时间的同时, 提高分类的准确率和召唤率。

参考文献

[1] Salton G, Lesk ME.Computer Evaluation of Indexing and Text Pro-cessing.Journal of the ACM, 1968;15 (1) :8—36

[2]庞景安.Web文本特征提取方法的研究与发展.信息系统, 2006;29 (3) :338—340

[3]王灏, 黄厚宽, 田盛丰.文本分类实现技术.广西师范大学学报 (自然科学版) , 2003;21 (1) :173—179

[4] Cortes C, Vapink V.Support-vector networks.Machine Learning, 1995;20 (3) :273—297

[5]刘斌, 黄铁军, 程军, 等.一种新的基于统计的自动文本分类方法.中文信息学报, 2002;16 (6) :18—24

[6]庞剑锋, 卜东波.基于向量空间模型的文本自动分类系统的研究与实现.计算机应用研究, 2001;18 (9) :23—27

[7]尹世群, Web文本分类关键技术研究, 重庆:重庆大学, 2008

网页去重中的关键词和特征串提取 篇2

1算法思想

特征码可以看作是一个网页的标识,这个标识使得此网页有别于其它的网页。

本文提出的算法是首先定义关键词;然后对关键词次数进行统计并分析对比,去除一些次数波动比较大的关键词,得出次数相对来说比较集中的关键词。例如某个关键词在网页中的出现次数为1次,而另一个关键词的出现次数为30次,那么前者就可以不考虑。最后,以关键词的所在位置提取特征码并组成一些字符串。通过对这些字符串的相似度比较,从而对网页是否重复进行判断。

2关键词的提取

朴素贝叶斯模型考虑到关键词的权重值,又考虑了词语在文本中的出现位置,实现简单,该算法可从小规模的文档集中提取出更为准确的关键词,而且可灵活地增加表征词语重要性的特征项,因而具有更好的可扩展性。朴素贝叶斯模型并未考虑到词语在文中不同位置意义的差异性,相应地,不同的词语可以表达相同的意思,这些问题的存在会使关键词抽取的准确率降低。

为了实现对问题的解决,可以通过从文档中提出候选词,并将候选词通过消歧算法来得到词义,然后根据这些侯选词之间的关联度实现对词义的合并。然后再通过候选词的四个特征值:TF*IDF、位置、数目以及关联度,通过对样本数据的筛选,生成相应的贝叶斯模型。通过贝叶斯模型计算出若干个可能性最大的候选关键词,这若干个候选关键词将被作为最终结果。

2.1词义

在文档中,有两种类型的词:单个词和组合词。如果一个词能在WORDNET中找到,那么词义S(T)可以做如下的定义:

如果不能在其中找到,那么它是词和词义的并集,可以做如下定义:t=w1,w2...,wn,

2.2选择候选关键词

对于候选关键词的选择,我们首先在选择过程中,主要是将数字和标点符号去除掉,将句子分解为一个个的单词,然后再利用一些规划进行判断是否候选关键词,用迭代的LOVINS方法来实现[35]对词的提取。LOVINS STEMMER方法需要重复不断,这样就可以生成相应的词。

2.2.1候选关键词消歧

词义受由上下文的环境影响。消歧算法通过对被消歧词的词义的遍历以及上下文词义的之间可能会存在的关联度,并认定关联度最大的词义为消歧词在上下文语义中的词义。在本文的研究中,使用关联度算法来实现对候选关键词的消歧处理,如EXTENDED GLOSS OVERLAP算法。这种算法是被证明并广泛用的用以词义关联度消歧的有效算法。该算法在原理上通过对词义间注释的单词数的雷同性,以及注释词义的重叠数与WORDNEET中的关联程度,并得出相应的数值处理。

若上下文的单词集合为C,目标词标记为T,词义S(T)可以由以上两个公式计算而出。

如果单个词能够成为目标词,那么公式(3)可以实现对词义和上下文集合的关联度进行计算,也可以实现对词义和上下文集合的关联度的相加,若SENSESCOREk用来表示词义K的值,那么当目标词是组合词时,可以用公式(4)实现对语义相关度的计算。

Sense Score值最大的词义与目标候选关键词的词义是相当的。

2.2.2基于语义的候选词合并

完成消歧任务之后,需要对语义相同的关键词合并,合并之前需要先计算语义之间的关联度,通过与阀值a相比较,如果两个词的关联度比a的值大,那么这两个词在语义上是等同的,可以做为一个词进行操作。

2.3提取关键词

本文应用前面提到的4个特征值在相应的文档里建立朴素贝叶斯模型(bays)。对于每一个相应的文档,必须根据上面讲述的步骤先进行处理过。对于候选的关键词,可以通过如下的两个公式对它们的数值进行计算:

候选关键词的TF*IDF,First Occurrence,Length和Coherence的值对应分别用Pr[T|yes],Pr[O|yes],Pr[L|yes]和Pr[C|yes]表示,Pr[yes]可根据训练文档中的关键词和总词数求得,使用Pr[yes|T,O,L,C]表示可能是关键词的概率,同时引用Pr[T,0,L,C]作分母实现归一化处理。公式(7)的解释是一样的,该词语成为关键词的概率可以用公式(7)计算得出:

根据Pr的排序策略,候选关键词可以按照某种次序排序,然后将相应的关键词返回。

3特征串的提取

3.1特征选择和离散化

在本文的研究里,我们使用下面几个特征词:TF*IDF,First Occurrence,Length和Coherence。

TF*IDF表示的是词汇的频率,值越大,是关键词的可能性就越大。First Occurrence则表示词语在文档里面第一次出现的位置统计。相对来说,在开头和结尾处出现的词汇就越有可能是关键词。Length用以表示词语中的单词数目,即长度。Coherence用来表示候选词与其它待候选词之间的关联程度。本文主要是通过WORDNET计算语义实现对词语之间的内聚性(Coherence Score)进行分析。在这里令S为词义集合,通过相加S和集合里面的其它词义的语义相关程度得到Coherence Score值,如公式(8)所示:

在公式(8)中,由于分母主要实现的是归一化处理内聚性的值,通过对内聚度的值的度量,假设候选关键词义的内聚度大,那么表示该关键词和集合中的其他词的词义的关联度就越大,反之,则越小。

这些特征的量都是连续性,但主要实现的是机器学习,所以可以通过equal-depth partioning方法实现将连续性的特征转化为离散型的特征,这种离散化的方法也可以做为多个区间,而每个区间内的样本数量则是相等的。

3.2特征串的提取

两个内容基本相同的网页有个明显的特征,即关键词所在网页中位置的前后字符都是相同的。不同内容的两个页面,即使两者有相同的关键词,但是关键词前后字符往往是不相同的。因此可以将关键词前后的字符作为特征码来提取,所有的特征码组成该网页的特征串。

根据前面提到的提取特征码方法提取出网页文档中的所有特征码,并将这些特征码组成特征串,其实特征串就是一些特殊的字符串,这样网页文档相似度的判断就转换成判断字符串是否匹配的问题。由于在网页转载的过程中可能参杂一些其他信息,所以是允许有适当误差,为了达到容错的效果,在特征串的匹配过程中可以通过引用模糊匹配的思想,以此计算最长公共特征码的长度,并设定相应的阈值。当码串的长度超过码长的长度时,也就是说超过相应的阈值时,就可以认定为匹配,然后可以据此判断网页是重复的页面,否则就判定网页是不同的。

3.3特征串相似度的计算

由于两个网页的相似度其实就是特征串的相似度,所以我们在计算对比过程中可以将求网页文档的相似性问题和求网页文档特征码的相似度问题进行互换求解。设网页A,B的特征串分别为Sa和Sb。由上节可知,Sa、Sb是一个有序序列。求Sa和Sb的相似度问题实质上是求两个序列的最长公共连续子序列问题。设Sab为序列Sa和Sb的最长公共连续子序列。如Sa={a,b,k,c,d,e,f,g,h},Sb={a,c,d,e,f,b,k},那么最长公共连续子序列Sab={c,d,e,f},{Sab}=4。求解最长公共连续子序列时,将Sa和Sb分别存在两个链表la和lb中,并用两个指针顺序遍历la和lb。

通过以上算法求得最长公共连续子序列Sab,后,则特征串Sa和Sb的相似度sim(Sa,Sb)定义如下:

公式(9)显示了相应的比例数据。根据公式可以表明,最长公共连续子序列与相似度之间呈现出正比的关系。如果Sa和Sb相同,则sim(Sa,Sb)=1;若Sa和Sb完全不同,则sim(Sa,Sb}=0。

计算最大公共子串长度:

最后程序返回的conlen就是两个特征串之间的公共子串的长度。计算特征串之间最大公共子串的长度时间复杂度为O(m×n),需要的空间为O(1)。文本的篇幅越大,特征串的长度相对就会变长,计算特征串之间最大公共子串所需的时间就越多,即文本篇幅增长,则处理时间也会增长。

4结语

本文对关键词和特征串的提取算法都是基于正文部分内容,在实际应用中要先去除噪音部分以免影响准确率。候选关键词的提取不但是词语出现的次数、位置,还要联系上下文综合考虑词语所在环境的语义,所以必须基于传统的朴素贝叶斯模型改进算法。对于特征的选择和离散化,因为机器无法像人一样思维,无法完全正确理解词语之间的关联度和语义,所以必须改善和实现机器学习。另外,英文和中文单词也有区别,英文单词之间有空格,另外也有基于某种语义的前缀后缀词根,所以算法中应基于文种有所改进。

摘要:本文首先描述基于关键字和特征码的网页去重算法思想,然后对算法中的关键词提取问题,特征串提取问题和特征串相似度计算问题进行了分析和研究。

关键词:网页去重,关键词,特征码,算法

参考文献

[1]熊忠阳,牙漫,张玉芳.基于网页正文结构和特征串的相似网页去重算法[J].计算机应用,2013(02):554-557.

[2]罗元.网页净化及去重研究综述[J].现代计算机,2013(15):3-7+12.

[3]贺知义.基于关键词的搜索引擎网页去重算法研究[D].武汉:华中师范大学,2015.

[4]谢瑶兵.基于特征串的网页文本并行去重算法[J].微电子学与计算机,2015(02):69-72.

网页特征提取 篇3

关键词:DOM,相关度,标签

引言

互联网早已成为人们获取知识、信息的一个最重要的来源。2015 年, 接近一半的中国人在使用互联网。互联网已成为人们生活、工作、学习形影不离的工具。根据网页的功能及表现形式, 网页分为3 类, 主题型网页, 图片型网页, 标签型网页。在主题型网页中, 为了使网页美观, 网站为了谋取经经济利益, 网页上会有广告, 导航等信息。网页噪音却几乎占了主题型网页内容的一半。这些无关的导航、广告、超链接、图片、版权等信息影响了信息检索的效率。因此, 如何更好地去掉网页噪声, 找到所需要的信息, 已经成为当前应用和研究的一个重要课题。

相关研究

到目前为止, 网页主题信息提取方法很多种, 其分类方式的依据也不尽相同。2005 年, 欧健文等提出模板化网页主题信息的提取方法。该方法通过机器自动学习的方式生成网页模板, 利用提取规则对网页的主题信息进行提取。2007 年, 殷贤亮等提出基于分块的网页主题信息自动提取算法, 该算法利用网页标记对网页进行分块处理, 把网页块表示成特征向量, 根据有序标记集来识别网页主题内容块。2011 年, 聂卉等提出基于网页规划布局的页面主题内容抽取, 该方法根据网页的规划布局, 通过构造标签树的形式对网页进行分块分类, 再通过计算网页内容块的主题相关度, 对网页主题进行判断, 去掉除不相关信息, 提取网页主题内容。2015 年, 万文兵提出基于主题型页面的正文信息抽取技术研究, 他提出了一种抽取方法, 先判断网页是否是为主题型类型, 接着提取网页的正文内容, 最后再利用正则表达式过滤掉内容块中HTML标记和无关文字。

算法介绍

1、网页预处理

HTML语言书写的随意性, 导致某些网页源代码的不规范, 如标签不配对、不正确的嵌套及标签格式不规范等情况等。所以要修改不正确的嵌套关系、将缺失掉的html标签补齐、对标签格式进行规范, 并将网页源代码转换为DOM树的形式。如源代码中的<title>标签, 而没有相对应的</title>标签, 这种不规范不会影响网页的正常显示, 但不利于正文信息的抽取, 为此应对HTML代码进行预处理, 将其进行标准化处理。

本文实现主题型网页正文提取, 网页正文内容主要包含在<body>、</body> 标签之中, 然而在网页头部<head></head> 标记中只有<title>、</title> 标签中的网页标题与网页正文有关, 因此首先要去掉网页头部网页标题以外的其他标签。接着去掉一些导航、超链接、图片等噪音。

如需要去除<style><style>标签和<script></script> 标签, <noscript></noscript>标签。采用正则表达式<style[^>]*?>[sS]*?</style > , <script [^ >]*? >[sS]*? </script > , <noscript [^ >]*? >[sS]*?</noscript>来去除标签以及标签中的内容。

本文采用HTML Parser工具来处理网页。HTML Parser工具包提供简单、方便的处理html文档的方法, 它将html页面中的标签按照树形结构进行解析, 生成一个一个的结点, 一种类型的结点对应一个类, 通过调用其提供的方法可以轻松地取得标签的属性及值。

2、页面主题的提取

网页设计者们通常把网页得标题放在<title>标签中, 为了明确标明网页的来源, 现在各大网站的标题一般采用“文章标题+网站名”的形式, 常用符号“_”连接。将<title>中的“_”之前的文字内容抽取出来, 然后对网页标题进行分词, 去掉停用词, 去掉标点符号, 得到对应的标题词项T (t1, t2, t3…tm) 。

3、计算各项值

通过对网页的html语言分析, 我们发现几乎所有的网站都是基于div或是table标签来进行布局的。把网页解析成DOM树, 然后根据DOM树统计<table>标签、<td>标签及<div>标签中文本节点长度y和链接文字长度z, 标点符号总数x, 用p表示该段的密度, 用m表示标点密度。

通过正文长度与链接文字长度的比例, 正文长度与标点符号的数量的比例, 判断该标签是不是含有正文节点。

4、计算标题与文本的相关度

经过去噪处理后留下的文本结点集合, 对每个文本内容进行分词, 得到文本内容的词项集合Ci (c1, c2, c3, …, cn) , 然后将标题T的每个词项ti和文本词项集合Ci的每个词项进行匹配, 统计匹配次数并进行加权计算, 得出每个节点与标题的相关度, 记相关度为s。

实验

为了对网页正文提取方法进行验证, 经过实验评估, p取值为0.03, m取值为0.1, 相关度值s取值为1, 网页去噪效果好。随机选择一个网页, 如图1 所示。

网页提取结果:

总结

伴随着网络的飞速发展, 许多研究如数据挖掘、信息检索已经由传统转移到网页上, 面对复杂的网页形式, 有效提取网页正文内容能提高相关研究工作的效率。通过利用本文提出的网页正文提取方法, 可以看出该方法可以有效的去除网页噪音, 达到理想网页正文的提取效果。

参考文献

[1]欧健文, 董守斌, 蔡斌.模板化网页主题信息的提取方法.清华大学学报 (自然科学版) , 2005, 45 (S1) :1743-1747

[2]殷贤亮, 李猛.基于分块的网页主题信息自动提取算法[J].华中科技大学学报自然科学版, 2007, 35 (10) :39-41

[3]聂卉.基于网页结构相似度的Web信息抽取[J].情报学报, 2011, 28 (3) :268-274

[4]万文兵.基于主题型页面的正文信息抽取技术研究[J].计算机光盘软件与应用.2015 (1) :15-16

网页特征提取 篇4

1 对复杂网络理论内容的分析

随着关键词的提取得到不断的发展, 越来越多的学者开始加大力度来研究关键词的提取, 并且都取得了一定程度上的成果。所获得的成果知识从单方面角度也容易忽略个体和总体的关系。[1]很多真实的网络都是复杂网络, 主要通过统计的参量对网页文档中的物理量进行分析理解。结合传统关键词的抽取, 在引入参量后并对其进行科学的计算, 这样才能够得到更加准确的关键词抽取结果。

2 论述模型构建与抽取算法

在研究复杂系统的过程中, 使用的最频繁并且也是最重要的手段之一就是复杂网络, 学者在研究复杂系统时, 必须要对复杂网络的描述以及模型构建等进行准确的计算。虽然复杂网络应用的领域十分广泛, 各领域之间具有较大的差异, 但是针对复杂网络的研究思路基本上是一致的。在对模型进行总结后可以得到下图所示的框架图。

在新闻网页的文档中, 词是最基本的单元, 一篇结构完整的文章需要以不同的词和不同的词性, 根据不同的结构顺序组成的。[2]正是因为词组的顺序能够带来不同的特色的新闻信息, 对人们读取信息时的魅力是无限的。网页中的词映射为复杂网络中的节点, 词与词之间的顺序不断成为节点的有向边, 将网页转化成网络。一篇文章最重要的词能够成为关键词, 一般来说, 网络拓扑结构中的重要节点主要有两大类, 第一类是加权度大且聚类系数高的节点, 第二类是介数高的节点。

(1) 加权度是节点数量的体现, 通常加权度越大就表面节点, 就越能发挥在网络中的作用。

聚类系数越高, 说明节点与邻节点之间的联系更加紧密, 同时也表示在新闻网页中, 某些词语的邻居节点与对应词语之间的联系更加密切, 在某种程度上还能够重点突出原文中的一些小主题, 使某些节点单词成为了新闻网页的主题词。

(2) 在网络中节点路径最短的数量就是介数, 因此, 介数越高, 就表示通过介数的最短路径就越多, 其能在一定程度上对全文的平均最短路径的介数产生影响, 并且表示了经过的节点的重要性。

复杂网络模型中的聚类系数还有介数是复杂网络用来统计的参量, 但是在传统的复杂网络之中, 其是以网络的权值来表示节点的重要程度, 不能通过节点的权值与最小值来衡量最短路径, 这是因为在实际情况中, 权值越大就表示距离越近。[3,4]在实际的网页文档中, 有些节点是十分重要的, 例如新闻网页的标题以及相关的新闻主题链接或者是网页中重要的标记都在一定程度上显示了词语的重要性。利用节点的特点不断引入在传统的分析方法中, 在分析了复杂网络中新闻网页提取关键词的方法之后, 对其进行总结如下所示:

首先将待处理的本地网页文档的存储路径准确输入, 再将网页文档中的关键词输出。

第一步:对网页内的标题、正文进行分析。对于门户网站而言, 其使用的网页格式是各不相同的, 其中一些门户网站对网页的模板样式进行了不断的分析, 应用HTML—Parser包对网页中的正文还有正文进行标记。

第二步:对网页文档进行预处理。利用正确的表达式, 判断原文中是否存在中文字符, 或者判断是否存在中文文档, 利用第一步中涉及到的解析结果进行分词, 然后按照词语出现的不同位置和词性不断进行标记。

第三步:对第二步中得出的词语进行数字编码, 并将得出的编码结果作为节点, 并且还要建立索引表, 从而将网络中的将第二步中得出的词语进行数字编码, 并将编码结果作为节点, 同时不断建立索引表将网络中的词语串联起来, 构建有向加权网络。

第四步:得出各个节点的加权度以及聚类系数, 能够计算各个节点之间的值并对其统一规划, 再进行降序排列。

第五步:对中心介数进行正确的计算, 并将第四步中得到的节点作为中心网路的节点, 进而找出节点与中心网络两者之间的最短路径, 找出节点的中心介数。

第六步:生成网页之间的关键词。[5]

3 关键词提取

随着关键词提取的数目增加, 新闻候选词也会不断增加, 当新闻候选词不断增加之后反而会降低新闻搜索的准确率。所以正确关键词的抽取有一定的数量限制和固定的范围, 在不同的文档之间确定的值不断波动, 提高新闻网页关键词提取的召回率和准确率。

4 结语

通过理论分析和实验结果表明算法具有正确性和有效性, 并且通过计算算法中的关键词得出新闻中的大意, 并能为新闻进行去重和新闻类聚提供基础。但是另一方面也要注意到分词程序的不足, 由于分词程序存在的缺陷, 给实验产生了许多不良的影响, 必须要不断加大对其的研究力度, 并且还要不断改进程序和数据结构, 实现复杂网络的存储以及特征参数的计算。

摘要:21世纪是互联网发展的时代, 信息化进程不断加快, 网页的信息量也以惊人的速度不断增长。在复杂的网络面前, 需要借助信息快速提取关键词的技术, 帮助人们快速了解新闻的主要内容, 节省网页浏览的时间。文章将结合传统的关键词提取不断优化网页文档的特征, 这也成为了当下引发关注的热点。

关键词:复杂网络,新闻网页,关键词提取

参考文献

[1]胡学钢, 李星华, 谢飞, 吴信东.基于词汇链的中文新闻网页关键词抽取方法[J].模式识别与人工智能, 2010, 01:45-51.

[2]谢凤宏, 张大为, 黄丹, 谢福鼎.基于加权复杂网络的文本关键词提取[J].系统科学与数学, 2010, 11:1592-1596.

[3]李静月, 李培峰, 朱巧明.一种改进的TFIDF网页关键词提取方法[J].计算机应用与软件, 2011, 05:25-27.

[4]苏祥坤, 吾守尔·斯拉木, 买买提依明·哈斯木.基于词序统计组合的中文文本关键词提取技术[J].计算机工程与设计, 2015, 06:1647-1651.

利用网页结构特征建立用户模型 篇5

由于需要为不同的用户提供有针对性的服务,因而需要获取用户的兴趣、习惯(如浏览内容和背景知识)等用户信息,并对用户信息进行结构化描述,构建出反映用户特点的需求模型,这一过程可称为用户建模[2]。

现今针对个性化服务方面的研究,主要是通过收集用户所使用的网页浏览器中的浏览记录内所包含的网页来建立用户模型。收集到的网页被转换成纯文本数据从而提取出表示用户兴趣的关键词。既然要准确地表示用户兴趣,就要对用户访问过并且感兴趣的网页进行内容分析,即希望提取出可描述可计算的代表性项目来表述网页内容。网页内容被表达得越准确,用户兴趣也将被反映得更真实,而结果将是建立更有效的用户模型。

1 如何抽取网页文本的特征

在互联网环境中,文档一般是被超文本标记语句来标注格式的。利用网页文本的这种特殊性,提取网页特征就显得比较容易了[3]。网页的结构特征在超文本标签中可以表现出来,出现在不同超文本标签中的词,他们在表达文档内容方面是有能力差别的。例如

、……、

中的词条对概括和强调网页的整体和局部内容起关键作用[4]。在本文的论述中,对文献[5]和文献[6]的技术做了综合应用。在抽取一篇网页的主题内容的过程中,不仅考虑标题、摘要,更兼顾到要考虑那些有明显标志的文字,例如黑体字、斜体字等特别字体,这些特殊字体的文字往往与网页的主题内容联系紧密,有很高的相关性。而利用超文本标签中的视觉表现属性标记,如等,我们可以很容易识别出这些重要文字。由此可见,存在于网页文本中的词汇,网页标记能够揭示出他们对于表述网页主题的重要性,一定程度上,标记是判断词汇与网页主题相关性的重要指示。统计网页中的标记信息,可以很好的利用起网页结构标签来指示关键词的重要程度,而且能更准确地分析出网页的主题内容。

2 基于网页结构特征的用户建模技术

2.1 超文本标记加权

在提取表达网页主题的关键词过程中,主要是通过计算关键词的出现频率来实现,也就是基于词频统计来提取出关键词去描述网页内容的。在此种方法下,哪些词语具有越高的词频则这些词语越有可能成为描述网页主题的关键词(停止词除外)。考虑到网页标记在一定程度上标示出关键词的重要程度,我们将标记对关键词的标示作用转换成对关键词的出现次数进行加权,这样的处理是准确描述网页主题的关键步骤。

“超文本标记加权”的主要用途,就是用来提取网页标题和正文中的信息。此技术是把某些网页标记内的文字的词频进行人工加权,从而将标记对关键词的标示作用进行量化处理。通过对网页结构的分析,可得知在

、……、等标记内的文字往往与网页的主题内容相关性更高,因此选择对这些标记内的文字进行词频加权。

2.2 用户兴趣建模方式

收集用户的相关信息是建立用户兴趣模型的重要步骤。数据收集是一个获取与用户特征、偏好或活动相关的信息的过程。这一过程为用户模型的建立提供了必要的数据源[7]。在此论文的试验中用户的浏览记录被作为用户建模的数据源。

从用户浏览记录中提取出网页集合,将此网页集合作为用户感兴趣的文档,通过从用户感兴趣的文档中计算出关键词向量,并根据每个关键词权重来建立用户模型。在将用户感兴趣的文档处理成关键词向量的过程中,首先要把一些与文档主题内容相关性很小的词汇过滤掉,也就是文档处理中用到的降维技术,即对无关数据维进行删减处理。通常的降维过程:首先建立停止词表,根据停止词表删除文档中的停止词,停止词包括语气词、连词、虚词、数量词等,这些词汇虽然在文档中被大量使用,但并不表述文档的主题意义,删除停止词使得对文档的分析更高效。本系统采用词频统计去计算关键词权重。采用词频统计计算关键词权重的方法简单、高效且使用广泛。

用户兴趣建模方式:1)将用户兴趣比拟成一篇文档,而建立用户兴趣模型的过程就是要挑选出最能表示兴趣文档主题的关键词向量,用户模型中的内容就是表述用户兴趣的关键词。2)用户建模的数据来源于用户的网页浏览纪录,即是用户浏览过的网页集合。首先要将这些网页转换成纯文本文档,再将文档中的停止词删除。3)我们设定网页集合中的每个词语项为Ui,根据各词语Ui对网页主题表述的重要程度求出权值Wi,i=1,2,…,n,再根据权值高低对词语Ui排列,选取排列在前的权值最高的n个词语来构建用户兴趣模型。用户兴趣文件用术语特征向量(T1,T2,T3,…,Tn)表示出来。术语(T1,T2,T3,…,Tn)就是描述用户兴趣的关键词,也就是被选取出来的权值最高的前n个词语。通过对用户的浏览记录进行计算,提取出用户兴趣特征向量。

2.3 基于网页结构特征的用户建模技术描述

网页的结构特征体现在超文本标签中,超文本标记对体现文档主题的关键词有一定的标示作用,基于网页结构特征的用户建模技术就是根据这标示作用来建立用户模型。用户建模的数据源是用户浏览过的网页集合,通过词频统计来提取用户感兴趣的关键词。

基于网页结构特征的用户建模过程:

1)收集数据源———用户浏览网页的历史纪录。

2)将用户的历史记录转换成网页集合,并处理成纯文本文档,并将文档中的停止词删除掉。

3)参照下表对指定词汇进行人工加权。

根据上表,对title标记内的文字词汇进行词频数加4的操作,其余标记内的词汇也类似处理。

4)将每个词语项的词频数作为词语的权重,选择出权值最高的前30个词语来建立用户模型。至此,完成用户建模过程。

3 分析实验结果

实验平台是PⅣ3.0GHz,512MB,Windows XP,算法使用JAVA实现。实验中建模的数据源是用户浏览记录中的一百个网页,配有测试集和,在测试集中包含50个被用户喜欢的网页和50个用户不喜欢的网页。

评价用户模型的好坏主要是看能否根据模型挑选出用户喜欢的网页,越是能准确、全面的挑选出符合用户喜好的网页,则认可此用户模型的性能越好。一般从选准率与选全率两个方面来评价用户模型的性能。

选准率Precision=Uyes∩Syes/Syes

选全率Recall=Uyes∩Syes/Uyes

Syes———根据用户模型挑选出的推荐网页集和

Uyes———测试集中原有的用户喜欢的网页集和

在表2中,将基于网页结构特征的用户建模技术和未采用网页结构特征的用户建模技术(即没有使用超文本标记加权的用户建模)进行了实验结果比较。

4 结论

本文中,对一种基于网页结构特征的用户建模技术进行阐述。该技术利用了网页这种特殊文档的标记信息,将网页结构特征引入用户模型的计算中,通过引入超文本标记加权从而建立更有效的用户模型。实验结果表明,采用此技术后建立的用户模型在选准率和选全率方面都有提高,这项技术具有一定的实际应用价值。

摘要:该文提出将网页的结构特征提取出来,用于用户建模过程中。根据网页结构特征,人为提升部分词汇的词频权重,从而来建立用户模型。实验结果表明,此技术建立的用户模型更符合用户兴趣。

关键词:网页结构,用户模型,词频权重

参考文献

[1]KHOPKAR Y,SPINK A,LEE GILES C.Search engine personalization:an exploratory study[EB/OL].(2003-06).http://first—Monday.org/is-sues/issue87/khopkar/index.htm1.

[2]扬林,茅玉蓉.个性化:定制你的网络服务.http://tech.tom.com.archive/1796/1800/2004.O6.3O.

[3]吴鹏飞,孟祥增,刘俊晓,马凤娟.基于结构与内容的网页主题信息提取研究[J].山东大学学报,2006,41(3):131-134.

[4]许建潮,胡明.中文Web文本的特征获取与分类[J].计算机工程,2005,31(8):24-26.

[5]刘开瑛,薛翠芳,郑家恒,等.中文文本中抽取特征信息的区域与技术[J].中文信息学报,1998,12(2):1-7.

[6]Bruce K,Chad B.The infofinder agent:Learning user interests through heuristic phrase extraction[J].IEEE EXPERT,1997,12(5):22-27.

浅议网页设计的美学特征 篇6

(一) 网页艺术设计的功能之美

网页的实用功能虽然与其自身的功能美的产生没有必然的联系, 但实用功能却直接影响着使用者对它的审美评价, 实用甚至可以转化审美。这种美就叫做功能之美。网页设计在追求的形式美同时, 必须适合主题的需要, 这是网页设计的前提。只讲花哨的表现形式以及过于强调“独特的设计风格”而脱离内容, 或者只求内容而缺乏艺术的表现, 网页设计都会变的空洞而无力。设计者只有将二者有机地统一起来, 深入领会主题的精髓, 再融合自己的思想感情, 找到一个完美的表现形式, 才能体现出网页设计独具的分量和特有的价值。另一方面, 要确保网页上的每一个元素都有存在的必要性, 不要为了炫耀而使用冗余的技术。那样得到的效果可能会适得其反。只有通过认真设计和充分的考虑来实现全面的功能并体现美感才能实现艺术与功能的完美统一。

(二) 网页艺术设计的技术之美

技术美与功能美是相伴而生的另一种审美形态。简单的说技术美就是现代设计中如何按照美的规律创造合乎人的生理和心理需求的优美的事物或产品。网页中使用的交互性、多维性和多种媒体的综合性, 是网页设计之美的完美体现。网页不同于传统媒体之处, 就在于信息的动态更新和即时交互性。即时的交互性是Web成为热点的主要原因, 也是网页设计时必须考虑的问题。传统媒体 (如广播、电视节目、报刊杂志等) 都以线性方式提供信息, 即按照信息提供者的感觉、体验和事先确定的格式来传播。而在Web环境下, 人们不再是一个传统媒体方式的被动接受者, 而是以一个主动参与者的身份加入到信息的加工处理和发布之中。多维性源于超级链接, 主要体现在网页设计中对导航的设计上。由于超级链接的出现, 网页的组织结构更加丰富, 浏览者可以在各种主题之间自由跳转, 从而打破了以前人们接收信息的线性方式。例如, 可将页面的组织结构分为序列结构、层次结构、网状结构、复合结构等。但页面之间的关系过于复杂, 不仅使浏览者检索和查找信息增加了难度, 也给设计者带来了更大的困难。为了让浏览者在网页上迅速找到所需的信息, 设计者必须考虑快捷而完善的导航设计。多种媒体的综合性, 目前网页中使用的多媒体视听元素主要有文字、图像、声音、视频等, 随着网络带宽的增加、芯片处理速度的提高以及跨平台的多媒体文件格式的推广, 必将促使设计者综合运用多种媒体元素来设计网页, 以满足和丰富浏览者对网络信息传输质量提出的更高要求。

(三) 网页艺术设计的装饰之美

网页设计在解决了技术和功能之后一个最体现网页自身个性的设计步骤就是装饰。虽然子贡云:“用力甚寡而见功多”, 指出了一个好的设计就是在使人用器物功能时, 便捷、宜人。但是装饰艺术作为人类社会最普遍的术形式在设计中还是具有很重要的价值和意义的。

被称为现代艺术之父的法国画家保罗·塞尚有句名言:“要用圆球体、圆柱体和圆锥体的眼光来观察与表现客观物象”这个观点之所以影响至立体派等一系列现代艺术的产生, 究其原因, 正是将那些纷繁复杂的世界万物归纳整合、提炼概括为简明的几何形体。“简洁就是美”, 是单纯化成为现代设计美的重要因素。简洁也是装饰的一个尺度, 过于复杂的装饰是对主题的重大考验。网页上的很多功能都是通过超级连接的按钮和图片来完成的, 可以说单纯的装饰在网站上是不多的, 在商业性很强的网站上每个位子都是有价值的。而且复杂的装饰必然影响加载的速度, 影响点击率。对网页设计来讲装饰应该追寻简洁化, 功能与装饰的结合才是一个优秀的网页设计作品。中国人的阅读和审美方式都与西方人有一定的区别, 作为中国的网页设计者还有一个体现中国民族自身艺术审美特点的任务, 这不单单是民族大意上的问题, 更是一个优秀设计作品被人们认可与否的前提。

摘要:完美的网页作品, 要求设计者不但要掌握与以往做平面设计不同的技术来制作动态网页, 而且还要求设计者具有一定的动态思维设计理念, 网页设计者以所处时代所能获取的技术和艺术经验为基础, 依照设计目的和要求自觉地对网页的构成元素进行艺术规划的创造性思维活动。这就必然要成为设计艺术的重要组成部分, 并随着网络技术的发展而发展。表面上看, 它不过是关于网页版式编排的技巧与方法, 而实际上, 它不仅是一种技能, 更是艺术与技术的高度统一。

关键词:网页设计,功能之美,装饰之美,技术之美

参考文献

[1]《网页艺术设计》, 顾群业等编著, 山东美术出版社2002年6月出版。

[2]《网页设计的美学特征》陈敏宁, 美术观察ART OBSERVATION2008年第06期。

基于网页特征关键词的近似检测算法 篇7

进入21世纪以来, 随着互联网的不断发展, 信息成为了这个世界不可缺少的重要元素, 人们的工作、学习、生活等等的活动和信息越来越紧密地联系在一起, 而作为这个世纪信息发布和获取的综合体, 互联网便成为了人们生活中不可或缺的助手Web成为了信息制造、发布、加工和处理的主要平台。

网络中存在大量转载网页, 即一篇网页文章内容会以近似或者相同的形式出现在其他网页中这些重复网页有的是没有一点改动的拷贝, 有的在内容上稍作修改, 有的则仅仅是网页的格式不同对于当前的热点新闻, 新闻媒体会发布与之主题内容相近的报道, 包括一些网站转载其他新闻网站同一主题新闻, 搜索引擎在收集网页过程中, 必然会收集大量主题内容近似或者相同的网页, 如果不对这些网页进行处理, 不但浪费了大量的存储资源降低了索引效率, 而且加重了用户检索和阅读的负担。

对内容重复度较大的网页可以直接删除, 而对一些重复度较小的网页文档, 例如同一主题的新闻资源以聚类的形式呈现给浏览者, 如Google资讯, 根据浏览者的个人喜好进行显示。因此, 对这些内容相同或近似的网页做一些处理是一项具有实际意义的工作。

本文提出一种根据从网页主题内容提取的特征关键词的近似网页检测计算模型。该模型根据网页文档形成的特征关键词, 从网页库中获取包含这些关键词的文档集合以缩小需要进行相似度处理的文档范围, 提高了计算效率。

1 近似网页检测算法研究现状

近似网页检测算法, 是以Internet或Intranet为文档来源, 针对搜索引擎提出的近似网页检测算法。Internet上大部分的信息是以网页的形式存在的, 考察近似网页的主要特点有: (1) 重复率高:网页的重复主要来自转载, 人们通过复制方式进行信息共享, 对经典的文章, 以及热点新闻转载率很高; (2) 存在噪声:转载时一般只将一篇网页的正文内容复制到自己的网站的模板中, 每次转载都将加入许多噪声, 如导航条、广告、图片、版权信息等; (3) 存在局部性:主要表现在转载内容偏向于人们关注的热点且权威网页, 其他网页转载的可能性相对较少。

当前提出的近似网页检测算法主要沿用信息发布系统中相同或近似文档的探测或消重时应用的方法, 代表性方法主要有:基于关键词匹配的方法, 基于全文分段匹配的方法, 基于模板消噪的方法等。

1.1 基于关键词匹配的方法

对已抓取回来的网页进行分析时, 要提取网页中出现的关键词, 并以关键词作为网页的特征项。利用基于文档向量空间模型 (VectorSpaceModelVSM) [1]表示网页, 进行相似度计算, 北京大学“天网”中英文搜索引擎就是采用此种方法, 这种方法被证明是非常成功的, 能够以极小的时间复杂度和空间复杂度来获得较高的查全率, 同时保持了很高的查准度。

1.2 基于全文分段匹配的方法

把一篇网页按一定的原则分成m段 (如每n行作为一段, 或利用文本的自然段等等) , 然后对每一段进行签名 (即计算指纹信息) , 于是每一篇文档就可以用若干个指纹信息块来表示。对于两篇文档, 判断指纹信息块相同数量来判断是否为近似网页。

1.3 基于模板消噪的方法

先对网页进行净化, 去掉网页的模板噪音内容, 进而提取出网页的正文, 然后再结合其他近似网页检测方法对网页的正文进行消重的方法。

2 基于关键词的近似网页检测算法模型

近似网页在正文部分的内容是几乎相同, 可能在模板方面有所改动, 这些网页也有可能是内容部分重复的网页等。给出近似网页的定义:

定义1 (近似网页) 为一个判定网页对 (dj, dk) 近似程度, 且0≤Sim (dj, dk) ≤1。当Sim (dj, dk) =1, 网页dj和dk是相同的。给定一个相似程度Sim (dj, dk) 和阈值χ, 如果Sim (dj, dk) ≥χ, 记作dj≈dk, 可以说这两个页面dj和dk是近似的。

基于关键词的近似网页检测算法, 有以下几个核心技术点。

(1) 文档对象的特征抽取:通过对Web文档页面分析, 提取标题和正文信息, 并将文档的主体内容分解, 提取代表文档内容的若干特征关键词表示该文档信息, 该信息记录在关键词库中。

(2) 倒排索引的建立:倒排索引是用文档包含的关键词作为索引, 文档作为索引目标的一种结构。通过倒排索引, 迅速找到包含某个关键词的所有文档, 起到缩小要进行比较文档范围的作用。

(3) 相似度计算:通过计算两个文档特征重合比例来确定是否为内容相似文档。内容相似的网页文档被放在一个簇中, 相似网页库存储相似网页的聚类关系。

现对传统的基于关键词匹配的方法进行了改进, 如计算关键词权重的改进, 引入倒排索引模型等。图1简要说明了算法模型, 其中网页文档库保存获得的网页文本;关键词库保存经过分析的网页文本所形成的关键词;相似网页库保存相似网页的聚类关系;倒排索引记录关键词和所在文档的对应关系。

2.1 页面分析

在页面分析中主要有两个步骤:首先是网页净化[2—5], 其次是关键词提取和量化。对于每一个独立的网页文档, 最终被抽象为一个描述该文档主题内容的关键词集合。

定义2一个关键词对象k定义为三元组 (k, w) , 其中kid是其唯一的标识, k是概念对象的基本词项, w为k的量化表示形式。

定义3一个网页文档对象D抽象表示为一个关键词集合其中ki为一个关键词对象, n表示一个网页文档对象抽象形成的关键词个数。

网页净化主要是去掉网页中大量无用的广告、导航栏等网页模板噪声以及对概念对象形成无用的内容, 如JavaScript脚本, CSS标记等。文献[2]给出了一种HTML网页净化方法, 为了区别网页主题内容和噪声信息, 首先要对网页分块, 目前较流行的有基于DOM树的划分方法[2], 基于位置的划分方法, 基于可视化的划分等方法, 现采用基于DOM树的划分方法, 划分成不同的块后, 衡量网页块的重要程度来判断出包含主题内容的块, 并提取该块的内容。主题内容块的识别是依据启发式规则, 一篇有主题网页中的正文通常是用成段的文字来描述, 而非正文信息通常以超链接的形式出现, 而且正文内容往往是集中在某一块内 (DOM树的某一个子树) 。因此依据该规则, 深度优先遍历标签树就可以判断出与主题一致性较高的子树对这些子树作特别的处理, 并加大Title, Keywords, Description等元数据的权重, 从而来提高主题提炼的效果。

得到网页的主题内容, 调用分词模块提取具有独立意义的词语, 在此过程中去停用词 (Stopwords) 或提取词干 (Stemming) , 最后形成关键词对象集。由于关键词的提取是在网页内部以内容块为单位进行重要性和相关性评价, 赋予一些容器类html标签 (如<table>、<p>、<div>…等) 和具有视觉特性的标签 (如<b>、<h>…等) 相应的权重, 并结合一个词在整个网页文档中和某一个内容块中的词频, 采用以下的关键词权重计算公式[4]

其中:BN:网页中内容块的总数;网页中内容块j的权重;n:网页中不同关键词的总数;关键词i出现在内容块j中的词频。

用向量空间模型表示网页模型, 每个网页表示成一个n维特征词及其权重组成的向量{ (k1, w1) , (k2, w2) , …, (ki, wi) , …, (kn, wn) }在相似度计算中, 通过计算两个网页文档向量的距离来判断其相似程度。

2.2 倒排索引的创建

倒排索引 (Invertedindexing) [6]是目前应用最广泛的检索模型, 是一种用文档包含的关键词 (Terms) 作为索引, 文档 (Documents) 作为索引目标的一种结构, 在倒排索引中 (图2) , 索引由两部分组成:词表和词出现的文档列表, 词表包含单词和指向文档列表的指针, 文档列表中记录了doc关键词所出现的文档id, iv是一个n元组, 描述了关键词在文档中的相关属性, 如特征词在文档中出现的次数, 位置, 权值等相关属性, 文档按照特征关键词在该文档中的权值排序。

定义4一个网页文档对象D定义为有序对其中did是一篇网页文档的唯一标识, v是一个n元组 (num, {pos1, pos2, …}, …) 描述特征词在文档D中的属性。

通过对网页文档的解析, 提取文档的关键词及在该文档中相应的属性, 并建立关键词对象K到其所在网页文档对象D的反向索引。通过倒排索引, 用关键词可以迅速检索出其所出现的网页文档。

2.3 相似度计算

通过提取网页文档的特征关键词和计算出每个关键词的权重, 每个网页表示成一个n维特征词及其权重组成的向量{ (k1, w1) , (k2, w2) , …, (ki, wi) , …, (kn, wn) }。特征词权重wi (Term Weight) 表示特征关键词项ki能够代表文档D能力的大小, 体现了特征项在文档中的重要程度。

在这种模型中, 网页文档模型化为空间中的点, 两篇网页文档间的差异由多维空间中两点间的距离表示[7]。目前常用的度量函数有夹角余弦函数, 欧几里德距离和曼哈坦距离。现采用夹角余弦函数。公式如下

在计算可能会遇到用于比较的两个特征向量长度不一样, 需要对两个文档向量进行一定的转换, 使其长度一致。设

定义 (1<l≤n+m) , 其中, k表示文档形成的关键词。向量d′i定义为di在d′上的映射, d′i={k′i1, k′i2, …, kik, …, k′il}, (1<k≤n+m) , 如果k′ik是向量di中的元素, 则k′ik=kik;否则k′ik=0。相应地, d′j定义为dj在向量d′上的映射。由于Sim (di, dj) =Sim (d′i, d′j) , 所以对于非等长网页文档向量, 采用该方法处理。

两向量的夹角越小说明相似度越高, 根据Sim值的大小和阈值χ进行比较, 如果dj) 大于χ, 则认为两个网页在一定程度上内容近似。

2.4 算法流程

对于一篇待处理的网页文档首先调用HTMLparser模块对网页进行扫描, 在此过程中调用Analyzer模块提取内容关键词, 并记录和计算关键词的相关属性, 写入关键词数据库中, 并按照关键词在该篇文档中的重要程度 (权值) 排序, 更新倒排索引, 将特征关键词与网页文档的对应关系写入倒排索引库。

获取与dnew进行相似度计算的目标文档集是进行后续计算的关键, 也是本文提出的算法模型的关键所在。策略是:当该关键词大量分布于网页文档中, 才获取要进行相似度计算的目标网页集, 进行相似度计算。在倒排索引数据库中, 记录特征关键词出现的个数, 即包含该关键词的文档个数, 给定一个阈值, 当超过这个阈值时, 才进行后续处理, 阈值可以根据网页库的规模或者Top-N规则给定。

关键词按它在一篇文档中的重要程度, 即权值排序, 以从dnew提取的特征关键词作为条件, 查找倒排索引库, 获取要进行计算的目标网页文档集合, 查询关键词个数和目标网页个数应根据实际情况设定。

依常规理解, 网页在主题内容上的近似性是具有传递性的, 即对于任意三个网页di, dj, dk, 如果di≈dj, 并且dj≈dk, 则有dj≈dk。依此理解, 在计算相似度时, 如果di, dj在同一个簇中, 如果di, dj都被选中进入目标文档集, 则只处理其一, 这样可以降低计算的复杂度代价, 提高处理效率。

通过上述提取策略, 得到与新入库网页最有可能相似的网页集合S{d1, d2, …dj, …, dn}, 但这些网页未必相似。下一步骤, 就是计算这些网页和dnew的近似程度。根据计算结果, 将dnew加入近似镜像网页库中相应的簇, 并更新相关数据。定义算法流程如下:

3 实验分析

实验分析采用小规模测试, 实验中使用三组网页:基准测试集、近似网页集、非近似网页集。基准测试集中的每一个网页满足特定条件的近似网页在近似网页集中, 也存在一个或多个满足特定条件的非近似网页在非近似网页集中。理想情况下, 近似网页集中的网页应该全部被检测出来, 可以通过计算算法对近似网页集和非近似网页集检测的网页个数来评价该算法。

人为地为基准测试集、近似网页集、非近似网页集三个集合选取了网页, 数据来源为热点新闻, 从Google资讯下载的一组网页, 约6 000篇 (其中基准测试集1 000篇, 近似网页集3 000篇, 非近似网页集2 000篇) 。网页内容覆盖财经, 科技, 体育, 娱乐, 社会等领域, 网页来自不同的网站, 目的是为了让实验网页的正文内容覆盖面足够广从而避免模板内容与网页正文内容有特殊关系。

实验过程采用两种相似度处理策略。方法1:对每一篇网页在网页库中进行逐条记录扫描, 以进行相似度比较;方法2:采用基于关键词的相似度模型进行处理。对于前者, 处理对象为网页库中所有网页集合, 后者首先形成待处理网页集, 在该网页集的基础上进行相似度处理。

对于一篇待处理的网页文档判断是否存在近似文章的情况, 取阈值χ=0.8, 分别比较两种方法的实验数据。

从表1可以看出, 当对每一篇网页文档产生Top-10个特征关键词, 本文提出的算法只需用方法1中0.04%数量的网页进行相似度计算, 在处理时间上大大降低。从计算的准确性来看, 正确检测出来的近似网页数占总近似网页数的94%, 与方法1接近, 而错误计算出的网页个数比方法1显著降低。

4 结束语

提出的基于网页特征关键词, 利用倒排索引模型的网页相似度处理算法, 能够根据网页文档的分析结果迅速确定需要进行相似度处理的网页范围, 有效提高处理效率, 减少不必要的相似度计算。这种方法比较适合生命期较短的新闻类网页的相似度处理。对进入系统的网页加时间戳, 只对一段时间 (如一个月) 网页进行处理, 这样会大大缩减网页集。

但是, 如何准确地提取网页的特征关键词和计算特征词的权值以及对相关数据的存储优化和高效的检索是后续要研究的内容。

参考文献

[1] Salton G, Wong A, Yang C S.Avector space model for automatic in-dexing.Information Retrieval and Language Processing, 1975;18 (11) :613—620

[2]张志刚, 陈静, 李晓明.一种HTML网页净化方法.情报学报, 2004;23 (4) :387—393

[3] Lin S-H, Ho J-M.Discovering informative content blocks from Webdocuments.In Proceedings of ACMSIGKDD 02, 2002

[4] Chakraharti S, Joshi M, Tawde V.Enhanced topic distillation usingtext, markup tags, and hyperlinks.ACMSIGIR Conference 2001, 2001

[5] Lee J H, Combining multiple evidence from different properties ofweighting schemes.Proceedings of the 18th Annual ACM-SIGIR, 1995

[6]赫枫龄, 左万利, 张雪松.高性能网页索引器JU_Indexer的实现.吉林大学学报 (理学版) , 2006;44 (01) :50—56

上一篇:企业品牌的经营之道下一篇:稳态控制