深层网网络爬虫表单检测器设计

2022-09-12

深层网是一个与表层网相对应的概念, 意指那些不能被普通搜索引擎访问的内容。根据BrightPlanet公司的技术白皮书显示[1], 深层网包含的可访问信息量是目前我们熟知的表层网的400-550倍;深层网中包含有高质量的信息。Kevin CC等在文献[2]中指出, 截止到2004年4月深层网网站数量已经超过了45万个。因此, 研究深层网网络爬虫对于提高搜索引擎的页面覆盖率和查全率有着非常重要的意义。

1 关键问题分析

网络爬虫[3] (Web Crawler) 是一个能自动提取网页的程序, 主要功能是自动采集被需求的页面。表层网网络爬虫从若干初始网页的URL开始, 依靠页面间的超链接发现新页面。深层网网络爬虫要比表层网的更复杂些, 由于深层网资源隐藏在各种搜索表单后面, 必须使用搜索表单才能看到。因此, 如何发现、填充并提交表单是深层网网络爬虫要解决的关键问题。当爬虫解析出页面的URL后, 还要分析该页面是否包含表单, 若有包含, 则继续分析该表单是否为深层网的搜索表单。因为并不是所有的表单都是搜索表单, 如用户登录、用户注册等表单都不是深层网网络爬虫所要关心的。本文仅讨论如何发现并检测搜索表单问题。

2 表单检测器

表单检测器用于发现表单并检测出可搜索表单, 主要包括页面解析和表单过滤两个模块。

2.1 页面解析

页面解析模块解析网页内容, 主要是提取链接和表单。

Chang等做过研究统计[2], 在30700个深层网站点中, 平均每个站点只有4.2个搜索表单, 要在分布如此稀疏的网站里找出深层网搜索表单, 就犹如大海捞针一样的艰难和低效。

通过对大量网页的观察我们可以发现, 为方便用户浏览并快速定位目标页面, 页面设计者通常会给出一些既明确又简洁的提示信息, 比如一些指向搜索页面的超链接通常会有类似“搜索”、“高级搜索”、“点击这里搜索”等字样的文字作为锚文本, 而在链接中也通常会有search、finder、seek等文字出现, 因此, 可以通过分析超链接、锚文本、锚文本前后的文字, 为下一个要优先抓取的页面提供依据。

页面解析的另一个任务就是要分离出含有表单的页面。HTML文档可以表示成一棵DOM树, 表单是HTML文档中置于

标记之间的内容, 所以, 表单提取实际上就是提取DOM树中以form为根节点的一棵子树。

 

2.2 表单过滤

经页面解析模块处理后的表单, 仍然包含有不可搜索表单, 首先要将它们过滤。

判断一个表单是否为可搜索表单, 可以用一些启发式规则, 判断的依据是表单控件的类型和数量。在常见表单控件中, 有些控件只在编辑状态时可见, 而在表单运行时不可见, 如隐藏域、标签, 表单自身在运行时也是不可见的。密码框主要为了验证用户信息而使用, 需要输入相应的密码才行, 但网上95%的深层网资源是免费搜索的, 所以不考虑需要登录的深层网资源。

对于表单控件数量, 主要考虑可见的表单控件数, 例如, 有些表单仅仅包含隐藏域和提交按钮, 这样的表单不具备搜索功能, 不需要考虑。有些表单没有类似于提交功能的按钮, 目前暂时不考虑这些表单。

总结以上分析, 给出以下启发式规则: (1) 若表单中含有password类型的控件, 则放弃该表单; (2) 若表单中含有name=email的类型为text的控件, 则放弃该表单; (3) 若表单中含有file类型的控件, 则放弃该表单; (4) 若表单为已知搜索引擎的入口, 则放弃该表单; (5) 若表单没有可见控件或只含有提交按钮这样的可见控件, 则放弃该表单; (6) 若表单中没有类似于提交按钮功能的控件, 则放弃该表单; (7) 若该表单已经分析过, 则放弃该表单。

经过以上启发式规则筛选后留下来的表单, 我们称其为可搜索表单。

3 实验结果及分析

本文任选18个网页作为初始种子集, 采用宽度优先搜索算法, 记录遇到的可搜索表单集, 实验结果如表1所示。从该表可以看出, 在这些网站中有大量的页面包含表单, 但是有98.4% (6703/6814) 的表单是登录等不可搜索表单, 可搜索表单仅占1.6%, 分布非常稀疏。

4 结语

随着Deep Web的快速增长, 面向深层网网络爬虫技术将会逐渐发展并趋向成熟。本文设计了一个表单检测器, 并用实际数据验证其有效性。

摘要:传统网络爬虫只处理页面中的超链接, 而忽略了大量有价值的深层网搜索表单。本文设计了一个表单检测器用于检测搜索表单, 介绍了其功能模块及具体实现, 最后用实验验证该检测器的有效性。

关键词:深层网,网络爬虫,搜索表单,表单检测器

参考文献

[1] Bergman, Michael K., WHITE PAPER:The Deep Web:Surfacing Hidden Value, Journal of Electronic Publishing7 (1) , University of Michigan, August2001.

[2] Chang KCC, He B, Li CK et al.Structured Database on the Web:Ob-servations and Implications.SIGMOD Rec., 2004.

[3] Ester M, Kriegel HP, Schubert M.Ac-curate and Efficient Crawling for Rel-evant Websites.Proc.of the30th VLDB Conf., 2004.

上一篇:基于现代学徒制下水产药物课程教学改革与实践下一篇:纳洛酮治疗新生儿缺氧缺血性脑病的观察研究