深层网网络爬虫表单检测器设计

2022-09-12

深层网是一个与表层网相对应的概念, 意指那些不能被普通搜索引擎访问的内容。根据BrightPlanet公司的技术白皮书显示[1], 深层网包含的可访问信息量是目前我们熟知的表层网的400-550倍;深层网中包含有高质量的信息。Kevin CC等在文献[2]中指出, 截止到2004年4月深层网网站数量已经超过了45万个。因此, 研究深层网网络爬虫对于提高搜索引擎的页面覆盖率和查全率有着非常重要的意义。

1 关键问题分析

网络爬虫[3] (Web Crawler) 是一个能自动提取网页的程序, 主要功能是自动采集被需求的页面。表层网网络爬虫从若干初始网页的URL开始, 依靠页面间的超链接发现新页面。深层网网络爬虫要比表层网的更复杂些, 由于深层网资源隐藏在各种搜索表单后面, 必须使用搜索表单才能看到。因此, 如何发现、填充并提交表单是深层网网络爬虫要解决的关键问题。当爬虫解析出页面的URL后, 还要分析该页面是否包含表单, 若有包含, 则继续分析该表单是否为深层网的搜索表单。因为并不是所有的表单都是搜索表单, 如用户登录、用户注册等表单都不是深层网网络爬虫所要关心的。本文仅讨论如何发现并检测搜索表单问题。

2 表单检测器

表单检测器用于发现表单并检测出可搜索表单, 主要包括页面解析和表单过滤两个模块。

2.1 页面解析

页面解析模块解析网页内容, 主要是提取链接和表单。

Chang等做过研究统计[2], 在30700个深层网站点中, 平均每个站点只有4.2个搜索表单, 要在分布如此稀疏的网站里找出深层网搜索表单, 就犹如大海捞针一样的艰难和低效。

通过对大量网页的观察我们可以发现, 为方便用户浏览并快速定位目标页面, 页面设计者通常会给出一些既明确又简洁的提示信息, 比如一些指向搜索页面的超链接通常会有类似“搜索”、“高级搜索”、“点击这里搜索”等字样的文字作为锚文本, 而在链接中也通常会有search、finder、seek等文字出现, 因此, 可以通过分析超链接、锚文本、锚文本前后的文字, 为下一个要优先抓取的页面提供依据。

页面解析的另一个任务就是要分离出含有表单的页面。HTML文档可以表示成一棵DOM树, 表单是HTML文档中置于

标记之间的内容, 所以, 表单提取实际上就是提取DOM树中以form为根节点的一棵子树。

2.2 表单过滤

经页面解析模块处理后的表单, 仍然包含有不可搜索表单, 首先要将它们过滤。

判断一个表单是否为可搜索表单, 可以用一些启发式规则, 判断的依据是表单控件的类型和数量。在常见表单控件中, 有些控件只在编辑状态时可见, 而在表单运行时不可见, 如隐藏域、标签, 表单自身在运行时也是不可见的。密码框主要为了验证用户信息而使用, 需要输入相应的密码才行, 但网上95%的深层网资源是免费搜索的, 所以不考虑需要登录的深层网资源。

对于表单控件数量, 主要考虑可见的表单控件数, 例如, 有些表单仅仅包含隐藏域和提交按钮, 这样的表单不具备搜索功能, 不需要考虑。有些表单没有类似于提交功能的按钮, 目前暂时不考虑这些表单。

总结以上分析, 给出以下启发式规则: (1) 若表单中含有password类型的控件, 则放弃该表单; (2) 若表单中含有name=email的类型为text的控件, 则放弃该表单; (3) 若表单中含有file类型的控件, 则放弃该表单; (4) 若表单为已知搜索引擎的入口, 则放弃该表单; (5) 若表单没有可见控件或只含有提交按钮这样的可见控件, 则放弃该表单; (6) 若表单中没有类似于提交按钮功能的控件, 则放弃该表单; (7) 若该表单已经分析过, 则放弃该表单。

经过以上启发式规则筛选后留下来的表单, 我们称其为可搜索表单。