比较购物搜索引擎

2024-06-24

比较购物搜索引擎(精选三篇)

比较购物搜索引擎 篇1

一、Heritrix和Sphinx技术特点

1.1 Heritrix工作原理

Heritrix是一款基于java语言开发的开源网络爬虫, 用于对网上的资源进行归档, 建立网络数字图书馆, 目前已经建立了400TB的数据。

Heritrix爬虫每次只对一张网页的内容深度复制, 包括获取图像以及其它非文本内容, 抓取并存储相关的内容。具体筛爬过程中, 爬虫先从队列中取出下一个URL, 通过HTTP协议将对应的网页爬取下来, 然后解析内容, 并且提取出包含的URL, 将其中新发现的URL追加到队列中。最后将网页存放到本地磁盘的网页库中。爬取过程在积累到一定数量网页时即可终止, 或者在队列为空的时候终止。

1.2 Sphinx工作原理

Sphinx是一个基于SQL的全文检索引擎, 本系统所采用的是基于Sphinx研发并独立发布的Coreseek, 是一款专攻中文搜索和信息处理的中文全文检索/搜索软件, 它适用于行业/垂直搜索、论坛/站内搜索、数据库搜索、文档/文献检索、信息检索、数据挖掘等应用场景。Sphinx (Coreseek) 整个系统主要由索引建立和维护程序 (索引程序indexer) 、查询服务程序 (后台服务程序searchd) 、辅助工具程序 (search, spelldump等) 三大部分组成。

二、比较购物搜索引擎系统构建2.1系统架构

系统整体架构由四部分组成:1) 由Heritrix扩展而来的爬虫系统, 负责从互联网抓取商品相关的信息。2) My SQL数据库, 存储由Heritrix抓取的数据。3) Sphinx全文索引服务器, 负责对商品建立全文索引。4) Tomcat服务器, 负责向客户端提供搜索服务。具体系统整体架构图如图1。

在初始化阶段, Heritrix任务需事先通过配置和测试, 确认后可由Linux系统通过Cron来自动调度。根据用户输入的商品信息, 网络爬虫的每个抓取任务只负责单个购物网站数据的抓取, 但每个任务的线程数量可由实际情况进行调整。筛爬启动和结束时间通过Bash脚本来监控, 每隔一定的时间去检测相应的进程是否已经结束, 如果某个抓取任务结束, 则设定好下一次启动的时间间隔。在本文构建的模型中采用My SQL数据库存储筛爬的信息, 但直接从My SQL数据库生成全文索引读取比较费时, 因此采用基于SQL的全文检索引擎Sphinx结合My SQL, 以“主索引+增量索引”的模式, 大部分的搜索都集中在Sphinx全文索引中, 少量数据可能需要直接访问My SQL数据库, 这样可以使应用程序更容易实现专业化的全文检索。具体运行过程中通过Cron设定计划任务, 每隔一定的时间, Sphinx会从My SQL数据库生成增量索引, 然后执行主索引和增量索引的合并, 并且在后台操作过程中, 一直可以向客户提供搜索服务。

2.2数据存储模型的建立

目前各种购物平台和测评网站给出的商品信息异常复杂, 每个网站的页面都有自身特定的格式, 相同商品在不同网站上也不尽相同, 尤其是不同类型的商品在属性上差异极大, 因此, 需要建立统一的数据模型存储数据, 也即通过多张表能够描述各种类型商品的基本属性, 而不需要针对每种商品建立不同的存储表。本设计中构建了商品表、商品别名表、品牌表、信息采集表、信息采集元数据表、商品路径表、网站表、店铺表和商品类别表等一系列数据模型。以商品信息表为例, 如表2-1所示。

instance_id可以是型号、货号、ISBN、ISRC等用来区分商品的编号。大部分商品都会有型号 (instance_id) , 因此只要有相同品牌且型号相同, 就可以肯定是同一种商品。brand_id指向brand, 指品牌如TCL, 也可指出版社或生产厂商。商品的名字需要用Sphinx建立全文索引。

2.3信息提取流程

通过设置起始网站, 然后根据需要提取并更新网页上的商品信息, 在信息提取过程中通过判别程序进行判定, 对已存在商品添加商品别名, 不存在的商品添加商品信息, 最后更新店铺信息。

2.3.1商品信息提取判别

提取产品的信息包括商品名称、市场价、最高价、促销价、促销描述、销量描述、评价、URL、店铺、类别、属性, 其中对ISBN或ISRC、品牌和型号属性要特殊处理, 由于不同商家在添加商品信息时可能会有文字上的差异, 提取时要结合Sphinx建立的全文搜索引擎仔细设计匹配规则。如果商品属性中有ISBN, 则可以肯定是图书, 如果有ISRC字样, 则肯定为唱片。这两种编写都具有全球唯一性, 因此可以设定商品表中的is_unique字段为真, 判断时以此编号为准。

在没有全球唯一编号的情况下, 大部分商品可通过“品牌+型号”的方式来判断是否为同一商品。其中型号可能有别名, 如“货号”等。其余情况, 以商品名字来判断, 由于不同商家会往商品名称里加入很多其他信息, 通过名字来判断同一商品可靠性较低。

2.3.2商品信息更新流程

商品信息更新分为店铺信息更新和类别更新两个部分。店铺更新是在商品添加成功以后来处理的, 一般每个商品都会有默认Context (购物网站) , 个别商品可通过网页找到对应店家, 此时就适用更新店铺流程, 更新店铺最终是为了让此次采集时的上下文环境更加明确, 以便将来对采集数据进行分类处理。类别更新针对部分能从商品信息页面中获取的网站而言, 为可选功能。

三、模型构建实践

本文基于Heritrix和Sphinx技术搭建的购物搜索引擎在实践中把淘宝网、天猫网、卓越亚马逊、当当网作为重点爬取对象, 能实现针对这些主要购物网一般商品的搜索。搜索结果页面如图2所示。商品比较结果页面如图3所示。

四、总结

本系统通过Linux系统的脚本管理技术, 将Heritrix网络爬虫技术、Sphinx的分词和全文索引的功能相结合, 整合成一个能筛爬国内主流大型购物网站的比较购物搜索引擎。本系统还可以进一步进行完善, 如可以对搜索关键字进行按照行为预先分类, 帮助缺少计算机基础的用户搜索互联网内容, 进一步修订商品信息数据存储表, 以更好的兼容越来越多的业务细分类型购物网站, 这些都是下一步的发展方向。

摘要:本文提出采用Heritrix和Sphinx技术搭建购物搜索引擎, 将国内大型B2C网站作为爬取信息来源, 运用聚焦爬虫技术将目标定为抓取与用户某一特定体验主题内容相关的网页搜索引擎模型的探索与研究。

关键词:比较购物,搜索引擎,Heritrix

参考文献

[1]Stefan Büttcher, Charles L.A.Clarke, Gordon V.Cormack.信息检索:实现和评价搜索引擎[M].北京:机械工业出版社, 2012.1.

[2]Heritrix User Guide.Heritrix User Guide.Internet Archive.

[3]蒋群.中国比较购物网站的调查分析和发展建议[J].北京邮电大学学报 (社会科学版) , 2007, (1)

购物网站有玄机—导航搜索篇 篇2

Dr. S,喜欢研究各种商家策略,精通公司和品牌吸引顾客的各种门道。他非常乐意带你去揭开生活中的商业秘密,然后为你提供建议,有时还会发你些信息bonus。所以,如果你有疑惑,尽管给他发邮件吧—dr.secret@yicai.com。

一切购物网站的设计都是为了“不要让消费者产生思考”。就好比商场会把购物环境做得舒适一些来提高消费者的购物体验,购物网站也像一个热心的导购员,总想促成更多的消费。

为什么亚马逊的网站首页总是个性推荐呢?

也许因为亚马逊更体贴客户。亚马逊首页会根据你的浏览记录、心愿单、最近的下单记录进行推荐。这些内容占据了首页最主要的部分。相比之下,国内的网站沿用了传统线下商店的营销模式(还唯恐促销信息不够显眼!),打开当当的网页全部是浮出式样的促销信息。之所以不一样,好吧,是公司的策略问题。一个更关注有备而来的购物者,一个希望吸引那些想要购物但是目的并不明确的购物者。而亚马逊更像一个熟悉你的店员。《生活大爆炸》里,Sheldon对着漫画店的老板说,“这些我其实网上都能买到,但是我更看中‘个性化服务’。”亚马逊把互联网忽视掉的“亲切感”带上来,这能提高顾客的重复购买率,也降低了商家的推广成本。

知道多一点:B2C平台的重复购买率中Vancl(凡客诚品)是40%,电子商务企业平均水平是50%,而亚马逊则高达80%。重复购买率与亚马逊的推荐机制有关。亚马逊并非不做促销,其主要的活动内容都在各个分类下,比如点开图书分类的子分类,就会出现相关的图书促销信息。对于那些本来就想买书的人,这个促销信息无疑是推了他们一把。

为什么商家那么喜欢标签导航?

标签是极少数的将物理隐喻有效应用到用户界面中的例子之一。和三孔活页夹或文件柜档案夹上的标签一样,他们把原来的物体分成了不同的部分,而且打开一个不同的部分很容易,通过突出它的标签就可以翻到对应的位置了。标签导航如此简单醒目,它创造出一种错觉—你看的那个页面在物理上出现在最前面,会让你有一种强烈的感觉:网站分成了不同的实体区域,而你置身于其中的一个。

知道多一点:为什么物理感觉如此重要?虽然在互联网上浏览和在实体店里购物差别不大。但是因为缺少了空间感,你会感觉不到大小,找不到方向。一切让你产生物理感觉的设计都容易让人产生好感。

那为什么亚马逊却几乎放弃了标签式导航?

亚马逊的导航在经过数次变迁之后被从顶部挪到了左侧,从横向导航变成了纵向导航。花瓣网(相当于国内版本的“Pinterest”,Pinterest是一个基于视觉图片分享的社交型目录网站)的产品经理王默契说,“这种导航折叠的方式要比之前能显示出更多的二级目录,减少用户的寻找成本。因为商品种类太丰富,靠标签导航来呈现分类已经不够用了。”同时,这个设计降低了原先主导航栏的高度,突出了搜索框的位置。但是更主要的原因可能来自于点击率。

知道多一点:网站的点击率决定一切。在新设计应用之前,各家网站都会进行测试,最后的结果表明,消费者确实还是更喜欢左侧的折叠式导航。这也正是亚马逊改变的原因。

为什么有些网站没有面包屑导航?

先来扫一下盲,“面包屑导航”(Bread crumb Navigation)中的面包屑来自于童话故事中的汉赛尔和格莱特,他们依靠沿途撒下的面包屑找到了回家的路。所以,面包屑导航的作用是告诉访问者他们目前在网站中的位置以及如何返回。类似于“当当网 > 图书 > 小说 > 侦探/悬疑/推理 > 商品详情”。但这种“位置型”的面包屑不适用于内容过于丰富、单个分类无法完整描述单元内容的网站。如果网站信息内容属性不明确,大部分信息同时属于多个类别,面包屑就会变成一个涉及到复杂判断的问题。

知道多一点:面包屑导航增加了网站内部链接,方便搜索引擎抓取,有效的提高了网站收录数量。变相提高了网站内部关键词链接的数量,提高该栏目关键词的排名。

为什么购物网站的搜索框都喜欢放在中间?

30%的购物者进入电子商务网站后会立刻使用搜索框,超过30%的人通过导航没有找到需要的物品后转而使用搜索框。在现实购物环境中,你寻找的商品可能是一件大衣。在网上,这个目标就变成一顶搭配大衣的帽子。但区别是,在网站上没有一个真人会站在那里告诉你东西在哪里,所以它们有一种服务叫做搜索。如果来访的购物者清楚的知道想要什么,他们会很第一时间使用搜索框。为了易用性,以及不让消费者思考,而是迅速把购买意图转变为真实的购买行为,大多数网站都把搜索框放在首页正中明显的位置。淘宝甚至在你点入首页的时候,将光标也停在搜索框内—你不用移动鼠标,就能进行搜索了。

知道多一点:为什么有些购物网站的搜索框那么长?那些查找具体电视机型号或者笔记本电脑型号的用户会倾向于使用较长的搜索请求。不然用户输入了长搜索请求,就无法看到全部文本。同时用户也会更容易修改搜索内容中的拼写错误。

为什么购物网站那么热衷排行榜?

事实是,人们就是喜欢排行榜,即使是那些认为自己与众不同的人,在购书之前也会上网看一下评价。为了规避购物中的不确定因素,我们常常会参考别人的购物体验。当某件东西很畅销或占据市场统治地位时,我们会本能地认为它是一个正确的选择。虽然我们都知道,“最受欢迎”并不一定是“最好的”。这也是为什么我们倾向于在淘宝选择有人评价的产品。

知道多一点:和热衷看别人的评价不同,虽然各大购物网站差不多都有4个分享按钮,但是使用的人却非常少。相比之下,人们更愿意分享打折促销信息,而并非是“我买了一个奢侈品包包”。除了害怕留下一种“我是笨蛋消费者”的印象,没有一个消费者愿意将自己的私人空间变成一个“楼宇广告牌”。

搜索分类要有多详细才能促进消费?

答案是没有。顾客只要登录亚马逊网站的主页,就可以任意检索、预览、购买任何书籍。你只要键入书名、作者姓名,甚至笼统的标题,亚马逊网站就会把资料库中符合条件的书籍全部列出。消费者不喜欢强迫他们思考的地方。如果在搜索一本书前,要考虑怎么搜索,键入书名,作者还是笼统的标题,这会让消费者却步。在网上,竞争就是一个点击的区别。

比较购物搜索引擎 篇3

随着新年的临近, 新一季的购物狂潮随之而来, 为吸引消费者更多的眼球, 商家们纷纷投入大量线下或线上广告。据国外媒体称, 为争夺广告资源, 亚马逊和谷歌早已吹响了今年圣诞大战的前哨。国内, 淘宝旗下新推出的购物搜索网站一淘, 最近也正为信息抓取事件与其它电子商务企业闹得沸沸扬扬。

第三方搜索平台的公立性

据悉, 早在2008年, 亚马逊就推出了专门针对进驻其网站的商品零售公司的广告服务, 并逐渐完善成一套完整的购物搜索引擎体系, 特别是它的一项名为Prime的服务, 使得消费者只需缴纳79美元的年费, 就可以获得一年的免费快递服务以及享受免费在线观赏电影等一系列优惠, 从而使得消费者在计划网购时通常选择亚马逊而非谷歌进行搜索。这些服务的推出使得亚马逊在最近几年广告收入大幅增长, 并对谷歌的市场造成了冲击。

而类似的淘宝网旗下的一淘网, 尽管推出后就一再声称自己是独立的购物搜索引擎, 以期更多的用户通过其门户进入不同的电商网站进行交易, 但不可否认其背后的淘宝网为其最大的依仗。因此, 前不久, 京东、苏宁易购纷纷对一淘网的信息抓取进行了屏蔽。究其原因, 一方面, 不外乎是一淘网身后的淘宝背景, 使其“既当裁判员又是运动员”, 让这些电商网站对其公正性产生了怀疑;另一方面, 则是一淘网对于商品的筛选还是简单的以价格为主, 而其它关于品质方面的筛选, 由于其信息获取地的评价标准不一样, 难以有一个规范的比较, 更无法估量其线下的服务。因此, 对于在价格优势上并不占据优势的京东、苏宁等来说, 自然是要强力抵制的。

尽管后来, 国美加入战局, 声称要加强与一淘网的合作, 让其旗下的国美网上商城和库巴网与一淘网的“一账通”体系实现无碍对接, 但此合作若没有一个让双方满意的模式也恐难长久。

盈利模式多样性

其实, 购物搜索也是垂直搜索的一种, 对此, 来自爱立信商业咨询的咨询师表示:“新一轮的垂直搜索热潮正来临, 与几年前夭折的垂直搜索热潮不同, 此次垂直搜索更关注电子商务方向, 盈利模式也更加多样化。”

据了解, 在2006-2007年, 中国的搜索市场曾涌现出一批关注垂直搜索的企业, 但由于其盈利模式同通用搜索一样, 主要为广告和流量收入, 结果很难具备竞争性, 大部分企业最后都陆续夭折。而此次兴起的垂直搜索企业在专注细分领域的基础上, 更是采取了灵活的盈利方式, 比如大众点评网。

据悉, 自2008年开始实现盈利后, 大众点评网的总收入以每年超过200%的速度增长, 2010年为2亿元人民币, 据其CFO叶树蕻透露, 今年预计为1.5亿美元。不同于一般的价格比较, 大众点评网成功的关键之一就是不再以单纯的价格等产品因素为排名要素, 而是关注用户体验, 通过技术手段过滤出真实有效的用户评价, 将虚拟的口碑量化, 达到宣传的目的。同时, 不同于通用搜索通过流量、关键词和广告获取收入, 大众点评网的收入主要是通过与商家的佣金模式获得。

亚马逊的成功也同样不是依靠传统的点击流量, 虽然广告也是其重要的收入来源, 但还有佣金等多样化的收入。同时, 亚马逊将线上丰富的产品优势和线下完善的物流、计费等配套体系相结合, 不仅使其获得了消费者的认可, 也为小型商家提供了便捷平台。线上搜索交易加线下服务配送, 使得购物搜索已不仅是一种单纯的线上活动。

因此, 为迎接今年的圣诞购物季, 谷歌不仅正式宣布对其产品搜索功能进行升级, 对其比较购物工具Product Search进行调整和升级, 推出了“最佳匹配” (Best match) 和“热门产品” (Popular products) 两项功能, 以期为消费者提供更全面、更直观的购物体验, 还积极同一些线下连锁百货公司和零售商等合作, 欲将线下的零售服务与其线上搜索相结合。

国内购物搜索短期影响有限

“从长远看, 细分购物搜索能更精准地把握消费者的购物倾向, 这些是通用搜索没法比拟的, 但是由于搜索行业的高门槛, 要求必须具备一定的资源优势, 目前新国内创业者很难进入。”和君咨询许宁表示。

因此, 尽管Google已将亚马逊视为其搜索领域的竞争强敌, 正计划将线上搜索扩展至线下服务, 整合一款能将现有的产品搜索功能和快递服务为一体的服务, 使消费者可以很容易查看商店是否有某种商品的存货, 了解自己是否可以在一天内收到购买的商品, 以对抗亚马逊的Prime服务带来的广告流失。

不过, “从国内发展看, 目前垂直搜索在中国仅处于起步阶段, 用户的使用习惯尚未建立。从商业模式来看, 购物搜索和通用搜索的收入方式不太相同, 客户重合度也很低, 垂直搜索的客户是电子商务网站或者各类商户, 这部分客户仅占通用搜索客户的一小部分。因此, 垂直搜索目前并不会从根本上影响通用搜索的客户, 只可能会通过影响通用搜索的流量来一定程度上影响通用搜索的收入。”艾瑞咨询分析师陈泓宇表示。

上一篇:环境品质下一篇:绿色生态家园