舆情监测系统

2024-07-28

舆情监测系统（精选十篇）

舆情监测系统篇1

1.1信息采集及时

及时性包括两个方面采集性的及时性与信息分析的及时性。首先在海量的网站中根据影响力的排名, 选取有限的主流权威站点做为首要信息采集源, 提升效率保证信息采集的及时性。

1.2数据研判高效

舆情情报的高效性往往被人忽视。现有舆情系统收集到的各种文章90%以上的信息是与用户无关的, 大量是重复冗余的, 据说美国911发生之前已经接到了预警情报, 但是没有有效地过滤出来, 淹没在各类情报资料当中, 解读的代价太高, 最终事发后才发现情报就在情报官的办公桌上。

现有的舆情监测系统往往缺乏有效机制快速筛选并保存有价值信息, 要求网络舆情监测系统必须提供人工智能的方式学习各种情报样本, 将有潜在价值的情报从海量信息库中挖掘过滤出来, 从而提高研判的效率。

1.3范围覆盖全面

舆情信息的采集要具备全面性其中包括信息的来源与信息的内容;信息来源的全面性:是指采集时需要, 采集到绝大多数舆情信息的集散地。主流且权威的微博、新闻门户、BBS、评论等必须包含其中, 比如天涯、新浪等。内容的全面性是采集时要把舆情主体内容全面采集到位。如有分段的信息, 转载的信息和评论信息等。

1.4热点分析精准

舆情信息往往包容万象, 是非难辨, 因此要求采集内容的参数较多。如:信息的标题、正文、评论、发布者、发布时间、浏览量和转载量等。并利用科学合理的热点分析模型和预警模型, 准确地进行热点分析和舆情预警。

2系统体系结构设计

2.1网络舆情监测系统总体可分为5个层次:舆情集散地、舆情的采集、舆情信息的预处理、信息分析挖掘、舆情处理。这5个层次关系, 如图1所示。

(1) 对舆情信息集散地的选择至关重要, 准确地确认舆情信息的来源, 才能提升舆情采集的全面性。网络舆情的主要载体是微博、BBS、博客、以及具有评论功能的新闻门户, 以上几种载体就是网络舆情的主要发源地。

(2) 舆情信息的采集主要是网页信息采集, 通过分析网页的结构对网页上面的主要信息进行采集。从网页上自动获取舆情信息, 并且跟踪转载不断向整个舆情事件扩展的过程。当前, 根据主要的网页信息采集可以分为两种:一是基于主题关键词的网页信息采集、二是基于网页元搜索的信息采集。

(3) 舆情信息预处理是对从网页上采集的舆情信息进行初步的过滤和加工, 为后续的舆情信息分析挖掘工作打下基础。主要有基于多文档的自动摘要、关键词提取、话题去重、信息过滤等核心技术。

(4) 信息分析挖掘是对预处理后的数据进行更科学的分类、聚类、倾向性分析等工作。其中分类包括根据舆情信息热点话题模型确定舆情级别。通过倾向性分析确定舆情导向。

(5) 舆情的处理包括突发舆情预警、舆情追踪、舆情引导和生成舆情报告, 首先根据分析得到的相关数据, 根据相关预警模型, 实施预警和追踪, 然后向决策者汇报, 并追踪引导处理过程。

2.2网络舆情监测系统总体结构, 主要由舆情主题规划、舆情信息采集 (预处理) 、舆情信息分析、舆情预警处理4个部分组成。如图2所示。

(1) 舆情主题规划是指舆情监督部门根据自己的舆情需求选择合适的舆情主题词及其对应的种子URL集合, 确定舆情信息采集任务。

(2) 舆情信息采集主要是Web信息采集, 通过Web页面之间的链接关系, 从Web上自动获取舆情页面信息, 并且随着链接不断向整个Web扩展的过程。同时, 进行舆情信息预处理, 主要是对采集到的相关舆情信息网页进行初步的加工和处理, 为后继的舆情信息分析奠定基础。

(3) 网络舆情信息分析是指对从网络中所采集到的新闻、评论等信息素材, 进行热点挖掘和预警分析等操作, 涉及到文本聚类、话题合并、热点分析模型和预警模型构建等。

(4) 舆情预警处理包括舆情信息预警、舆情报告和舆情引导, 首先根据分析统计得到的相关舆情信息, 根据相关网络舆情预警指标, 实施报警和预测, 然后向相关部门汇报经过总结的有规律的舆情, 从而为舆情工作者的决策提供服务。

摘要：网络舆情监测系统实时定向采集主流权威有影响力的微博、新闻、论坛、博客等网站信息, 抽取舆情要素, 发现舆情热点, 挖掘舆情敏感话题, 及时预警, 追踪发展情况, 并研判舆情态势。本文就此进行简要论述。

网络舆情监测系统篇2

功能和服务

舆情监测系统的数据是经过清洗、过滤、抽取、分析和挖掘的，舆情监测系统的主要功能并不只是提供简单的舆情信息搜索，而是具有全网搜索、定向监测、自动发现，自动预警，趋势分析，自动分类等功能，具有丰富的统计结果。

而互联网搜索引擎只能提供相关的搜索服务，要靠人工主动去搜索，搜索结果出于商业利益的驱动，掺杂很多的不合理的因素，准确性、可用性不强。全面性和及时性方面完全不能满足舆情监控的需要。

采集范围和深度

舆情监测系统所采集的信息范围主要是定向的，是用户关注的特定区域、特定领域的网站，针对这些网站可以做到全面采集和精准采集。虽然baidu/google等互联网搜索虽然采集范围广泛，但是针对具体的舆情载体，采集深度不够，采集不全面。

目前搜索引擎的数据采集采用的是广度优先策略，会根据url地址进行重复采集的控制。对于论坛、贴吧等舆情载体不会按照主贴、跟帖、翻页的方式进行精确采集，采集深度满足不了舆情监控应用的需要。

西盈网络信息雷达系统专门针对西盈网络舆情监测（监控）系统和西盈竞争情报系统开发而成的，深度挖掘技术超越了google等以智能化和广度见长的搜索引擎爬虫系统。

更新速度

舆情监测系统用户可以自己设置采集的更新频率，对于舆情高发的载体网站可以做到分钟级的更新，这一点互联网搜索引擎是无法达到的。互联网搜索引擎的采集周期一般都是数天或者数周，甚至会出现漏采，无法采集的情况。

采集的网站种类

舆情监测系统可以做到对新闻，论坛，博客，贴吧等舆情载体的全面采集，尤其是针对论坛（包括跟帖），贴吧等这些“草根”网站（这些媒体往往是舆情高发区域），实现全面、迅速的舆情采集的同时，可以实时更新信息的点击数，回复数，转载数等等。而互联网搜索引擎大多是采集新闻网站，而对于论坛，贴吧、博客等等往往无能为力，更无法提供舆情分析需要的统计数据。采集数据的有效性

互联网搜索引擎所采集的数据，往往是没有经过过滤的，甚至充斥着大量的广告等垃圾信息。这些信息往往可以作为舆情的并不多。而舆情监测系统所采集的数据全部都是有效的，和用户相关的，真正称之为舆情的数据。

舆情信息储存和利用

舆情监测系统的信息是储存在用户本地的，可以进行归档，分析利用以及作为应用系统的数据来源，但是针对互联网搜索引擎中的数据，用户没有任何干预的手段，只能通过其固定的检索服务进行访问。

网络舆情监测制度初探篇3

[关键词] 社会舆情；网络舆情；舆情监测制度

【中图分类号】 TP393 【文献标识码】 A 【文章编号】 1007-4244（2013）12-015-1

一、舆情对司法的影响

首先，通过下面一组案例了解社会舆论，尤其是社会舆情对司法的影响：

（一）泸州二奶继承案：2001年，黄某立遗嘱将财产遗留给情人张学英，并进行了公证。黄去世后，其妻拒绝将其遗产交付张。张遂提起诉讼，引起许多媒体的关注，更引发了法律界的争论，网络上舆论纷纷，给审判机关带来了很大压力。法院判定遗嘱无效。二审维持原判。

（二）李思怡案：2003年6月4日，长年吸毒的成都妇女李桂芳因偷盗被抓，后被送去强制戒毒。李桂芳被抓后，曾多次极力哀求抓她的人去救出被关在屋里的无人陪伴的女儿李思怡，但都遭到拒绝，最后只是简单的通过电话进行联系，在戒毒所里求助时同样没有给予答复，其家人及邻居也都未接到通知，导致其3岁幼女李思怡被困家中活活饿死，直到6月21日才被发现。四川媒体记者在网络发文，立即引起广泛关注。人民法院公开审理此案，涉案民警被以涉嫌玩忽职守罪提起公诉。8月19日，成都市新都区法院对原金堂县公安局城郊派出所副所长王新和民警黄小兵公开宣判，以玩忽职守罪分别判处王新和黄小兵有期徒刑三年和两年。

（三）河南“喝水门”案：2010年2月18日，河南省鲁山县一名叫王亚辉的男青年因涉嫌盗窃罪，被公安机关带走，3天后其亲属被告知，王亚辉已在看守所内死亡。亲属查看尸体后，发现死者身上有多处伤痕。对此，当地警方解释，犯罪嫌疑人是在提审时喝开水突然发病死亡。当地警方“喝开水死亡”的说法一经报道，立刻引起广泛关注，“喝开水”一词迅速成为网络热词。同时，不少网友也发出检察机关能否查明事件真相、能否依法公正处理的质疑。河南省检察院监测到鲁山县“喝水门”事件的舆情信息后，指示平顶山市检察院介入，迅速查明了4名公安人员的刑讯逼供行为，4名涉案人员被依法批准逮捕。至此，这起网络舆论事件才渐渐平息。

以上几个案例，都可以看出社会舆论监督特别是网络舆情对案件审判产生影响，包括积极影响（李思怡案），也包括消极影响（泸州遗产案）；同时值得注意的是，司法机关的舆情监测与相应的举措也对案件结果起到重要影响。那么，到底什么是网络舆情、舆情监测，后者对前者有什么影响，又应该怎么去完善，笔者将在本文提出一些个人想法。

二、网络舆情概述

（一）网络舆情的概念。天津社会科学院舆情研究所王来华研究员在国内最早对舆情进行系统性定义，其研究认为“舆情是指在一定的社会空间内，围绕中介性社会事项的发生、发展和变化，作为主体的民众对作为客体的国家管理者产生和持有的社会政治态度。”网络舆情是由于各种事件的刺激而产生的通过互联网传播的人们对于该事件的所有认知、态度、情感和行为倾向的集合。

（二）网络舆情的特点。网络舆情形成迅速，对社会影响巨大。网络的开放性和虚拟性，决定了网络舆情具有以下特点：1、直接性，通过BBS，新闻点评和博客网站，网民可以立即发表意见，下情直接上达，民意表达更加畅通；2、突发性，网络舆论的形成往往非常迅速，一个热点事件的存在加上一种情绪化的意见，就可以成为点燃一片舆论的导火索；3、偏差性，由于发言者身份隐蔽，并且缺少规则限制和有效监督，网络自然成为一些网民发泄情绪的空间。

三、舆情监测制度概述

（一）舆情监测制度的概念。舆情监测，是通过对互联网传播的公众对现实生活中某些热点、焦点问题所持的有较强影响力、倾向性的言论和观点的一种监视和预测行为。

（二）舆情监测制度建立保障。网络舆情监测体系的建立主要依靠两方面保障：一是人力、资金等物质方面的保障，二是计算机软件系统等技术方面的保障。随着互联网技术的不断更新，网络舆情监测和舆情分析有必要通过与之相匹配的科技手段来进行。

四、舆情监测制度建议

（一）加强对各类网络论坛，尤其是市县级论坛的舆情监测。加强地方网络舆情监测，应建立以当地新闻媒体和网络论坛为先锋、以政府和事业单位为后盾、以同级司法网站为互访对象的舆情监测网，搭建夯实的技术平台，对网络不良信息严格管理和控制。

（二）加强全国性、主流论坛和主流网络媒体的议程设置引导。全国性、主流论坛往往是舆情热点事件的“孵化器”，同样值得我们高度重视。这类主流论坛和网络媒体通常具有较强的组织性和影响力，可以与传统新闻媒体一样通过“议题设置”把网民的注意力和社会关心引导到特定的方向。

（三）加快司法部门对涉法网络舆情的应变速度。畅通网络与司法部门的舆情沟通渠道，确保司法部门能在网络舆情事件发生后的最短时间内作出正确决策。司法部门应拓展自己的网络传播阵地，创办好法院网站，对题材敏感、社会关注度高的案件在充分策划后及时公布结果。这是平衡网络舆情与司法审判关系的根本途径。

参考文献：

[1]人民网舆情监测室.网络舆情热点面对面[M].北京：新华出版社，2012.

[2]人民网舆情监测室.如何应对网络舆情——网络舆情分析师手册[M].北京：新华出版社，2011.

[3]杨兴坤.网络舆情研判与应对[M].北京：中国传媒大学出版社，2013.

[4]唐钧.应急管理与危机公关：突发事件处置、媒体舆情应对和信任危机管理[M].北京：中国人民大学出版社，2012.

电力行业舆情监测系统的设计与实现篇4

关键词：电力行业,网络舆情监测,Web挖掘技术,搜索引擎技术,互联网公共危机

1 引言

在互联网高速发展和广泛应用的今天,网络新闻媒体已成为人们关注的一个重要平台。在反映事实和引导舆论方面,网络与传统新闻媒体有同样的功能,但是具有不同的特点。通过互联网,任何人都可以在微博、论坛、留言版或者自建站点上发布言论和观点,却往往不考虑发布言论的真实性以及带来的社会影响。

电力行业舆情监测系统的建立健全将有效地增强电力行业舆情信息监控能力,帮助电力部门及时处理面临的问题,从而有效提升电力企业的社会品牌、知名度和企业服务质量。舆情系统还将帮助电力企业良好形象,维护地方持续稳定,提高安全生产和员工工作效率,了解用户需求和体验。

2 系统设计

2.1 系统总体设计

2.1.1 系统功能设计

一个完整的电力行业舆情监测系统,主要包括以下三个部分,即舆情信息采集系统、舆情信息分析系统和舆情服务系统。

2.1.2 系统架构

系统采用B/S架构模式,只需要联网的浏览器,就能实现随时随地访问系统。

2.1.3 系统技术框架

系统采用J2EE的架构进行开发,采用成熟的基于MVC的Struts架构。Web Server接受客户的访问/交易请求,并建立起安全通道之后,根据不同的业务请求,由专门的Action Servlet进行处理,该Servlet会根据不同的请求调用相应EJB或Javabean对数据库进行访问,并调用组件处理相应的系统流程,最后根据配置文件定义的结果显示页面,将系统处理结果传输到用户端,从而实现了对系统请求的处理。

2.2 舆情采集系统设计

采集子系统主要包括两大模块,即全网采集和定向网站采集。两种采集模式既保证了风险信息采集的深度广度又保证了风险信息采集的及时性。风险采集系统每秒钟可实现100条数据挖掘和采集,并实现了24小时不间断无人值守的信息采集,具备自我恢复启动功能,通过向导式配置界面,可以快速添加网站采集规则,具备网页智能抽取功能,自动从复杂的网页内容中通过统计算法,智能抽取出标题、正文、日期、来源和作者等元数据属性。

2.3 舆情分析系统设计

分析引擎是本系统的关键组成部分。其主要作用是对采集系统采集的数据,自动进行智能分析。分析引擎的主要功能包括:自定分析舆情监测信息级别、自动生成热点、负面研判、自动分类、自动生成专题、转载计算、自动抽取要素和关键词、自动摘要、自动预警、自动生成统计图表等功能。

舆情分析系统可实现每10秒200条以上的分析效率,在不考虑网络拥堵的情况下,最高可实现每10秒500条数据的分析,完全满足庞大采集信息的及时分析,为信息的及时筛选提供了保证。经统计,舆情分析系统的无效信息过滤率为99.5%以上。

2.4 舆情服务系统设计

风险监控应用服务系统可风险事件监测、风险预警、风险追踪、风险分类管理、风险统计分析、定制专题报告、生成简报等,为及时捕捉风险信息提供了可靠的保障。

系统功能符合思想政治部及其他风险监测部门的工作需求,从风险信息监测、风险监控分析都有合理的组织,数据相关程度和准确率高。

3 关键技术及应用

前章阐述了电力行业舆情监测系统的设计方法,然而在实现过程中,还需要解决许多关键问题才能达到设计最终要求。本系统运用到的关键技术主要有Web挖掘技术和搜索引擎技术,下面将分别介绍这些技术以及在系统设计中的应用。

3.1 Web挖掘技术

Web挖掘是指从Web上抽取数据的一种方式,它利用数据挖掘技术从非结构化的文本中抽取有用信息,涉及Web、数据挖掘、自然语言智能处理、人工智能、统计学、信息学等多个领域,是一项综合技术。下面简单介绍系统中应用的几种Web挖掘技术。

文本特征表示:即以一定的特征项来代表文档信息,从而实现对非结构化的文本处理。

结构分析:建立文本的逻辑结构,如文本主题、层次和段落,从而更好地理解文本的主题思想。

文本摘要:根据文本特征提取和结构分析,选择权值较大的句子,抽取文本关键信息,对文档内容进行概括,最终生成文本摘要。

3.2 搜索引擎技术

搜索引擎是网络信息检索的最常用工具,它将网络信息资源分门别类组织起来,通过搜索网址的方式来实现信息检索。按检索机制可分为全文搜索引擎、目录式搜索引擎和元搜索引擎。

3.2.1 全文搜索引擎

从互联网网站提取信息并存入数据库,检索与用户查询条件匹配的相关记录,然后将结果返回给用户。这种搜索引擎的优点是检索信息全面、直接方便;缺点是信息量繁多、杂乱。

3.2.2 目录式搜索引擎

通过用户浏览层次类型目录来寻找所需信息,通常表现为网络链接。其优点是使用户清晰方便地查找到某一大类信息;缺点是搜索范围相对较小,可能遗漏某些重要的信息源。

3.2.3 全网搜索引擎

同时在其他多个引擎上进行搜索,没有单独的数据库,通过自定义界面查询其他独立的搜索引擎。其优点是快捷,覆盖面广;缺点是高级检索功能不完善,不能对检索结果进行处理。

4 系统应用

在实际研究过程中,舆情监测系统主要针对文本信息进行抓取、分析和应用。然而互联网信息还有相当一部分存在于多媒体信息中,如视频、声音、图片。如何从多媒体中获取关键信息,这是未来网络舆情监测系统的一个发展方向。目前多媒体信息通常也附带有文字描述,因此绝大部分的舆情信息还是能被监测到,但是出于发展和科技进度的要求,对多媒体信息的识别和关键信息抓取及应用,还需要深入研究。

5 结束语

本文阐述了利用Web挖掘技术、搜索引擎技术进行基于关键词的电力行业网络舆情监测系统的设计过程与实现,通过实现对互联网资源进行全网监控、定向采集和智能分析,及时、准确地发现负面、最新网络信息,快速获知网络信息来源并建立相应预警机制,有效提高了舆情监管效率,加强网络舆论监管与正确引导、维护社会和谐稳定、树立良好的企业形象有着非常重要的意义。

参考文献

[1]江黎黎.网络舆情突发事件的处置机制研究[J].杭州电子科技大学学报(社会科学版).2010(01).

[2]梁伟贤.网络搜索引擎发展现状的探讨[A].2007中国科协年会——通信与信息发展高层论坛论文集[C].2007.

[3]刘向辉,尚振宏,胡建华.新一代Web搜索引擎中数据的抽取[J].昆明理工大学学报.2000(03).

[4]吕月娥,李信利.基于信息类别的元搜索引擎设计[J].微计算机信息.2007(21).

[5]赵晓静.Web文本挖掘综述[D].电脑学习,2008(5).

[6]郑逢斌.关于计算机理解自然查询语言的研究[D].西南交通大学,2004.

[7]孟春艳.用于文本分类和文本聚类的特征抽取方法的研究[J].微计算机信息,2009(3).

[8]胡学钢,董学春,谢飞.基于词向量空间模型的中文文本分类方法[J].合肥工业大学学报(自然科学版),2007(10).

[9]贾菲,刘威.基于Android平台恶意代码逆向分析技术的研究[J].信息网络安全,2012,(04):61-63.

网络舆情监测系统评价标准篇5

随着互联网的快速增长，网络舆情监测软件及其服务市场也迅速地发展起来，保守地估计，在中国大陆地区这个市场的总量已经逼近10亿元人民币规模。

市场参与者主要包括四种类型的公司：第一类是拥有网络信息搜索或（中文）文字信息处理等相关技术的软件公司；第二类是公关、广告公司，这类公司是在传统媒体监测业务基础上发展出网络新媒体监测业务；第三类是网络营销服务公司，近几年这类公司增长迅猛，网络社会化媒体的飞速发展是其发展的催化剂；第四类是依托传统媒体延伸出的增值服务。随着网络的发展，不少传统媒体也开始“触网”，并逐步发展出针对网络媒体的新业务，而网络舆情监测是其中的一个方面。例如，人民网舆情监测室。除了以上四类公司之外，还有一类进行网络舆情监测业务的参与者，他们是主管部门或行业机构所属的网络舆情监测机构，但严格意义上讲，此类机构和参与完全市场竞争的公司是不同的，因此，单独另归为一类。

社会化网络媒体的兴起，正在改变传统的信息传播机制。网络传播具有匿名性、速度快、范围大、持续力强、传播渠道多元化、传播效果可测量等特点。一条负面信息从出现到形成舆论热点的周期，从原来的24小时（传统新闻媒体比较典型的更新周期）缩短到现在的4小时（微博热点话题达到第一个传播峰值比较典型的时间周期）。如果不能在这4小时内做出解释、反馈、制定应对策略，就可能出现舆论一边倒的局面，甚至可能发生极具品牌杀伤力的公共危机。由此，也就有了网络舆情监测响应“黄金4小时”的说法。

做出及时、准确应对的前提是，要能够在第一时间了解网络舆情的内容、发生源、关键传播途径等相关信息数据。由此，对于网络舆情监测软件的性能提出相应要求。

如何来评价网络舆情监测软件（系统）的性能呢？个人认为主要着眼于以下三个方面。

评价标准之一：对网络内容监测的准确性。

对于内容的判断是一个关键技术，目前的监测系统还不能做到对内容信息的完全自动判断和处理，在不能保证内容识别百分之百准确率的情况下，往往需要对监测分析的中间产物或不能识别的信息进行一定程度的人工校验和清洗。

中文信息在处理上具有一定特殊性和技术难点。英文每个单词之间用空格或标点符号进行分隔，与英文不同，中文字之间没有空格，由字组成词存在多种可能情况，中文分词是识别的一个难点。

分词难点：一是分词的歧义识别，歧义是指同样的一句话，可能有两种或者更多的切分方法。主要有“交叉歧义”、“组合歧义”、“真歧义”（相关定义参见附录）三类情形。“真歧义”必须要联系上下文才能够确定在文中的具体涵义；二是新词识别，随着时代的发展，中文新词不断涌现，如果没有被收录而要进行自动识别是非常困难的。与之相似的还有专业术语、名称（包括，人名、商标、简称、机构名、缩略语等）等的识别问题。新词识别准确率已经成为评价一个分词系统好坏的重要标志之一。

在分词基础上，中文内容监测还需要对信息自动进行聚类、情感分析、提取摘要，特别是自动根据上下文内容判断情感倾向与危机度、区分正负面。而这正是网络舆情监测的核心工作之一。

为了提高内容识别的准确性，大部分网络舆情监测系统采取了专业化发展的策略，通过面向特定领域的知识、经验和基础数据的积累与不断更新，逐步建立起舆情监测系统在特定领域内的服务特长和功能优势。由此，也就有了舆情监测服务市场的细分化，有的专注于民生与社会动向、有的专注于消费品牌、有的专注于特定行业„„

也有一些监测系统提供全方位的监测服务，这些系统有较好的业务包容性，能够满足网络舆情监测的主要需求，或者能够根据客户需要做到定制化的服务，这类系统通常都会针对新客户有一个系统部署阶段，在部署过程中完成一些定制化的工作。

“专用型系统”与“通用型系统”各有特色，客户在选择时主要评估是否能够充分满足自身需求，同时拥有较好的性价比。两类系统相比较，我个人更看好“专用型系统”未来的发展。主要根据是，网络媒体和内容形式的发展非常迅速，一个好的舆情监测系统必须有一个持续而专业化的服务保障体系为支撑，而“专用型系统”在此方面会有比较明显的优势。另外，“专用型系统”还可以根据特定行业或其他特定领域的特殊需求事先预置一些特色功能，如果设计得当，这些功能会对目标客户有很大帮助和价值，也会成为营销中的主要卖点之一。

准确性方面不同系统的表现差异很大。从市场反馈的情况看，在商用领域，需要分行业进行监测服务的业务积累，在某个行业或细分领域有的系统监测得好、有的系统就不行；同样，在政府管理服务领域，也有数个细分领域，不同系统的表现也是参差不齐。

评价标准之二：网络内容监测时效性。

时效性的高低与软硬件技术和运营设备资源都有密切关系，其中涉及到的专业技术不是本文关注的范畴。这里要指出的是，时效性与前面提到的准确性是紧密相关的。如果系统对内容的判断准确性高，需要的人工干预就少（当然，理想状态是完全不需要人工干预），监测信息处理的时滞就少，监测的时效性自然就会有保障。如果系统需要一定的人工干预，通常情况下，会平均滞后0.5~3天左右。这个时间已经远远超出了前文提到的网络舆情监测及响应“黄金4小时”周期。如果系统的时效性低，就不能对网络突发舆情进行及时监测和应急处理，而这对危机公关服务是非常关键的。

有一些监测系统的结果是依赖于baidu、google等搜索引擎的搜索结果进行再分析（所谓的元数据抓取），而这些大型搜索引擎的数据抓取更新是有自己的特定规律和周期。对于排名靠后的网站，搜索引擎爬虫软件会隔几天，甚至更长时间，才会光顾一次。这种情况下，时效性自然不会有保障。

当然，对于时效性，不同的客户会有不同的要求。有的客户会要求做到“实时监测”，例如提供危机公关服务的公关公司、广告公司和一些关注于民生与社会动向的机构等；也有的客户对时效性要求不是这么高，例如对品牌价值进行评估的服务需求，对特定事件做事后评估的服务需求等等。

通常情况下，时效性高低是网络舆情检测系统定价的一个重要基础，从节约经费的角度出发，客户还是应当选择满足自身业务时效性需求前提下性价比较高的系统和服务，不一定非要求做到“实时监测”。

评价标准之三：网络内容监测全面性。

网络内容监测全面性的概念很好理解，就是系统所监测网站的类别及总量。通常情况下，监测系统不会做全网监测，先不说技术上的困难，仅在运营费用和投入上就是中小规模公司难以承受的。性能优越的监测系统会有选择地进行网络监测，客户关注领域的相关网站、排名靠前的大网站、热点网站是监测的主要对象。

绝大多数号称能够做到“全网监测”的系统都是依赖对搜索引擎的搜索结果进行再分析——元数据抓取。前文已经指出，这种方式可以达到了大覆盖，但牺牲了时效性。

不过在全面性方面也有一些技术问题需要处理，一些主要的内容服务网站、社会化网络媒体和电商网站对于爬虫软件已经做了限制。限制的原因有所不同，内容服务网站、社会化网络媒体（SNS网站、微博等）主要是出于对信息及用户数据的保护和主管部门的特定要求，电商网站（自主平台类）主要为了防范网络商品比价。

综合地看，相对于“准确性”与“时效性”而言“全面性”问题更容易解决，技术因素是一方面，通过加大服务器和带宽等运营资源的投入也能够取得显著地改善。

网络舆情监测软件及其服务市场的发展趋势

网络舆情监测软件及其服务市场具有很大的发展潜力，个人观点在今后5年内这个市场都会保持快速发展势头，年复合增长率在30%以上。

我很赞同计世资讯研究（CCW Research）的观点——“舆情监测分析软件市场未来的发展方向是行业化与服务化”。行业化主要是指软件及服务要与各行业的特点紧密结合，服务化是指舆情监测软件将采用软件运营服务SaaS模式，舆情监测运营服务将成为一种新的发展模式，在降低投入门槛的同时将受到更多客户的青睐。

目前，市场格局还很分散，还没有上规模的运营服务商，这是一个市场空白。近几年云计算技术的快速发展将创造新的发展机会，在通过云计算大幅度提升软件系统效能和服务品质的同时，也有利于催生在这个细分领域内上规模的运营服务提供商。

从服务对象角度看，专业网络舆情监测软件及服务公司主要服务于政府部门、专业服务公司（主要是，公共公司、广告公司、网络营销服务公司）和互联网公司。然而，随着互联网对社会经济发展的快速渗透和融合，越来越多的企业和机构认识到了网络营销、网络舆情的重要性，他们中的一小部分已经开始尝试使用网络舆情监测软件及服务。虽然他们在客户市场中目前所占的比重还不到10%，但是到2018年很有可能占到30%以上的比重。从商业服务角度，网络舆情监测软件及服务与网络营销服务之间存在着密切的联系。对于能够提供品牌监测的软件系统，如果能够把营销评估（营销决策支持）和营销管理工具结合起来，把系统服务延伸到营销管理与营销作业流程中，将具有更大的市场潜力。在这方面市场参与者还较少，做得好的系统很少，未来应该有不错的发展空间。(陈兴跃)附录：

中文分词的歧义类型

（此附录的相关内容来自互联网）

歧义是指同样的一句话，可能有两种或者更多的切分方法。例如：“表面的”，因为“表面”和“面的”都是词，那么这个短语就可以分成“表面▁的”和“表面的”。这种称为交叉歧义。像这种交叉歧义十分常见，前面举的“和服”的例子，其实就是因为交叉歧义引起的错误。“化妆和服装”可以分成“化妆▁和服装”或者“化妆▁和服▁装”。由于没有人的知识去理解，计算机很难知道到底哪个方案正确。

交叉歧义相对组合歧义来说是还算比较容易处理，组合歧义就必需根据整个句子来判断了。例如，在句子“这个门把手坏了”中，“把手”是个词，但在句子“请把手拿开”中，“把手”就不是一个词；在句子“将军任命了一名中将”中，“中将”是个词，但在句子“产量三年中将增长两倍”中，“中将”就不再是词。这些词计算机又如何去识别？

蚁坊软件：掘金舆情监测新商机篇6

在诸多“神器”中，湖南蚁坊软件有限公司（下称“蚁坊软件”）生产的鹰眼全网舆情和鹰击微博舆情系统可谓佼佼者。它能在日采集3亿条微博的基础上，提供信息溯源、情感分析、自动生成舆情报告、微信等多方式预警等功能。而正是这些独树一帜的产品优势，让成立仅5年的蚁坊软件拥有了网宣、公安、教育等行业的5000多家用户。

蚁坊软件的创新成果得到了市场的肯定，也获得了社会的认可。3月27日，在长沙高新区召开的2015年经济工作会议上，蚁坊软件总裁刘江宁与CTO张兵分别获得“2014突出贡献创新专家”与“2014年度长沙高新区优秀科技人才”殊荣。

在此前召开的湖南省科学技术奖励大会上，蚁坊软件与国防科大联合申报的“在线社交网络分析关键技术及系统YH-SNAS”项目荣获2014年度湖南省科学技术进步一等奖。

2010年，年近半百的黄三伟深感“年纪大了，再不闯就晚了”。好哥们刘江宁也受到“传染”，两人一拍即合，辞掉高薪职位后便迈上了创业之路。同是从国防科大毕业，又有数年中间件开发经验的他们早已胸有成竹，将创业目标瞄准了大数据领域，聚焦社交网络舆情监测产品。同年8月，两人联手成立了湖南蚁坊软件有限公司，黄三伟出任董事长，刘江宁担任总裁。

彼时，整个行业的运营模式是做项目，去不同的地方了解客户需求、部署网络环境，再设计、安装软件。“新手上路”的蚁坊软件本想沿着老路发展，但很快发现此路不通。这是因为要想从互联网中获取海量数据，对客户网络环境中的带宽、IP资源、机器扩容数量都有要求，而一般的客户只有几台电脑，根本无法完成。面对如此情况，蚁坊软件的第一个项目完成得费时费力。“公司15人全员出动，前后花了近8个月，最后还留了两名常驻员工，为客户解决后期工作。”提到这次经历，黄三伟直摇头，“这次之后，我们再也不做项目了。”

摆脱项目定制开发的思路，蚁坊软件决定自己做产品。淘宝只需一个账户就可购物，舆情监测也可以。它不局限于时间、地点、某台特定的机器，只要有网络，客户用一个账户就可以实现对商情、品牌、服务等进行网络监测，这才是互联网时代软件企业应有的思维。

2011年5月，蚁坊软件的第一个产品鹰击微博舆情系统初具雏形。该产品能在某一事件发生或一个新产品推出后，将网络上有哪些人关注、做了什么评论都实时推送给客户。“对某一事件在第一时间做报道的往往不是媒体，而是当事人在微博等社交网络上的爆料。客户设定关键词，微博上与之相关的最新消息就会立刻呈现。比如当某地发生交通事故，相关部门尽早得到消息，就能及时赶到现场进行救援。”让总经理刘涛自豪的是，“去年4月广东东源县发生3.8级地震后，我们30秒内就得到了消息，而且还能知道第一个在微博上发布消息的是谁。很多事件我们都能在第一时间得到线索。”

要做到这些必须有强大的数据处理能力。蚁坊软件每年在大数据方面的设备投入达数千万元，每天采集的微博超过3亿条。采集数据的同时，计算机还对数据进行实时分析，将内容分类、打标签、过滤去重等。就在这样边用边完善的过程中，掌控舆情发展态势的鹰眼全网舆情系统“孵化出世”。“与分散精力，为不同客户做项目相比，我们就是集中精力，不断完善平台、改进产品，这样客户就能得到最新最好的应用。”黄三伟的坚持获得了市场的认可。在市场部工作的厉耀华对此深有体会：“我们卖给客户的只有一个账户，原来客户的态度是需销售员催着他们试用，现在经常是客户催着我们开通试用。”

“学校好的技术点多，但大多停留在研究层面，企业可以与其进行良性互补。高校负责研发，我们负责后期产品化。”黄三伟表示，高校的优秀成果早已渗透在公司产品的每个细节中。

当某事件发生后，公众对此抱有怎样的态度和情感？网络上的公众表达通常饱含强烈的个人情感，若能将这些抽取、统计，就能得知事件对社会造成的情感影响。如意外事故发生后，人们最初的情绪是悲痛，经人挑拨后变得激愤，这说明事件在往不好的方向发展，当人们冷静下来，就会探讨事故发生的原因、总结经验，情感趋于理性。

然而，心理学把人类的情感分为数十种，汉语言的表达博大精深，要想让系统猜透人们的心思、分辨情感的倾向性，光会编程、设计软件还不够。“这就需要学术界做大量研究。”刘涛介绍，蚁坊软件与国防科大合作开展“在线社交网络分析关键技术及系统YH-SNAS”项目，针对某一具体事件，进行情感分析。此外，鹰击系统的实时处理、实时索引、大数据存储等多项技术都是合作项目的成果。“和高校一起走，企业减少了在研发初期的投入，节省成本。更重要的是，这相当于为企业探路，让企业不走冤枉路。”在黄三伟看来，两条腿走路让企业走得更稳更快。

在这样的发展思路下，蚁坊软件陆续与国防科大计算机学院、长沙软件园联合建立“海量数据处理工程研究中心”，与北京邮电大学、中科院计算所等机构组建了国家“社交网络及其信息服务协同创新中心”，联手北京大学、上海交通大学等单位发起成立“973社交网络开源社区”……“技术在不断进步，我们会不断把学校的研究成果产品化。”黄三伟坚定地表示。

在借助外力的同时，蚁坊软件也不忘进行自我升级。传统的软件公司一般只有几个美工，而蚁坊软件却为提高客户的应用体验专门成立了交互设计部。每个功能按钮的位置、提示信息的内容等的设计都会经过深思熟虑。“设计部想做什么公司都会响应，实时推送的功能就是他们设计的。”刘涛介绍，很多舆情系统类似于搜索引擎，输入关键词后再点击刷新，如果忘记了页面就停了，无法发现最新消息。而实时推送功能是一旦有新消息就会出现在页面，某些紧急情况下还会自动报警。实时推送功能实现了与同类产品的差异化，“这在同行中是首创”。

蚁坊软件的舆情产品获得了“2011年度中国信息安全用户推荐奖”、“2011年度中国信息安全值得信赖品牌奖”。如今，蚁坊软件的足迹遍布全国各省市，一个都没落下。

为最大限度地激发员工创新活力，蚁坊软件别出心裁地发起了企业内部创业，任由员工“异想天开”。“公司搭好大数据平台，每个员工都可以用。只要有好的创业点子，我们就会尽力帮助。”黄三伟对此的想法是，“我40多岁才创业，而现在很多年轻人都有这个想法。但他们没有人脉，很难从社会上筹集到资金。其实，帮他们就是帮公司。”

2013年成立的山东蚁巡网络科技公司是蚁坊软件内部孵化的第一个创业公司。其产品蚁巡运维平台是一台简单实用的IT运维设备，只需接入网络，按向导简单配置就可以使用。它能自动发现需要监控的网络设备、服务器，主动巡检设备的运行状态，发现业务系统隐患并智能预警，保障业务正常运转。“要检查机房的上百台机器运行是否正常，以前需要人工巡检，现在上网就可以查看机器的运行状态。硬盘满了、内存不足、CPU占用过高等问题都可远程解决，只有当机器的硬件系统坏了才需要去机房。”黄三伟介绍，当初也是发现有这一市场需要，员工又能做出产品，所以助一臂之力。刚成立时，蚁巡只有几名技术和销售人员，市场宣传、行政管理、财务等都由蚁坊软件代管。经过一年多的发展，蚁巡已有近50人，开始独立门户。

2014年，蚁坊软件的内部创业又发新芽。湖南识微科技有限公司、湖南傻蛋科技有限公司相继成立。识微主打的是一款社交媒体精准营销产品，它负责寻找社交媒体上某个产品的关注人群，分析互动数据，并从中发现重点对象，企业据此可以展开更有针对性的营销活动。傻蛋的产品“傻蛋搜”可以自动进行联网设备搜索，检测安全漏洞，并提供安全防护的解决方案。黄三伟也没有闲着，他正在设计一款远程办公软件，雄心勃勃地准备第二次创业。

舆情监测系统篇7

关键词：网络舆情,监测,预警

0 引言

近年来, 随着“人人都有麦克风、人人都是微媒体”的时代到来, 网络舆情作为一个新兴社会现象, 成为社会各界综合反映公司企业管理、优质服务、安全生产、依法治企等工作成效的重要媒介, 同时也成为影响公司品牌建设水平、展现公司承担社会责任的重要评价指标[1]。

目前, 国网甘肃省电力公司所属各单位均已开展舆情管控工作, 然而, 因为人员编制的问题, 大部分单位舆情管理人员为兼职工作、劳动量大、工作效率不高。通过电网企业网络舆情在线智能监测系统的设计与应用, 有效减轻舆情管理人员的工作量, 抢占舆情管控时机, 及时开展危机公关, 有效维护公司品牌形象, 提升公司品牌建设和品牌维护工作水平。

1 系统设计

1.1 系统总体架构

电网企业网络舆情在线智能监测系统的架构是在一个通用的搜索引擎基础上扩展而成的, 同时体现了网络舆情在线智能监测系统与通用搜索引擎系统的关系。系统总体架构如图1所示。其中, 黄色部分是该系统区别于普通搜索引擎的重要组成部分。

1.2 技术路线

电网企业网络舆情在线智能监测系统包括舆情监测、舆情预警、舆情分析和舆情报告4部分应用功能, 这不仅是直接面向用户的独立的功能部分, 同时, 互相之间也存在调用等依赖关系, 如舆情分析是一个直接面向用户的应用, 同时也是舆情报告的输入者、舆情预警和监测的驱动者。

电网企业网络舆情在线智能监测系统以统一的用户接口, 向用户提供多种方式的应用, 除了传统的基于浏览器的检索和浏览, 还包括以电子邮件、短信和其他方式向用户提供消息、提醒、预警、跟踪等信息服务。

1.2.1 基于自然语言处理技术的技术结构

自然语言处理技术是电网企业网络舆情在线智能监测系统中最主要的技术手段和研究重点。基于自然语言处理技术的舆情监测分析, 主要通过集成文本自动聚类[2]、自动分类、自动摘要和自动标引等技术, 实现从“文档”到“舆情”的生成、更新、特征标注、属性计算等任务, 并在此基础上, 利用舆情评价模型, 实现与上层舆情应用的交互。

1.2.2 基于统计分析技术的技术结构

统计分析是舆情监测分析不可缺少的方法之一, 具有许多自然语言分析所不具备的优点。统计分析的前提是文档数据的结构化, 即“信息提取”。

信息提取[3]就是从网页中提取所需要的数据。信息提取有多种研究方向, 如面向数据密集型网站的数据提取、面向固定格式超文本标记语言 (Hyper Text Mark-up Language, HTML) 的数据集成、面向特定类别网页的页面集成等。

电网企业网络舆情在线智能监测系统信息提取的特点如下。

1) 自动学习。对一个新的文档 (或者新的文档类型) , 能够自动进行学习并生成对该类型网页的数据提取方案。

2) 良好的适应能力。即生成的数据提取方案具有良好的适应变化的能力和容错能力 (因为很多网页并不规范, 但浏览器都能容忍) 。

3) 自动适配。即对一个新的网页 (或URL) 能够自动决定该采用已有的哪个方案来提取数据, 如果找不到正确的方案, 则应提交学习并生成相应的方案。

4) 跨文档。有时一组数据并不在一个文档中, 如论坛的一个线索可能由几十页甚至上百页组成, 中间通过“上一页”、“下一页”等方式来衔接, 信息提取方案需要将多页的内容按照一个整体来提取, 而不是简单地按文档归入不同的单元。

5) 可监控。即能够自动发现提取方案执行的进展情况, 特别是执行过程中的错误, 如某个提取方案因学习不充分而不能正确提取该类型下的某写文档时, 需要及时将有关信息告知相关模块或相关操作人员, 以便采用继续学习、增加方案等手段来解决。

6) 可管理。数据提取方案的产生、运行、替换、修改等, 均可接受人工干预, 同时, 数据提取方案中, 提取数据和结构化数据存储 (这里是关系型数据库) 之间的数据映射、数据更新等方案, 都是可配置的。

1.2.3 舆情分析技术结构

舆情分析的主要任务是在舆情文档库和舆情成果数据库的基础上, 通过一定的分析技术和过程, 发现舆情的特征、规律、因果等, 并进一步对未来作出预测。舆情分析技术架构如图2所示。

舆情分析的核心技术是复杂多重关联分析技术和事件时空发展路径分析。

1) 复杂多重关联分析技术是在海量文档和舆情成果数据的基础上, 寻找特定的规则, 这些规则可以被认为是“规律”。本系统提供的规律性发现可以是:基于原始文档的;基于舆情分类体系的;基于特征标引的;基于涉众标引 (或者实体标引) 的。然后, 可能根据这些规则, 对特定的指标进行预测。

2) 事件时空发展路径分析是在舆情成果数据的基础上, 进行时间相关分析、空间相关分析和涉众相关分析。其中舆情成果数据可能包括舆情分类体系、舆情的实体标引或涉众标引结果、舆情的特征标引结果等。时间相关分析, 即时间序列分析是时空发展路径的时间维度的展示和分析;空间相关分析是时空发展路径的空间维度的展示和分析;涉众相关分析则是按照不同的参与者标引, 从特定涉众的角度观察和分析事件的时空发展变化情况。所有这些分析, 都可以看作是对事件因果关系的一种“拟合”或者“启示”, 有助于分析人员寻找事件发生和发展的内在逻辑, 从而预测未来发展, 或者为当前和未来的应对提供参考。

1.3 关键技术

1.3.1 访问穿透

访问穿透是对普通搜索引擎中的“下载器”的扩展, 即其除了具备普通下载器的功能 (根据URL描述, 实现对目标资源的访问, 并完整下载该地址所代表的资源内容) 外, 还需要增加访问穿透方面的功能。

访问穿透在不改变宏观网络环境的条件 (如网络基础运营商的网站过滤、关键词拦截等) 下, 实现对互联网上尽可能多的网站的访问。主要解决的问题包括:突破网络基础运营商对特定站点或特定文档的访问限制;满足目标网站部署的访问控制系统的要求, 实现对有用信息的访问, 如对需要注册和登录的网站进行注册和登录;规避反搜索引擎 (或者“反爬虫”) 技术的限制, 实现对尽可能多的互联网信息的自动访问和下载。

1.3.2 网站监控策略

网站监控策略是一种URL遍历和注入的策略管理机制。与普通搜索引擎不同的是, 舆情监测并不要求完整包含互联网上的所有信息, 但对于特定的网站, 则不仅要求“全面”, 而且要求“快速”, 如专业搜索引擎对普通网站更新的响应时间可能是若干小时或者数日, 而舆情监测要求对特定网站更新的反应时间是分钟级的。

1.3.3 信息提取

信息提取[4]也叫“信息抽取”, 这里特指面向HTML半结构化文档的信息提取。

基于自然语言处理技术的文本分析方法, 不能满足所有的舆情分析要求, 因此, 应将半结构化的HTML文档结构化, 采用传统的数据分析方法, 是舆情分析的重要手段之一。针对不同类型的网页, 数据提取的结构是不同的, 如新闻类网页提取标题、作者、发表时间、发表机构等, 而论坛上的发帖则将一个Thread的每一个发帖进行单独的处理和存储, 包括作者、发表时间、在Thread中的位置、被回复的发帖、浏览量等。

1.3.4 结构化文档数据库

结构化文档[5]是信息提取后的数据存储, 与普通数据库存储不同的是, 对每个信息项都进行了单独的分词和索引处理, 以便全文检索和后期的文本分析技术能够按照信息项进行引用。依照信息提取中的分类, 结构化文档数据库可能包含新闻库、论坛库、博客库等多种不同子库。

1.3.5 舆情监测、评价分析、预警模型

舆情监测、评价分析 (主要是针对结构化数据的分析) 和预警模型等, 都需要一种能够适应千变万化的网站, 因此, 需要以一种“可配置”或者“可定制”的形式提供, 因此, 本架构中将其作为数据存储的一部分, 以期实现相关模型的“参数化”。

2 系统功能

系统包括舆情展现、舆情汇总、数据中心、预警推送、舆情专题、咨询分析、工具箱、业务配置、系统管理九大板块。

1) 舆情展现:舆情每日信息展现, 包括正负面及与预警信息滚动播报, 热点墙、热点信息趋势图表和分布图表。

2) 舆情汇总:按监测目标平台分类展现新闻网站、电子刊物、视频网站、论坛、贴吧、微博、博客、社区、虚拟空间等相关舆情信息内容体现, 并提供目标信息加入简报、加入溯源、加入收藏等研判功能。

3) 数据中心:包含所有监测目标信息实时采集。

4) 预警推送:预警信息现在浏览、编辑、推送, 推送历史和新推送建立, 舆情简报浏览。

5) 舆情专题:舆情定点专题设置、浏览、编辑、分析板块。

6) 咨询分析:所有舆情相关信息分维度统计、分析、图表展现、数据导出、溯源、热门发帖人活动轨迹等。

7) 工具箱:IP查询、收藏夹、微博在线回复。

8) 业务配置:系统所有监测目标、业务关键词、、负面关键词、屏蔽网站、屏蔽关键词配置板块。

9) 系统管理:系统运维管理板块, 包括用户管理、日志管理、首页定制、网站分类、数据维护、爬虫管理、预警管理、公参管理等。

3 系统应用

国网甘肃省电力公司网络舆情在线智能监测系统的建设实施历经了系统调研、设计开发、构建部署、用户培训和上线试运行等阶段, 最终成功上线运行。目前系统运行稳定, 各功能模块应用情况良好。

截至目前, 该系统实现了虚拟社区类、网络贴吧类、人民网领导留言、报纸杂志类、博客站点类、网络论坛类、新闻媒体类等104个网站/栏目的定向, 对94组关键词进行了更新采集, 监测传统媒体及新兴媒体类型共计21 857条舆情信息, 其中正面2 710条, 负面4 686条, 中性14 464条, 并实现了共计932条的预警推送。

该系统的运行, 提高了电网企业网络舆情监测及预警的管理水平, 有效减少了工作人员的劳动强度, 提高了工作效率, 取得了良好的经济效益, 系统实施产生的实际效果对比见表1所列。同时, 本系统具有很强的实用性和可移植性, 在电力行业相关部门中具有较高的应用推广价值。

4 结语

电网企业网络舆情在线智能监测系统对舆情进行甄别分类, 对舆情影响程度和级别进行自动定位, 大大减轻了舆情搜集及应对工作量, 降低劳动力成本, 提高工作效率, 更好地开展舆情管控工作, 为提升公司品牌建设和品牌维护水平起到积极的作用。

参考文献

[1]李勇, 刘站东.面向网络舆情分析系统的本体应用[J].西安石油大学学报, 2014, 29 (1) :94–97.

[2]王春龙, 张敬旭.基于LDA的改进K-means算法在文本聚类中的应用[J].计算机应用, 2014, 34 (1) :249–254.WANG Chun-long, ZHANG Jing-xu.Improved K-mains algorithm based on latent dirichlet allocation for text clustering[J].Journal of Computer Applications, 2014, 34 (1) :249–254.

[3]陈桂鸿, 曹树金, 陈忆金.网络舆情信息提取与预处理研究[J].图书情报知识, 2011 (6) :50–54.CHEN Gui-hong, CAO Shu-jin, CHEN Yi-jin.A study on information extraction and preprocessing of online public opinion[J].Document, Information&Knowledge, 2011 (6) :50–54.

[4]戴媛, 程学旗.面向网络舆情分析的实用关键技术概述[J].信息网络安全, 2008 (6) :62–65.

舆情监测系统篇8

互联网的产生是以蒸汽机的发明为标志的第一次工业革命以来的又一重大发明。互联网带给人类的不仅是一场技术革命,更是一场社会变革,它将引领人类进入一个全新的时代。传统的管理模式、商业模式、思维方式都受到了影响,使创新与变革已成为这个时代的代名词。中央电视台大型纪录片《互联网时代》在肯定互联网给人类生活带来便利的同时,没有忘记警醒人们学会“控制”,因此互联网在带给我们生活上便利的同时,也带来了一些不良的影响。网络舆情是以网络作为传播介质,围绕着突发的或偶发的社会事件的发生、发展与变化全过程,民众对与之相关的社会管理者、企业、个人及其他各类组织在政治、社会、道德等方面所表达出来信念、态度、意见和情绪等,并以字符串、音频、视频信息、表情符号等方式在互联网空间的表达与传播。网络舆情是社会舆情在网络空间的映射,社会舆情及网络舆情是政府应对突发事件应急管理能力的试金石。互联网不仅是社会各阶层表达利益、宣泄情绪、思想碰撞和聚集民意的重要平台,还是突发事件的重要策源地和发酵池,因此,各级政府已经认识到加强网络舆情管理、控制、引导变得更加迫切、重要且复杂,构建并实行与时俱进的网络舆情监测与预警系统更是各级政府部门的共识。

因此,本研究符合大数据时代的数据处理流程,具有的极高的现实操作、指导意义,对当下数据爆发,网络应用广泛的变革时代具有一定的战略意义。

二、当前网络舆情监测与预警的现状与不足

现有网络舆情监测与预警研究已相当普遍,在CNKI通过以“网络舆情”和“互联网舆情”为关键字进行检索发现,2007 年297 篇、2008 年580篇,到2014 年有8578 篇,可见,关注度在呈逐年递增;研究的机构主要集中在国内大学、研究所;研究的主要方向是突发事件如何通过网络逐步演化成为较强影响力、倾向性的网络舆情,以及如何通过现代技术手段(信息采集技术、信息预处理技术、中文分词技术、文本聚分类技术、话题检测算法、话题追究回溯算法、报警设计等)对信息进行采集、识别、分析、追踪与引导等方面对舆情价值进行深度挖掘等。通过研究发现:这些研究的数据收集均是采用地毯式搜索收集或采用主题垂直搜索进行数据搜索收集。地毯式搜索收集主要是把所有信息不加分类,不进行特征比较而是直接进入数据采集,这种方式采集的优点是:数据量大、采集面广;缺点是:数据无针对性、无特征无范围,因此很难设定一个很好的多任务、多层次的数据采集分工机制。主题垂直搜索是从某一个关键词(主题词)入手去查找含有该关键词(主题词)的数据,这种采集方式更有针对性、数据特征相似、采集数据可用性和采集效率比较高,较为流行,如搜索引擎“百度”、“google”等均采用这种方式,但是其有显著的不足:

1.特征不明显的数据采集丢失严重

由于采用的是性质特征(如征地纠纷、砍人、法轮功、东突等关键字)作为权重较高,并以此为重点采集目标进行搜索收集,那么有些特征不明显或者当前特征没有定义的数据就有可能被丢失。

2.采集的范围相对比较窄

由于有些新事物、新术语往往因为系统关键主题词不含有此类信息,所以出现采集不足,造成数据的缺失。

3.数据采集观念落后

既然针对的是公众舆情信息,那么理应更客观全面的搜集舆情信息,无论是中性、不良、好的数据信息均应成为数据采集内容,而此方法显然做得不够,数据采集的全面性有待提高。之前服务器性能不足、存储设备落后、网络带宽窄等客观原因,形成了数据采集与处理上的瓶颈。而今,服务器处理速度、硬盘读写速度、网络速度已突飞猛进,要实现全数据采集应该不是什么难事。如广西有5282 万人,假如每人每天在网上发达自已的意见1000 个字,那么1000 个汉字的硬盘空间就是2KB,广西5282 万人一天占用的硬盘空间合计约100GB,这点数据量对以大数据著称的今天,应该不是难事。

4.舆情事件行政区域管辖范围不固定

区域行政管理机构更多的是关注本行政区域的所有网络舆情,如广西网络舆情监测与预警的管理机构,更关心、更专注于广西行政区域范围内的事情,而不是其他省份的;那么各省的地、市、县行政区域的网络舆情监测与预警的管理机构也更关心自己行政管辖范围的事,同时,信息的质地要求上,不管是负面的,还是正面的,或是中性的,都是有用的、有现实意义的。

三、网络舆情监测与预警系统构建的对策与建议

(一)引入以行政区域作为信息采集与管理操作单元

本研究改变了传统主题构建方式,以行政区域作为信息采集与管理操作单元,以各地市、县名称作为基点来构建独立的网络舆情监测与预警系统,以各地市、县、镇、乡名称为唯一关键字进行数据搜索与采集,实现各地市、县独立管理与运作的网络舆情收集、监测、预警等。同时,对采集的数据按照信息预处理技术、中文分词技术、文本聚分类技术、话题检测算法、话题追究回溯算法、报警设计等进行相应的技术处理,按照行政区域管理范围进行按区域权限进行分类汇总,并加入一些针对网络舆情行政处理办公功能,实现统一谋划、分步和多层次实施,上下一盘棋的工作协调机制,让各行政区域管理员及时了解、把控、引导本行政区域的网络舆情。以行政区域数据库作为数据收集的主关键词是多层次、多批次、无遗漏进行同步或分步采集机制的核心方案,也是行政区域的网络舆情监测与预警系统的工作要点。

(二)实行行政区域分级管理模式

传统的网络舆情监测与预警系统一般采用一个区域就设置一个部门、一个网络舆情监测与预警系统来完成工作,或者一个区域的下上级中使用多个相同或不同的网络舆情监测与预警系统,各系统之间没有任何工作协作或分工,无法进行统一分工协调,上级无法及时了解下级网络舆情监测与预警情况、引导情况,人员配置上也不能根据工作实际进行合理的调配。因此,传统的网络舆情监测与预警系统与当今天的大数据时代是不相适应的,而本研究由于引入行政区域数据作为主关键词,即各地市、县名称作为基点来构建独立的网络舆情监测与预警系统,并进行统一的规划、设计,让各部门通过网络舆情监测与预警系统做到工作有序、分工明确、合作共赢。

(三)实行统一身份认证机制

目前,各级部门为规范工作流程、提高工作效率,已购进或自行开发出众多不同的应用系统,各应用系统在未经整合、认证前是独立无关联的,各个应用系统登录需要不同的账号密码登录,这给用户带来不便,大大影响了工作效率和工作热情。采用统一身份认证来实现单点登录,实现系统间的应用漫游是客观需要。由于本研究引入行政区域数据作为主关键词,以各地市、县名称作为基点来构建独立的网络舆情监测与预警系统,因此必须考虑到父系统与各级地市、县子系统实现统一认证功能,同时也要考虑到子系统与各单位的统一认证系统进行对接,把网络舆情监测与预警系统纳入到原有系统体系当中。当前有三种统一认证机制:基于认证平台的应用漫游、基于共享密钥的协议登录、基于自配置的模拟登录,它们各有特点。(1)基于认证平台的应用漫游:统一身份认证平台存储了用户的所有身份信息和凭证信息,并提供了由不同编程语言编写的认证接口,业务系统在与认证接口进行对接之后,便可以轻松地使用统一身份认证平台完成对用户身份进行合法性认证。同时,不需要自行存储凭证信息和认证信息。(2)基于共享密钥的协议登录:统一身份认证平台与业务系统共同约定用户账号、时间戳、校验码、共享密钥等四个参数,并要求双方系统实现时间同步。业务系统的在统一认证入口输入对应的认证信息,然后通过跳转程序使用HTTP的get或post方法把双方约定好的四个参数据信息提交到业务系统,业务系统的验证程序负责检验当前数据的合法性、有效性,若通过验证则跳转到业务系统,否则提示验证不合法。(3)基于自配置的模拟登录:通过配置程序在认证系统中建立一个认证系统账号与各个业务系统账号的映射表,这映射表的主要内容有:认证系统账号、业务系统ID、业务系统基本角色、业务系统密码。在通过认证系统进行认证时,直接通过认证系统的映射信息,便可以进行用户合法性认证、用户角色获取、业务系统定位,并完成业务系统应用跳转等工作。对上面三种认证机制,在基础数据准备工作、接口认证程序复用、部署难易程度、应用漫游程度、系统适用性等五个方面进行比对,见表1。

在统一认证建设的过程中采用何种机制进行认证集成应根据业务系统及认证系统的实际,做到具体情况具体分析,推荐考虑的方向:基于认证平台的应用漫游方式是最优,基于共享密钥的协议登录机制为其次,基于自配置的模拟登录机制为最后。

(四)理清各子系统之间数据共享机制和办公协调机制

根据广西工作实际,为保证系统架构科学、明晰,并保证系统更好地开发、运用、实施,系统实行两层管理(省、地市两级管理),即系统采用类似行政分级管理架构,系统上下级之间就存在着父子关系,其分别称为父系统和子系统。父系统作为整个系统的管理层和决策层角色,是中央枢纽,它制定了各子系统实施网络舆情信息监控的工作区域及运行方式,指定各子系统的工作责任人,下达工作指示,实时管理和跟踪各子系统工作运行情况;各子系统是网络舆情信息监控具体实施单位,是网络舆情信息监控成功与否的重要环节,它们之间是管理者和被管理者的关系,是上下级关系。父系统能够及时、准确、全面的掌握当前各子系统的实际运行情况,从而保证整个区域的网络舆情信息系统始终处于正常运转状态,并通过必要的引导,保持可控、最佳和高效运行状态。本研究的系统应是由多个子系统组成的复杂、庞大的系统,如何实现子系统间的数据共享、如何制定各系统间数据操作规则将是本系统成功与否的关键。而要解决这一问题首先需了解系统的组成、功能及各子系统间的互联方式。通过规划统一的数据库,不同的子系统除了独享自身的数据库外,还设立一个数据共享库,用于存放各子系统采集回来的跨行政区域的数据,并用对应行政区域编号进行标注,各子系统除了从互联网上采集数据,还应时刻对共享库进行采集和管理,实现实时网络舆情发展跟踪。子系统是一个完整独立的信息处理单元,其除了上述的功能外,还包括了一般网络舆情监测与预警系统的三层系统框架层:信息采集层、数据处理层、信息查询显示,如图1 所示。

(五)完善各子系统功能设计

各子系统是一个功能完整的网络舆情信息监控与监测系统,可根据工作实际设计相应的运行规则和运行机制。由监测系统、汇集系统、分析系统、警报系统、预控子统等五个子系统构成;按模块分,本研究根据自身开发的需要把子系统的后台模块分为:网络舆情信息监控模块、专题监控模块、人员监控模块、主题分类管理模块、分析预警管理模块、关键词设置模块、用户管理模块、系统参数管理模块、统计汇总模块、采集模式管理模块、采集站点管理模块、地点区域管理模块等。

(六)完善各子系统指标体系建立与设置

指标一般由指标名称和指标数值两部分组成,它描述了物质的某个特性的名称及度的数量值;而指标体系(Indication System-IS)则是进行预测或评价研究的前提和基础,它是将抽象的研究对象按照其本质属性和特征的某一方面的标识分解成为具有行为化、可操作化的结构,并对指标体系中每一构成元素(即指标) 赋予相应权重的过程。所用到的指标及指标数值准确性、可用性将是衡量网络舆情监测与引导系统是否成功的唯一标志。如数据采集完整性指标,它就直接反映到采集模块的采集面;数据相关性指标,它直接反映了舆情监测模块跟踪、定位功能和准确性;预警指标体系设定是情警报系统工作的重要一环,其分析结果判断将是警报发出的触发条件,同时,其数值大小将是危机警戒线设定的凭证,可以根据数值范围来设定其严重程度、可控性、影响范围,把预警级别分为轻警级(Ⅳ级,非常态)、中度警级(Ⅲ级,警示)、重警级(Ⅱ级,危险)、特重警级(Ⅰ级,极度危险),同时,采用蓝色、黄色、橙色、红色等不同的颜色来判断预警的不同级别。因此,指标体系建立与设置必须在深入程度、全面性、准确性、可行性、可操作性方面入手,争取实现系统的可用性、可控性、准确性、可靠性。

(七)大力完善制度保障建设

网络舆情信息监控和引导是一项综合性、复杂的系统工程,它不能仅靠一两个计算机系统或者一两套班子人马就得以顺利实现,网络舆情信息监控和引导不仅仅在乎结果,更是一个过程,一个永远在路上的系统工程。如何做到防范未然、因势利导、有的放矢,它将考验政府部门的事前、事中、事后等方面的应变处置能力和应变能力,还直接反映出政府部门的智慧和信用,因此,在做好一系列严密的网上监测、引导的同时加大并完善制度保障建设也尤为重要。

1.制定并完善互联网信息安全的法律、法规,做到有法可依

西方著名的学术著作《报刊的四种理论》认为大众传播媒介总是带有它所属社会和政治阶层的形式和色彩,它是对某些不利于社会运行的舆论进行控制,并使之为自己服务。因此,处于社会主义初级阶段的中国,如何做到保障公民的言论自由,又能维护网上公平正义、风气优良的正常网上秩序,最好的办法是制度建设,做到有法可依。成熟的制度是政治成熟的必然条件,是应对潜在的危机与风险,控制、规范互联网虚假、有害信息,维护网络正常秩序的关键。

2.规定媒体应肩负的社会责任和义务

媒体作为社会的一个团体,不管其性质是政府所有制媒介,还是私有制媒介,它既然提供了一个可供大众认知或发表信息的渠道与空间,其在充分享有法律给予的发布媒介信息自由权利的同时,必须承担相应的法律责任,那就是每种媒介都要对依赖它们而获知信息的公众或团体负有社会职责,这社会职责的大小应该有明确的法律规定。

3.加大媒介素质教育力度,促进传媒素养提高

媒介素养教育,它是为了应对各种媒介对人的各种不同影响进而提出的一种教育方法和教育思想。它的核心是使人们具备正确理解、使用、利用媒介信息,并对其意义有着自已独立的判断和价值的认知能力。

欧洲、北美洲、大洋洲、拉丁美洲、亚洲部分地区在20 世纪下半叶,已把媒介素养教育作为一种新的教学科目引入课堂,因此,我国适时提出并加强媒介素质教育,以提高人们传媒素养是很有必要的。

4.加大人力、财力、物力支持,加强组织体系建设

按省、市等行政级别建立相应的纵向网络舆情信息监控与引导的团队,同时扩大团队的组成,实行纵向部门有序对接,规定相关部门的职责人,积极调动各级部门的主动性,提高基层的参与度,使网络舆情信息监控不留死角,并做到有针对性的引导。

同时,建立各级相关职能部门参与的横向对接机制,扩大横向部门的参与力度,并确定各部门的责任人,实行联动机制。建立从政府、媒介机构、公众联动对接机制,完成立体防控体系。形成以媒介机构、政府为监控主体,公众作为网络舆情的受众。建立从网上与网下的联动互助机制。在预警工作中既要关注网上网络舆情信息的发展变化,又要关注网下网络舆情所造成的影响及动向,提高网上、网下的引导能力。

四、结语

本文通过以广西突发事件的网络舆情监测与引导研究为例,提出了为行政区域服务的网络舆情监测与预警系统构建的必要性和迫切需求,以简洁而直观的方式描述以行政区域为信息采集与管理操作单元的开创性思维构建舆情监测与预警系统的新思路,提出一系列具有现实操作性建议,有助于从总体上把握网络舆情监测与预警系统在突发公共事件所具有的作用和实施方法,为政府应对突发公共事件实施网络舆情监测与引导提供参考。

摘要：文章以构建行政区域(广西)服务网络舆情监测与预警系统为落脚点,深入研究当前网络舆情监测与预警系统的工作模式和工作流程,针对其数据采集和数据处理过程无法科学地做到针对性、实效性、全面性的欠缺,认为引入以行政区域作为信息采集与管理操作单元,可以克服该系统在分层、同步、异步处理机制上的不足,并提出构建科学、实用的网络舆情监测与预警系统的对策与建议。

舆情监测技术及应用综述篇9

随着信息技术和信息基础设施的不断发展,民众使用互联网的数目和比例越来越大。网络具有便利、快速、隐蔽等特性,越来越多的人通过网络来表达自己的思想观点,网络已逐渐成为社会舆情产生和传播的主要场所。网络舆情检测也成为信息处理研究的一个热点领域,网络舆情检测是个系统工程,涉及多方面的技术。本文对网络舆情监控系统中舆情采集、信息预处理、舆情分类等方面的所涉及的主流技术及舆情挖掘方面的应用进行了介绍。

1 网络爬虫

在信息采集过程中,主要使用网络爬虫(WebCrawler)技术。网络爬虫又称为网络蜘蛛(WebSpider)是一个自动提取网页的程序,是搜索引擎的重要组成。网络爬虫分为通用爬虫(General Purpose WebCrawler)和面向主题爬虫(Topical Crawler),网络舆情采集一般是面向行业领域采集,往往使用面向主题爬虫。面向主题爬虫与通用的网络爬虫不同,主题网络爬虫是面向主题的、有选择地爬行,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接。面向主题网络爬虫主要问题是URL搜索策略。主题网络爬虫主要有两种搜索

策略:基于Web链接分析的搜索、基于Web内容分析的搜索。文献[1]分析了Shark-Search搜索策略算法的优点,并对算法进行改进,提出利用URL地址的主题相关性优先级代替Shark-Search算法中的链接上下文主题预测值。URL搜索策略既要确定感兴趣的链接,也要剔除重复链接,文章第二节对消除重复的URL有专门的论述。

在舆情采集系统中使用的较多的是开源的面向主题的网络爬虫Heritrix[2],用户可以根据自己的需要进行修改移植。Heritrix是一个爬虫框架,可加入一些可互换的组件。Heritrix主要有三大部件:范围部件(crawl scope),边界部件(frontier),处理器链(processor chain)。范围部件主要按照规则决定将哪个URL入队。边界部件负责跟踪哪个预定的URL将被收集,和已经被收集的URL,选择下一个URL,剔除已经处理过的URL。处理器链包含若干处理器获取URL,分析结果,将它们传回给边界部件。工作流程是由爬虫维护的尚未访问URL列表被称为队列。该队列初始化的时候仅存放由用户或其他程序提供的种子URL。每次程序的主循环中,爬虫先从队列中取出下一个URL,通过HTTP协议将对应的网页爬取下来,然后解析内容,并且提取出包含的URL,将其中新发现的URL追加到队列中。最后将网页存放到本地磁盘的网页库中。爬取过程在积累到一定数量网页时即可终止;或者在队列为空的时候终止。

2 信息预处理

2.1 网页去重

网络中存在大量转载文章,造成信息的重复,因此网络爬虫会抓取到大量的冗余网页。抓取这些没有信息价值的冗余网页,降低爬虫工作效率,浪费存储空间,同时会影响后续的舆情分析的准确度,因此消除重复网页,是舆情监控系统中一个重要环节。

网页去重的方法有四类:基于信息指纹的方法、基于文本聚类的方法、基于URL的方法、基于网页特征码的方法。

基于信息指纹方法。信息指纹就是提取网页正文信息的特征,通常是一组词或再考虑权重,然后根据这组词调用某个的算法,将之转化为一组代码,这组代码就成为标识这个信息的指纹。根据评价函数判断两个网页信息指纹的相似程度,判断是否重复网页,这种方法对镜像网页识别度高。文献[3]利用网页文本的内容、结构信息,提出了基于特征串的中文网页的快速去重算法。

基于文本聚类的方法。把经过去噪的网页文章进行分词处理,根据词语的权重和字符编码计算网页文章的数值,根据一个给定值评判文章是否相似给予去重。聚类网页消重的优点是简单且易于实现,缺点是不易于大规模的判断网页,大规模计算速度很慢,而且这种算法的时效性比较差,如果出现一个新的网页就得重新聚类计算。文献[4]对文本聚类去重的方法做了些研究工作。

基于URL的方法。通过判断URL是否重复,如果重复网络爬虫不爬取。URL去重方法用在网络爬虫阶段,这种去重方法不仅提高了爬虫的工作效率,也节省了网页预先处理的时间。Bloom Filter是一种空间效率很高的随机数据结构,它利用位数组很简洁地表示一个集合,并能判断一个元素是否属于这个集合。利用Bloom Filter能够高效快速实现URL去重,文献[5,6,7,8]对基于Bloom Filter的URL去重开展了研究。

基于网页特征码的方法。这种方法基本思想是利用网页文档中句号等标识的前后各取几个词语作为特征码来标识唯一网页。文献[9]利用网页信息构造了主码和辅码,用二叉树实现去重,算法思想是,当主码完全相同时,两网页重复,此时的二叉树保持不变;当主码部分相同,比较辅码,如果两网页不重复,把被比较网页特征码插入到二叉树中,否则替换二叉树中的原有节点。文献[10]在基于特征码方法上做了改进,把主码和辅码形成特征串,计算两特征串的编辑距离与公共子串长度,比较特征串之间差异性得到网页的相似度而去重。

2.2 网页去噪

文献[11]指出广义的网页去噪包括:1)发现和去除重复的网页(如镜像网站、复制文章);2)去除网页中的噪音链接,所谓噪音链接指为了提高网页在搜索引擎中的排名,利用PageRank算法的原理故意制造互相引用关系的链接;3)去除网页内部的噪音内容,噪音内容是指网页中与应用目的不相符合的内容。在网络舆情监测系统中网页去噪通常是指第三种情况,将与网页内容无关的广告、导航条以及版权等信息尽量去除,保留感兴趣的网页主题信息。

典型的网页去噪算法有:基于启发式规则的去噪算法,基于树形结构的去噪算法等,还有学者提出了基于机器学习的网页去噪的思想。

启发式网页去噪方法利用一个网页内元素的特征,如位置、大小、字体、颜色等,采用贪心策略应用已定义的启发式规则去除噪音数据。文献[12]以一组启发式规则为基础,利用信息检索的技术以及Web网页的特征,提取网页的主题以及和主题相关的内容,从而达到网页净化的目的。文献[13]提出一种同层表间的比较迭代算法,通过迭代的方式对于网页中的噪声内容进行层层剥离。由于网页布局和内容风格经常变化,启发式规则存在与网页变化保持同步更新的困难。有学者提出利用VIPS算法[14,15]网页去噪,VIPS算法本身是用于分割页面,通过视觉特征和位置特征进行细致的对页面分割,在此基础上采用一定的启发式规则可以用于网页噪音的去除。

基于树形结构的去噪把网页看成是一个由元素节点构成的DOM(Document Object Model)树结构。文献[16]提出了一种基于统计学特征和DOM树的Web页面去噪方法。该方法首先对原始网页进行预处理,然后分析网页的统计学特征,结合启发式的抽取规则,对网页进行去噪。文献[17]提出一种利用网页模板的相似性,构建网页结构的DOM树,通过对DOM树节点的分析比较,快速有效地发现噪声模块的算法。

3 舆情分类

舆情分类是将采集到的网页信息归类,主要是用到自然语言处理中的文本分类技术和文本聚类技术。

3.1 文本分类

文本分类是按预先给定的分类体系,将文本集中的每个文本分到某个或者某几个类别中。文本分类,是有指导的机器学习方法。常见的文本分类方法有朴素贝叶斯方法,K近邻方法,支持向量机方法。此外,还与神经网络,决策树等方法。

朴素贝叶斯(naive Bayes,NB)方法。将概率论中的贝叶斯公式应用于文档自动分类,是一种简单有效的分类方法。通过先验概率和类别的条件概率来估计文档对某一类别的后验概率,通过比较概率值得大小实现文档所属类别的归类。文献[18]介绍朴素贝叶斯分类方法及发展。

K近邻(K-Nearest Neighbors,KNN)方法[19]。从训练集中找出与待分类文档最近的k个邻居(文档),根据这k个邻居的类别来决定待分类文档的类别。KNN方法的优点是不需要特征选取和训练,容易处理类别数目多的情况,缺点是空间复杂度高。KNN分类器是非线性分类器。

支持向量机(support vector machine,SVM)方法[20]。对于某个类别,找出一个分类面,使得这个类别的正例和反例落在这个分类面的两侧,而且这个分类面满足:到最近的正例和反例的距离相等,而且是所有分类面中与正例(或反例)距离最大的一个分类面。SVM方法的优点是使用很少的训练集,计算量小;缺点是依赖于分类面附近的正例和反例的位置,具有较大的偏执。

Rocchio方法。Rocchio算法是相关反馈实现中的一个经典算法,它提供了一种将相关反馈信息融到向量空间模型的方法。每一类确定一个中心点,计算待分类的文档与各类代表元间的距离,并作为判定是否属于该类的判据。

3.2 文本聚类

文本聚类是将文本集合分成多个类或簇,使得在同一个簇中的文本内容具有较高的相似度,不同簇中的文本内容差别较大。文本聚类是一种无监督的机器学习方法,不需要训练过程,也没有预先制定的文档类别。文本聚类依据的是著名的聚类假设:同类的文档相似度较大,而不同类的文档相似度较小。常见的文本聚类方法有:划分法,层次法,基于密度的方法,基于网格的方法,基于模型的方法。

划分法(partitioning methods)。给定一个有N个元组或者纪录的数据集,分裂法将构造K个分组,每一个分组就代表一个聚类,K

层次法(hierarchical methods)。这种方法对给定的数据集进行层次似的分解,直到某种条件满足为止。具体又可分为自底向上和自顶向下两种方案。例如在自底向上方案中,初始时每一个数据纪录都组成一个单独的组,在接下来的迭代中,它把那些相互邻近的组合并成一个组,直到所有的记录组成一个分组或者某个条件满足为止。代表算法有:BIRCH算法[24]、CURE算法[25]、CHAMELEON[26]算法等;

基于密度的方法(density-based methods)。基于密度的方法与其它方法的一个根本区别是:它不是基于各种各样的距离的,而是基于密度的。这样就能克服基于距离的算法只能发现“类圆形”的聚类的缺点。这个方法的指导思想就是,只要一个区域中的点的密度大过某个阀值,就把它加到与之相近的聚类中去。代表算法有:DBSCAN算法[27]、OPTICS算法[28]、DENCLUE算法[29]等;

基于网格的方法(grid-based methods)。这种方法首先将数据空间划分成为有限个单元的网格结构,所有的处理都是以单个的单元为对象的。这么处理的一个突出的优点就是处理速度很快,通常这是与目标数据库中记录的个数无关的,它只与把数据空间分为多少个单元有关。代表算法有:STING算法[30]、CLIQUE算法[31];

基于模型的方法(model-based methods)。基于模型的方法给每一个聚类假定一个模型,然后去寻找一个能很好的满足这个模型的数据集。这样一个模型可能是数据点在空间中的密度分布函数或者其它。它的一个潜在的假定就是:目标数据集是由一系列的概率分布所决定的。

4 舆情挖掘应用

4.1 话题检测与跟踪

话题检测与跟踪TDT(Topic Detection and Tracking)是对网络舆情通过聚类分析,把舆情归入不同的话题类别,通过算法发现感兴趣的话题,跟踪话题发展过程,是网络舆情监测中一个重要应用方向。

话题检测主要任务是检测新话题,在必要时候建立新的话题类别。检测话题的模型是能够识别舆情中的信息,归入已存在的类别或建立新的话题类别。建立话题检测模型本质上是对网络舆情进行聚类,是一种无指导的机器学习过程。话题检测的核心技术就是前文所述的文本聚类技术。根据话题检测这个应用领域,研究者对聚类算法做了很多的扩展改进工作,文献[32]采用的多策略优化的分治多层聚类算法处理中文语料,其性能已追平目前最好的话题发现算法在英文语料上的测试成绩;文献[33]提出了层次化话题与层次聚类的概念,层次化聚类有助于聚类效果。

话题跟踪是根据已存在的话题从网络舆情中检测出新报道。话题跟踪的模型是利用已经存在的话题类别,跟踪网络舆情中相关类别的话题报道。建立话题跟踪模型关键技术是前文所述的文本分类方法,是一种基于统计的机器学习过程。根据话题跟踪这个应用领域,研究者对分类算法做了很多的扩展改进工作。文献[34]提出基于Web的有监督自适应话题追踪技术研究,通过调整关键字权重和增量学习的方式来提高追踪系统的性能;文献[35]提出了一个自动学习的有限混合模型,模型能够话题检测,自适应实时跟踪话题,该模型能够检测话题结构的变动,实现自动跟踪热点话题。

4.2 文本情感倾向分析

文本情感倾向分析,又称情感挖掘(Opinion Mining),是指对体现文本主体偏好、观点、情感的主观性文本进行检测、分析、挖掘的过程。文本情感分析是信息处理技术中一个新兴的研究方向,具有很大的应用价值,受到越来越的研究者的关注。从文本粒度上考察,目前情感分析的研究方法主要有三类:基于词语的情感分析、基于语句的情感分析、基于篇章的情感分析。

在基于词语的情感分析中,带有情感倾向性的词语被定义为情感词。情感词能够体现作者的偏好、观点、情感。情感词可以是形容词,动词、名词、副词。情感倾向分析过程就是对于一个给定的词语,使用算法进行情感倾向判断。词语的情感倾向判断方法主要有基于语料库和基于词典两种方法。文献[36]建立基于二元语法依赖关系的情感倾向互信息特征模型,利用特征集合描述情感极性,通过机器学习方法训练分类器,自动判别词语的情感倾向性。文献[37]挑选常用的情感词构成一个基础情感词语集,并采用词语相似度方法计算出每个词的情感倾向权值,提出的情感词权值计算方法,不要求种子词数量相等。

由于语言表达形式多样性,同一个词语在不同的上下文环境中所表现出来情感倾向不一样。句子比单词更能体现作者的情感倾向。基于语句的情感分析首要任务是识别主观性语句,对主观性句的褒贬性的判别,以及对语句中情感倾向的细粒度提取。文献[38]利用领域本体来抽取主观句的主题以及它的属性,然后在句法分析的基础上,识别主题和情感描述项之间的关系,从而最终决定语句中每个主题的情感极性。文献[39]提出了基于知网的语义距离和语法距离相结合的句子褒贬倾向性计算方法利用夹角余弦法对语义倾向进行了改进。

基于篇章的情感分析是指将文本从整体上区分为褒义、贬义或中性。基于篇章的情感倾向分析一般应用于主题单一、倾向明确的文章。该任务类似于文本分类问题,对于所有文章,分为褒、贬两大类,通过分类算法将文本归入其中某个类别。

5 结束语

网络舆情监测日益受到关注,越来越多的人投入到这一研究领域上来。在理论层面上网页的去重、消噪、文本分类、文本聚类等领域还可以在算法上开展深入的研究,开发更加高效快速的算法。在应用层面上话题检测与跟踪技术可以结合行业领域开发出专业性话题跟踪检测系统;文本情感倾向分析尚处于研究开始阶段,需要建立新的研究模型,推出新的技术和方法来开发出高效的情感分析系统投入应用中。

摘要：针对网络舆情检测的关键技术及应用做了介绍。按照舆情监控的处理流程对网络爬虫、网页消重、网页去噪、文本分类、文本聚类等技术做了细致的介绍。对各种技术分类介绍了一些常用的算法。接着对舆情挖掘的应用方向话题跟踪与检测和情感倾向分析做了介绍。最后分析了舆情监测在理论研究和应用上的发展趋势。

网络舆情监测技术研究综述篇10

随着信息传播技术的发展和普及, 网络作为信息交流和知识共享的最好平台, 被公认为是继报纸、广播、电视之后的“第四媒体”, 成为反映社会舆情的主要载体之一。对网络舆情的研究逐渐得到学者的关注和重视。

根据《第26次中国互联网络发展状况调查统计报告》, 截至2010年6月30日, 中国网民规模达到4.2亿人, 稳居世界第一, 普及率达到31.8%[1]。面对如此庞大的网民数量, 网络舆情已经引起政府部门和企业单位高度的关注[2]。

各级党政机关、企事业单位和学术机构纷纷成立了网络舆情研究部门或机构。北京交通大学、中国人民大学、南京大学、中国传媒大学、中国科学院研究院等知名高校成立了专门的研究机构, 吸引了工、管、经、理、文、法、哲等领域的专家进行研究。国内外软件厂商也纷纷开发出自己的舆情监控软件。在国内, 比较有代表性的网络舆情监测系统有方正智思互联网信息监控分析系统[3]、TRS互联网舆情管理系统[4]和Goonie网络舆情监控分析系统[5]等。这些系统在“5.12汶川地震”、“抵制家乐福”、“邓玉娇事件”等事件中发挥了重要的作用。

本文将对网络舆情监测技术的研究现状进行综述, 并结合人才信息网的特点提出了若干应用设想。文章的余下部分按如下方式安排:第二节介绍网络舆情监测的概念;第三节介绍网络舆情监测的关键技术及其研究现状;第四节提出网络舆情监测技术应用到人才信息网中的构想;第五节是小结。

2、网络舆情监测的概念

网络舆情监控系统是近年来人工智能技术的重大应用, 它整合互联网搜索技术及信息智能处理技术, 通过对互联网海量信息自动抓取、自动分类聚类、热点发现和分析、专题聚焦等, 实现对网络舆情监测和新闻专题追踪等需求, 形成简报、报告、图表等分析结果, 为政府部门和企业全面掌握网络舆情、争取处置主动权提供有效分析依据。

3、网络舆情监测关键技术和研究现状

从技术角度来讲, 网络舆情监测系统是众多技术结合的成果, 其中最核心的是自然语言处理 (NaturalLanguage Processing, NLP) 技术, 自然语言处理是语言信息处理的一个分支, 也是人工智能 (Artificial Intelligence) 的核心课题之一。在网络舆情监测的各不同处理阶段中, NLP技术都起到了关键作用。

在网络舆情监测处理过程中, 一般包含如下基本步骤:网络舆情采集, 舆情自动分类, 话题识别与跟踪, 文本情感分析等。下面我们将以这五个步骤为线索分别介绍网络舆情监测中各关键技术的研究现状。

3.1 网络舆情采集

在信息采集步骤中, 主要包括网络爬虫 (Web Crawler) 和网页清洗 (Web Page Cleaning) 等技术。

网络爬虫是一个按照一定规则自动抓取网络信息的程序, 又称为网络蜘蛛 (Web Spider) 。网络爬虫分为三类:通用爬虫 (General Purpose Web Crawler) , 面向主题爬虫 (Focus Crawleror Topical Crawler) , 面向Deep Web爬虫 (Deep Web Crawler) 。考虑到网络舆情监测一般是面向行业监测, 倾向于使用面向主题爬虫。“面向主题爬虫”这一概念由S.Chakrabarti在1999年WWW大会上首次提出[6], 与通用的网络爬虫不同, 主题网络爬虫是面向主题的、有选择地爬行。主题网络爬虫主要有两种技术:基于Web链接分析的搜索、基于Web内容分析的搜索。[7]通过改进的Shark-Search搜索策略算法对网页中提取的URL进行预测, [8]通过计算网页内容及主题相似性, 实现了基于开源Larbin的主题网络爬虫Tlarbin。应用广泛开源软件有Larbin[9]、Heritrix[10]和Nutch[11]。

网页清洗就是从网页中过滤掉“噪声”数据, 提取出网页中有价值的信息内容。网页清洗分析方法主要分为三类:基于树结构分析方法, 基于Web挖掘方法, 基于正则表达式方法。基于树结构分析方法应用最广, 开源软件Htmlparse[12]是比较有代表性的工具, 缺点是高度依赖每个网站网页的结构。文献[13]提出一种基于Web挖掘的网页清洗方法, 通过建立HTML标记信息和数据冗余的噪音判别模型取得了良好的去噪效果。文献[14]通过使用Xpressive技术实现了一种基于静态正则表达式的网页清洗方法, 该方法算法直观简单易实现。

3.2 网络舆情分类

网络舆情分类是将收集的舆情进行自动分类, 是整理和发现舆情的关键步骤, 主要运用到自然语言处理中的文本分类 (Text Categorization) 和文本聚类 (Text Clusters) 等技术。

文本分类是模式识别与自然语言处理密切结合的研究课题, 是在给定的分类体系下, 根据文档的内容自动地确定文档关联的类别。文本分类研究始于20世纪50年, 在20世纪90年代前主要以知识工程方法为主, 之后, 基于统计机器学习方法称为研究的主要方向。知识工程方法是由人工定制规则进行分类, 繁杂且适用性差;目前统计机器学习得到了长足的发展, 常用的方法有Na觙ve Bayes[15]、k NN方法[16]、类中心向量法[17]、回归模型[18]、支持向量机[19]、决策树[20]等。文献[21]表明支持向量机 (SVM) 分类器、k NN的分类效果要强于其它方法, 但在应用中, Na觙ve Bayes分类器因其算法简单也常被使用。

文本聚类区别于文本分类, 是一种无监督的机器学习方法, 主要是依据著名的聚类假设:同类的文档相似度较大, 而不同类的文档相似度较小。文本聚类算法很多, 包括:基于平面划分法k-means算法[22]和kmediods算法[23];基于层次划分法CURE算法[24]和BIRCH算法[25];基于密度划分法DBSCAN算法[26]和OPTICS算法[27];基于网格划分法STING算法[28]等。目前应用中, 基于平面划分和基于层次划分的算法使用比较多。

3.3 话题识别与跟踪

话题识别与跟踪 (Topic Detectionand Tracking) 是对网络舆情聚类分析后, 通过算法找出热点问题, 并通过算法跟踪话题发展过程, 是网络舆情监测中核心技术。话题识别与跟踪研究始于1996年美国DARPA提出一种能自动确定新闻信息流中话题结构的技术, 从1998年开始, DARPA和NIST资助并主持了话题识别与跟踪系列测评会议。目前, 主题检测与跟踪研究集中于五个子任务展开, 各个子任务的解决将有助于最终研究目标的实现。这五个子任务包括:对新闻报道的切分子任务 (Story Segmentation) 、新事件的识别子任务 (New Event Detection, Formerly First Story Detection) 、报道关系识别子任务 (Story Link Detection) 、话题识别子任务 (Topic Detection) 、话题跟踪子任务 (Topictracking) 。其中话题检测和话题追踪是核心问题[29]。

话题检测主要任务是检测新话题并收集后续相关报道, 主要集中在聚类方法的选择与融合上, CMU使用Single-pass算法进行新事件的探测, Single-pass算法计算简单、运算速度快, 但过分依赖于新闻语料被处理的顺序[30];文献[31]提出一种改进的K均值算法 (I-IKM) 用于热点话题发现, 该算法使用密度函数法进行聚类中心的初始化, 执行结果受新闻语料被处理顺序的影响较小, 应用于热点新闻事件检测;文献[32]采用的多策略优化的分治多层聚类算法处理中文语料, 其性能已追平目前最好的话题发现算法在英文语料上的测试成绩;文献[33]提出了层次化话题与层次聚类的概念, 层次化聚类有助于聚类效果, 已应用于事件检测领域。

话题跟踪主要任务检测出与某一己知话题有关的新报道, 话题跟踪的相应研究已经取得很好的效果, 但如何更有效地追踪话题的后续发展仍然是该领域有待深入研究的课题。近期更多的研究集中于相关报道的概率分布和话题随时间衰减趋势的估计。话题追踪技术核心是机器学习和分类算法的应用。CMU使用kNN和决策树方法进行基于文本的新闻主题相关事件追踪[34];而UMASS大学则根据词法特征来进行事件跟踪[35];文献[36]提出了利用一个有限混合模型动态追踪话题发展趋势的方法, 该模型集话题发现、新事件发现及话题追踪于一体, 可实现实时动态话题趋势分析;文献[37]提出基于Web的有监督自适应话题追踪技术研究, 通过调整关键字权重和增量学习的方式来提高追踪系统的性能;

3.4 文本情感分析

文本情感分析 (又称文本倾向性或意见挖掘 (Opinion Mining) ) , 是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。文本情感分析是自然语言处理技术中新兴的研究课题, 具有很大的研究价值和应用价值, 一般来说, 它分为三个主要研究任务:情感信息抽取、情感信息分类、情感信息的检索与归纳[38]。

研究者对文本情感分析的研究刚开始, 大多都是基于自然语言处理在信息抽取、文本分类、语料库等研究成果中延续。文献[39]以Hownet和NTUSD两部中文情感词词典为基础, 对博客搜索结果进行了情感词提取和分析;文献[40]中利用词性标注、命名实体识别、句法分析等方法研究成果构建规则模型应用于评价对象的抽取;文献[41]使用最大熵 (Maximum Entropy) 模型来进行计算所有名词短语中的观点持有者;文献[42]详细对比了SVM、最大熵和NB这三种情感分类器;文献[43]显示情感信息检索任务最早出现在2004年, 2006年TREC (Text Retrieval Evaluation Conference) 首次引入了博客检索任务 (Blogtrack) [44]。文献[45]对每个实词查找其极性, 对于非中极性的词语查看其修饰前缀, 计算其上下文极性, 最后计算整段评论中倾向性表达的密度和强度, 根据这两个数值, 划分整段评论倾向性的等级, 并将其应用于网络舆情监测系统中。

4、在人才信息网中的应用构想

随着Intenet应用的进一步普及, 人才信息网络正逐渐成为人才和企业对接的重要平台, 舆情监测技术作为一种新兴技术在人才信息网络建设中也可找到其用武之地点。本节将提出我们把网络舆情监测技术应用到人才信息网的两点设想。

设想一, 随着人才信息网络使用的普及, 其中所发布信息也受到越来越多人的关注和浏览。因此, 为了防止恶意个人或单位假借发布简历或招聘信息在人才网发布非法言论, 人才网络后台必须对用户所发布的信息进行有效的监测并过滤包含不良信息的内容。因此, 我们设想结合第3节所介绍的舆情监测技术, 如:文本话题识别与跟踪技术、文本情感分析技术等来实现这点应用。

设想二, 网络舆情监测技术除了能提供一般意义下的舆情监测实际上也能针对特殊领域, 通过信息的归类、挖掘, 等技术, 将可能挖掘出行业受社会需求的关注度、具体企业的评价等信息, 作为从业的有效信息补充, 为人才服务。

5、总结

本文来自 360文秘网(www.360wenmi.com)，转载请保留网址和出处

【舆情监测系统】相关文章：