热点发现

2024-06-28

热点发现(精选七篇)

热点发现 篇1

作为第四张网,中国移动国内已部署AP超过三百万个,定位于有效应对互联网竞争和支撑流量经营的网络能力重要组成部分,提供高接入速率、低QoS的互联网接入服务,深入研究宏蜂窝网与WLAN网络的协同发展意义重大。

一、网络协同必要性

数据显示,GSM网络做为运营商规模庞大、覆盖最广的基础网仍将长期存在。许多城市GSM无线利用率高,GPRS负荷较重,等效数据流量占比过高将影响语音通话承载能力。WLAN作为第四张网络的数据分流作用较有限,许多公众热点AP利用率不足,存在大量超闲,尚有大量数据分流潜力。

分析数据业务无法有效疏导的原因,一方面在于用户不会用,用户手机用户终端Wi Fi处于关闭状态,用户不知道WLAN热点的具体位置,使用数据业务仅驻留在蜂窝网络,WLAN使用习惯需要培养。另一方面在于用户不想用,因为接入运营商WLAN网络认证设置繁琐,不像蜂窝网使用数据业务那么简易,体验差导致用户使用意愿不高。因此,创建WLAN热点自动发现和简化认证机制,探索宏蜂窝网和WLAN接入网有效融合、协同分流,对于发展电信级WLAN网络具有重要意义。

二、GW双网协同方案

2.1网络架构与策略

在现网中,蜂窝网和WLAN网络是独立的两张网,之间没有信息交互机制。针对该情况,提出蜂窝网与WLAN融合方案,打通BSC和AC的信息通道,可有效实现GSM数据业务分流,同时联合EAP-PEAP等无感知认证手段,可以有效解决用户接入体验差的问题。

在GSM网络侧,BSC通过软件升级支持与AC信息记录,实现宏网对WLAN热点自动发现及提醒能力。在WLAN网络侧,AP/AC具备PEAP无感知认证功能。在用户终端侧,开发并安装热点自动提醒APP定制软件,实现由终端数据流量触发的GW网络协同。终端发起数据业务的时候,终端向基站控制器BSC进行注册和相关信息的上报,BSC配置蜂窝网Cell ID和WLAN AP的相关信息,控制器可向终端发送热点发现通知消息。终端根据接收到的热点发现通知消息启动WiFi模块,自动扫描用户所在地周边AP并选择最优的接入,享受高速数据业务网络服务。

当然,在进行网络选择及切换是,宏网和WLAN网络均应设置切换门限,切换门限需综合考虑网络负载、响应时延、用户行为等。通过网络参数优化,智能引导用户将带宽需求高、使用流量较大的业务分流到WLAN,以缓解GSM/TD数据流量压力,通过WLAN提供的高带宽,提升大流量业务以及访问互联网的用户体验。

2.2数据分流效果

通过部署GW网络协同,将终端用户从使用WIFI的繁琐过程中释放出来,无需输入账号、密码,无需手动开关终端上的WIFI功能键,无需人工搜网选网……,一切都是透明的,都由网络侧来代劳,带给终端用户“一张网”的用户体验。在用户体验提升的带动下,校园整体数据业务量有了大幅攀升。从测试统计数据来看,WLAN忙时在线用户数量上升26.7%,忙时峰值流量提升56.3%;GSM分流效果显著,在整体数据业务量攀高的前提下,GPRS业务量稳中有降,降幅高达6.5%,日均GPRS流量高于3M的用户数量下降28.57%。

三、总结

通过GSM和WLAN两张网的控制器协同与融合,用户信息、网络信息以及业务信息可以在两张网间有效共享,从而方便网络依据业务类型、签约数据、网络负载等状况灵活的调整终端用户的接入方式,最大限度提升稀缺资源———频谱的使用效率。应用测试也证明蜂窝网路和电信级WLAN网络深度融合的具有巨大价值。

参考文献

[1]3GPP system to WLAN interworkingUE to Network protocols.Stage 3.3GPP TS 24.234.2006.

热点发现 篇2

慑,优化生态

导语:中公时事政治频道更新国内国际时事政治热点,并提供时事政治热点、时事政治模拟题、时事政治政策解读、大事记以及时事政治汇总等,今天我们关注——-时政热点:巡视利剑:发现问题,形成震慑,优化生态。

政论专题片《巡视利剑》,通过大量鲜活案例与身边故事,以艺术化方式生动呈现了十八大以来巡视制度的运作情况及其功能发挥,阐明了巡视工作在全面从严治党中的重要作用,观后令人深受教育,并获得了深刻的警示。

用好巡视利器,推动全面从严治党。党在长期执政条件下所面临的最大危险,就是腐化变质的危险。为了有效预防和坚决扼制腐败,就必须加强党内监督。党的十八届六中全会指出,党内监督要“尊崇党章,依规治党,坚持党内监督和人民群众监督相结合,增强党在长期执政条件下自我净化、自我完善、自我革新、自我提高能力”。总书记指出,巡视是党内监督的战略性制度安排,必须有权威性,成为国之利器、党之利器。他强调“巡视是党章赋予的重要职责,是加强党的建设的重要举措,是从严治党、维护党纪的重要手段,是加强党内监督的重要形式”。十八届六中全会强调,党内监督的任务是确保党章党规党纪在全党有效执行,维护党的团结统一,重点解决党的领导弱化、党的建设缺失、全面从严治党不力,党的观念淡漠、组织涣散、纪律松弛,管党治党宽松软问题,保证党的组织充分履行职能,发挥核心作用,保证全体党员发挥先锋模范作用,保证党的领导干部忠诚干净担当。十八大以来,以习近平同志为核心的党中央,从加强和改进党的领导这一根本原则出发,把巡视作为全面从严治党的重大举措,赋予巡视制度新的活力,研究巡视工作,确立巡视工作方针,系统阐述巡视任务,对发现的问题有针对性地评判,对落实整改责任、运用巡视成果作出指示,坚持巡视工作全覆盖,通过巡视这一手段抓住并推动解决党和国家根本性、方向性、全局性问题,使巡视利剑作用得到充分发挥,有力推动了全面从严治党向纵深发展。实践证明,巡视监督是党内监督和群众监督相结合的有效方式,彰显中国特色社会主义民主监督的制度优势,是管党治党的利器,必须用好用够用足。

利剑高悬,发现问题,形成震慑。总书记指出,坚决反对腐败,防止党在长期执政条件下腐化变质,是我们必须抓好的重大政治任务。反腐败高压态势必须持续保持,坚持以零容忍态度惩治腐败。对于腐败分子,发现一个就要坚决查出一个,不能养痈遗患。2014年,在中央纪委三次全会上,总书记指出:滋生腐败的土壤依然存在,反腐败形势依然严峻复杂,一些不正之风和腐败影响恶劣,亟待解决。全党同志要深刻认识反腐败斗争的长期性、复杂性、艰巨性,以猛药去疴、重典治乱的决心,以刮骨疗毒、壮士断腕的勇气,坚决把党风廉政建设和反腐败斗争进行到底。党的十八大以来,党中央把巡视工作摆上更突出的位置,总书记亲自部署,提出“发现问题,形成震慑”的巡视工作方针,提出一系列理论创新,实践创新,制度创新,让巡视这一借鉴传统督察制度的党内监督方式,焕发出全新的活力和更大的威力,充分发挥了警钟长鸣、利剑高悬的震慑作用和发现问题、解决问题、遏制腐败的作用。正如总书记所说:“巡视组要当好党中央的‘千里眼’,找出‘老虎’‘苍蝇’,抓住违纪违法线索。要落实监督责任,敢于碰硬,真正做到早发现、早报告,促进问题解决,遏制腐败现象蔓延的势头”。事实是最好的证明,十八大以来,中央巡视组以问题为导向,真巡视,真监督,真发现问题。中央十二轮巡视发现各类突出问题8200余个,并及时处理,使党内监督职责得以真正落实,有效地遏制了腐败现象,很好地维护和促进了党和国家的肌体健康。

热点发现 篇3

关键词:网络舆情事件 热点 发现算法 比较分析

中图分类号:TP393 文献标识码:A 文章编号:1674-098X(2015)06(c)-0217-01

网络舆情事件由于主要通过网络传播,而网络也是一个公众性极为突出的平台,因此对于其发生的舆情事件的分析也能够非常容易的通过数据运算实现。网络舆情事件虽然传播于网络,但一般仍然是以现实社会为基础所产生的,因此其现实意义也非常重要,通过对网络上的舆情发生和走向分析,能够从一定程度上反映出社会中的实际舆情走向。

1 网络舆情事件分析

1.1 宏观网络舆情事件分析

宏观角度分析舆情事件主要是指事件热点或焦点程度,以及其在网络舆论中造成的影响等。对网络舆情事件的热点数据分析,首先要明确宏观性的舆情事件特点;其次有针对性的进行其具体热点数据分析,实现对整个事件舆论状态及发展走向的整体分析。

1.2 微观网络舆情事件分析

微观角度分析网络舆情事件主要就是根据网络上的事件点击、转发、讨论人数等具体信息进行数据的统计、计算和分析,这种分析更加注重实际的网络数据,虽然其结果更加具体化,但由于网络信息量的庞大,其分析工作量也是同样巨大的。

2 网络舆情事件热点识别与检测

在网络舆情事件的识别与检测中,识别是一项相对比较简单的工作,根据具体的网络事件热度进行简单分析就能够判定出是否热点事件,而舆情事件的热点检测是一项对具体数据要求较高的工作任务,因此需要有准确的数据统计、计算和对比分析才能实现。另外舆情事件最大的特点就是变化性强,根据不同时期事件的发展变化走向,需要进行同步信息和数据的掌握,才能够随时准确的反映事件的热点程度,从而全面的掌握网络舆情走向。同时根据事件的多面性也要针对不同的事件反映或讨论结果进行多元化信息分析,对比结果或讨论观点的热度走向等,进而做出相应的舆论干预策略。

3 网络舆情事件热点发现算法

3.1 single pass单程事件识别算法

这种算法是根据某一单独事件或某一类事件进行的相应数据计算和分析,其分析所需要的数据有事件的关键字及其出现的频率,有关事件的话题出现和查询的频率等。以Di表示某一话题,每个与话题相关的事件都作为一个向量,事件的热点计算公式如下:

然后进行信息的预处理对各项数据分类、过滤、识别、匹配,再根据其中的热点数据进行发现和运算,将运算结果作为未来的跟踪对象,实施持续性的热点数据统计与计算,最终完成对整个事件的热点分析及评估。这种算法对于事件热点的数据分析比较科学,同时算法也比较容易,是一种好操作的常用热点事件计算方法之一。

3.2 KNN最邻近事件分类识别算法

KNN最邻近事件是指在某一热点事件范围内,所出现的不同角度的各种话题,这种通过分类和对比的方法进行的热点事件运算能够对当前热点事件进行全面、准确的数据运算,同时客观的反映出事件不同话题的热点程度,掌握整个事件在网络中的舆论状态。首先根据事件相关的各个话题进行基本的搜寻;其次对不同的话题根据时间先后进行划分,并针对不同时期话题所出现的关键字及其数量、频繁、类型等信息进行统计分析,最终计算出其中最为相近的几个话题,根据其热点程度进行由重到轻的分类和排序,最终实现对各个话题的全面分析。

3.3 SVM支持向量机事件识别算法

这种算法一般是针对同一时期的不同热点事件进行的热点识别算法,由于网络信息量的庞大,决定了在同一时间内不可能仅仅有一个事件是热点,如何针对这些同一时间内的热点事件进行识别与热点运算,就是SVM算法能够解决的问题。通过函数算法能够将事件的热点计算更加精确,但是算法相对复杂,普遍应用性稍差。

3.4 K-means平均值事件识别算法

根据网络事件发生情况建立起K平均聚类的模型,计算不同话题与中心事件的距离为根本,来判定其热点程度并根据结果实行相关的报道。具体的算法是,以某个话题中心为Di,以Ci表示不同事件,公式如下:

m是与话题相关事件文档的数量。这种算法对于一些话题比较集中的热点事件比较适用,难易程度相对较低,容易快速实现对事件的热点数据分析。

3.5 SOM自组织映射事件识别算法

这种算法是一种非常容易实际运用的事件热点计算方法。首先针对最先出现的热点事件进行信息收集与提取,针对其热点特征进行基本的分析;其次建立起以些热点为基础的映射事件组织,根据随时出现的相关话题或报道与热点事件的关系,及出现的时间先后进行事件的热点分析和舆情走向分析,从而掌握事件的发展规律或发展方向。

4 网络舆情事件热点算法比较

single pass单程事件识别算法是最基本的事件热点算法,它主要是针对网络信息环境下事件不断发展变化的特点所适合的热点运算方法,同时能够很好的反映出事件的变化情况。

KNN最邻近事件分类识别算法虽然运算比较复杂,但其结果也是非常准确的,缺点是对不同事件的存储需求较高,信息的输入、读取的运算复杂。

SVM支持向量机事件识别算法能够以最安全、最精确的运算识别出不同事件的热点程度,但其复杂的运算方法使其广泛运用受到限制。

K-means平均值事件识别算法能够根据事件的基本发展情况和话题状态进行有效的数据分析,同时计算方法也比较简便,在监测网络舆情走向时有效性非常明显。

SOM自组织映射事件识别算法所设计的映射类聚能够根据各种事件或不同事件之间的关联建立起完整的聚类,并进行相应的运算,在对比不同事件的热点分析时能够有效和准确的掌握具体的网络舆情。

5 结语

针对不同的网络舆情事件算法进行分析,要将网络上的信息更加具体化,通过数据的形式来表现不同舆情事件所造成的影响,是一项非常直观、易于研究的方式。

参考文献

[1]柳虹,徐金华.网络舆情热点发现研究[J].科技通报,2011(3):421-425.

基于FCM并行算法的微博热点发现 篇4

关键词:微博热点发现,并行FCM聚类算法,改进的VSM模型,MapReduce框架

0 引言

微博是网络进入2.0时代之后,产生的一种新型社会媒体。微博具有易用性、方便性和实时性的特点,它一出现就迅速获得大批用户[1]。根据《第35次中国互联网发展情况报告》[2]的数据显示,截止2014年12月,中国网民规模已经突破6.49亿,其中手机网民规模达到5.57亿。国内所有微博站点中新浪微博的影响力最大,它在2013年注册用户总量就已经突破了5亿大关,2014年新浪微博的月活跃用户达到1.67亿。由此可见,微博已成为最有影响力的网络社交平台。

微博在信息传播方式上不同于传统媒体,微博用户以一种基于关注和粉丝的模式联系起来,这种基于情感上的联系使得信息的接受者很容易相信消息的真实性和准确性。因此一个话题在微博上的传播速度和造成的影响要比传统媒体大得多。但是绝大多数微博用户往往受自身知识水平的限制,在转发或评论微博时,很难从客观上判断消息的真实性。除此之外,爆炸性话题的眼球效应,也很容易使用户忽略对消息真实性的判断。微博的这些特点极易造成信息的过度泛滥,这为不法分子制造有害言论提供了可乘之机。因此及时从微博中发现热点话题,不仅会对舆情监控、社会稳定产生重要影响,对信息安全和国家安全也有深远意义[3]。

微博热点话题发现的基础是文本建模,向量空间模型(VSM)是最常用的文本模型,为了使VSM模型更好的反映微博的特点,需对VSM模型进行改进。话题发现的核心是文本聚类,模糊C均值算法(FCM)是一种相对高效的聚类算法。但新浪微博平台每天都会产生数千万条甚至上亿条微博,面对如此庞大的数据,还需要研究FCM并行算法,以便于更好地处理海量微博数据。

1 相关研究

近年来,微博数据挖掘和微博影响力分析受到学术界的广泛关注。话题发现是微博数据挖掘中最具代表性的研究方向之一。话题发现与跟踪TDT(topic detection and tracking)[4]的目的是帮助人们从海量数据中挖掘知识,应对信息过载的问题。目前国内外关于TDT的研究主要集中在两个方面:1)改进或创新文本表示模型;2)改进或研究更高效的聚类算法。

文本表示就是把文字信息转换成计算机能够处理的形式,目前,使用最广泛的文本表示模型有两种,分别是隐含狄利克雷分布LDA(Latent Dirichlet Allocation)模型和向量空间模型VSM(Vector Space Model)。LDA模型[5]是由Blei等人在2003年提出的一种三层贝叶斯概率模型,许多学者在基于LDA模型的微博话题发现研究上取得了令人满意的成果。考虑到可以在选取微博时过滤噪声数据,提高数据纯度。文献[6]利用微博时间属性和出现次数选取可能的热点微博,在提高话题发现的准确性上获得良好的效果。LDA模型虽然能够对微博进行有效地降维,但模型复杂度偏高。VSM模型理论成熟[7]、构造简单、复杂度低,已经在著名的SMART文本检索系统中得到成功应用。国内外学者在基于VSM的话题发现上做了大量工作。文献[8]提出了基于热点话题与热点词相关的动态向量空间模型(D-VSM),对研究网页上话题的动态提取有借鉴意义。文献[9]在研究单词权重的基础上,采用VSM模型,对网页新闻进行话题发现。本文根据微博特点对VSM模型中特征词权重的计算方法进行改进,使其更符合微博话题发现的要求。

同时,聚类是微博热点话题发现的核心环节[10]。文献[11]针对聚类初始时话题模型不够准确的问题,提出了使用增量式Single-Pass聚类算法降低话题漏检率的方法。但是Single-Pass算法存在对输入顺序敏感的问题,于是文献[12]提出了一种增量式的层次聚类算法,该算法兼具凝聚聚类算法和划分聚类算法的部分优点,实验表明算法结果近似最优解。但层次聚类算法的计算复杂度为O(n×n),随着数据规模的增长,算法的效率会变得越来越差。基于划分的聚类算法以其较低的计算复杂度,在处理大规模数据集时常常作为优先考虑的算法[13]。模糊C均值(FCM)算法[14]是一种经典的基于划分的聚类算法,它的计算复杂度是O(k×r×n),(k,r<<n),是近似线性的复杂度[15,16]。目前,FCM较多地应用在图像分割研究中。文献[17]针对FCM算法的迭代次数偏多的问题,提出一种改进的FCM算法,该算法还融合了EM和KCN两种常用的图像分割算法的特点,有效提高了带噪图像的分割精度。文献[18]提出了先通过一种四叉树结构确定聚类中心,再进行聚类的算法,该算法降低了图像处理的时间复杂度,对研究通过优化FCM初始聚类中心来提高算法效率的问题有重要的参考意义。本文考虑到微博海量数据处理的要求,将FCM算法应用于微博话题发现,同时考虑到并行分布式算法的巨大优势,基于MapReduce平台设计了微博热点话题发现模糊C均值并行(HTD-PFCM)算法。

综上所述,本文在研究微博海量数据的基础上,对传统VSM模型中特征词权重环节进行了改进,使其更符合微博特点。针对串行聚类算法处理海量数据的不足,设计了HTD-PF-CM算法。

2 微博热点话题发现

微博热点,即一段时间内大量微博用户讨论的一个或几个焦点话题,是一段时间内用户热切关注的与自身利益密切相关的一系列事件的集合,是用户诉求的集中体现。微博热点话题发现就是要从一段时间内的微博文本中找到参与用户最多的话题。

微博热点发现模型主要包含三部分的内容:1)微博数据采集与预处理;2)对微博文本建模即文本表示;3)微博文本聚类。主要过程如图1所示。

微博数据采集就是从互联网上获取用户已经发布的微博文本。最常用的两种微博文本获取方法是:1)微博API;2)微博爬虫。微博API接口的调用次数和返回的数据量往往都受到限制;而微博爬虫能不受限的爬取数据,但是技术相对复杂。两种方式获取的数据都充满了大量的噪声,需要进行降噪处理。文本采集结束后需要进行分词处理。目前,中文分词效果比较好的分词系统是中科院研制ICTCLAS系统,该系统不仅能实现词性的标注,还支持停用词表。微博文本处理时常常忽略结果中的停用词,同时也把副词、连词、形容词也一并忽略,只保留名词,这些名词作为微博文本的特征词。

特征词提取后,需要给每个特征词一个权重,权重的选择需要构造一个评价函数,常用的评价函数有:信息熵、互信息和TF-IDF。其中TF-IDF在信息检索中最常用,因此很多话题发现系统选用特征词的TF-IDF值作为特征词的权重,即w=tf×idf。

微博文本表示的本质是文本向量化,对文本向量进行聚类的基础方法是计算文本相似性,文本相似性度量常采用夹角余弦公式,即:

其中,di、dj分别代表文本集合中的第i和第j个微博文本,而dij代表第i个微博文本中的第k个特征词。文本相似度是一个数值,它的取值范围是大于等于0小于等于1,数值大小与相似度成正比关系。

3 改进的微博文本向量空间模型

向量空间模型(VSM)是一种基于统计的文本表示模型,一个文本用一组特征词来表示,其形式化描述如下:

其中,ti(i=1,2,3,…)表示第i个的特征词,wi表示第i个特征词的权重。一个文本集合就是一个二维矩阵,矩阵的行数表示微博文本的数量,列数表示提取的特征词的总数。

微博热点话题发现的研究对象是微博,因此需要充分考虑微博网络的特点。微博热点话题往往与热门微博有关,一个与热点话题有关的微博文本常常引来大量的评论和转发,这种微博中的特征词应该给予更高的权重。

本文重新设计了特征词的权重计算方法,改进的方法更符合微博的特点。

3.1 相关定义

定义1词频/逆文档频率(TF-IDF)

TF-IDF是词频与逆文档频率的乘积,其主要思想是如果某个单词在某个文档中出现的频率(TF)高,而在除了这个文档外的其他文档中出现的频率(IDF)低,那么就认为这个词的区分能力好。

其中,Ci代表第i特征词在单个文本中的出现次数,∑Ci代表一个文本中所有特征词的数目,N代表所有的文本的数目,Ni代表含有特征词i的文本的数目。

定义2微博关注度

关注度CW是转发数f和评论数r和在总转发和评论中所占比重,fi代表第i条微博的转发数,ri代表第i条微博的评论数,设n为微博文本总量。

3.2 改进的VSM模型

如果一条微博为很多用户所关注,那么这些用户中总有一部分对它感兴趣并很可能评价或转发这条微博,而这部分用户的粉丝也有可能继续转发这条微博。微博信息的这种近乎爆炸式的传播,不但使更多人知道这条微博的内容,而且转发评论的人也很可能是对它感兴趣的人。因此一条关注度大的微博成为热点微博的可能性很大,而热点微博往往和热门微博话题有很大的相关性。

微博的评论和转发数量能清晰地表达用户对这条微博及相关话题的兴趣度。传统的VSM模型对文本的重要程度采取一视同仁的做法,显然不符合微博的特点。微博是一种社交性极强的文本,评论和转发功能最能体现这一性质,进行微博话题发现需要考虑微博独有的特点。

通过以上分析可知转发数和评论数大的微博含有热门话题的可能性比较大,因此转发和评论数不同的微博的重要程度也不同。把关注度加入特征词权重计算,改进后的权重计算公式如下:

其中α是常数,α∈(0,1)且α+β=1。tf×idf能有效地区分出一般词和特殊词,但是热点词即大量出现的词的tf×idf值往往不大,而实际情况是与热点话题相关的特征词可能会大量出现,这样热门微博特征词的权重就不会很大。考虑热点话题的评论和转发数量大,所以高的关注度又能提高与热点话题相关的特征词的权重。同时考虑到热门人物的一举一动往往能引发粉丝的大量关注,但这些热门人物却经常发表一些与热门话题无关的微博,需要适当降低这些微博的权重。最终选取的α的值比β略大,即tf×idf在特征词的权重中占比更大。

4 微博热点发现并行模糊C均值算法

微博话题发现的核心是文本聚类,文本聚类是在文本向量的基础上将具有相同话题的文本聚为一类,使同属一个话题的文本相似性高,属于不同话题的文本相似性低。FCM串行聚类算法对微博海量数据的处理非常耗时,因此设计了微博热点发现并行模糊C均值(HTD-PFCM)算法以适应微博海量数据的处理需求。

4.1 MapReduce计算模型

MapReduce是Google于2004年提出的一个计算模型,以此模型为核心的Hadoop是当今最流行的大数据处理平台。在Hadoop上,每次程序运行都需要启动一个MapReduce任务,一个任务由两个阶段组成:Map阶段和Reduce阶段。MapReduce的执行过程如图2所示。

Map阶段数据被分成多个split,一个split对应一个Map任务,所有的Map任务被分配到Slaves节点上执行,节点间的负载均衡由MapReduce框架自动完成。Map任务结束后可以选择先对结果进行本地化的处理,好处有两个方面:1)减少了网络流量,降低了对带宽的要求。2)Map阶段的并行程度要的高于Reduce阶段,把尽可能多的任务量集中到Map阶段完成能够大大提高系统的性能。Reduce阶段对Map的结果进行规约处理,产生最终结果。Map和Reduce的输入输出的数据格式是<key,value>形式的键值对。Map输出结果中具有相同key值的value组合成一个List列表,MapReduce框架根据key值的不同使用默认的Hash函数将具有不同的key值的valuelist哈希到不同的Reduce节点进行处理。

4.2 FCM算法背景理论

模糊C均值(FCM)算法是Dunn于1974年最先提出,后来经过Bezdek[19,20]完善的一种基于划分的聚类算法。FCM加入了模糊理论,该理论认为样本对类的隶属度不是绝对的,它的取值范围应该是一个区间。Bezdek指出FCM算法有线性的计算复杂性,随数据量的增加,计算复杂度也线性增加,符合本文提及的微博海量数据处理要求。FCM算法的目标函数是:

需要使目标函数最小,同时又满足约束条件。应用拉格朗日乘子极值条件得到式(4)的解是:

其中,c表示聚类的数目,本文即微博热点的数目;n表示向量的个数,本文即微博文本的数量;dik表示第i个向量与第k个聚类的相似度;uik表示第i个向量对第k个聚类的隶属度。隶属度是介于0和1间的一个数值,数值越大表示向量属于这个聚类的可能性越大;m表示加权指数,m∈(1.5,2.5),通常选择m=2。串行算法步骤如下:

Step1随机给出C个聚类中心vi,i=1,2,3,…,c。

Step2计算每个向量与聚类中心的相似度d,根据式(5)求出隶属度,若存在i,使得dik=0,则uik=1,且i≠j时,uik=0。

Step3根据隶属度和式(6)重新计算聚类中心点vi。

Step4计算新中心点和原来中心点的相似度δ,如果δ小于给定的阀值,则算法结束,否则用新的中心点替代原来的中心点,转到Step2。

4.3 基于MapReduce的热点话题发现并行算法设计

算法在计算文本向量与话题中心相似度的时候,中心是不变的,这样中心的属性可以是只读的,这为数据的并行提供了可能。因此算法初始化时,每个处理器读入聚类中心,然后由主进程把数据平均分给所有处理器,每个处理器只需要计算本地数据与中心的相似度即可,并且处理器之间不需要通信。相似度计算结束后,再根据式(5)计算文本向量对每个中心的隶属度。新中心的计算需要用到全部的数据和隶属度,所以这一步需要放到规约阶段完成。规约进程把新生成的中心与原中心比较,如果不符合结束条件,把新中心分发给所有处理器,再计算隶属度,再进行规约,直到满足结束条件为止。

本文在MapReduce模型的基础上设计了HTD-PFCM算法,对Map过程结束后的本地数据处理做了优化设计。算法的流程图如图3所示。

算法有两个MapReduce计算过程,第一个MapReduce过程通过迭代得到最终的话题中心,第二个MapReduce过程根据最终的话题中心求出隶属各个话题的文本数量。

第一个MapReduce过程的并行算法设计如下:

4.3.1 Map任务设计

Map阶段开始执行时需要完成一些初始化工作,本文将话题中心点的读取放在Map的初始化中。Map读入数据时,数据以行的形式依次被Map处理,本文微博数据的每一行代表一个文本向量,首先计算文本向量与每个话题中心的相似度,再计算对每个话题的隶属度。Map输出的key代表每个话题的ID,value列表则由文本向量本身和隶属度组成。

Map过程的伪代码如下:

本文中一个向量代表一条微博文本,而文本之间的相似性度量通常采用夹角余弦公式,因此HTD-PFCM算法中计算向量间的相似度时用夹角余弦公式替代欧式距离。

4.3.2 Combine任务设计

Combine的实质是一次本地规约过程,很多聚类算法都会产生大量的中间数据,如果不加以处理直接在网上传输,会产生巨大的网络负载,从而影响算法的执行效率。所以Combine过程对算法执行效率有很大影响。

本文对中间数据的处理进行了优化设计。研究发现,Map任务输出的数据量实际上比输入的数据量还要大,这些中间数据直接传送给Reduce任务处理时,如果网络环境比较差,Job节点可能会因迟迟收不到结果数据而导致误判Map任务已经死亡,则重新分配这个Map任务到其他节点执行,而这个Map任务有可能已经完成过了。造成的后果是严重浪费了计算资源,增加了算法的时间开销。

Map任务完成后,本地数据中属于同一话题的微博文本已经聚为一类,观察式(6)发现,新中心点的计算是一个累加过程,这个过程的部分工作量可以由本地Combine任务完成,而其余的工作量则交给Reduce任务完成。向量对每个话题的隶属度已经求得,Combine需要计算隶属度与向量的乘积,并对隶属度求幂。算法在增加对中间数据的处理后能减少绝大部分的网络流量。

Combine过程的伪代码如下:

4.3.3 Reduce任务设计

Reduce任务的目的是计算新中心,Reduce任务接收Combine任务的输出,对具有相同key值的value求和,然后计算新的话题中心。最后由Job节点判断新旧中心变化是否小于指定的阈值。如果大于阈值更新中心点文件,继续迭代,否则得到就是最终的话题中心。

Reduce任务的伪代码如下:

得到最终的中心点后,还需要再执行一次MapReduce任务,根据最终找到的中心点,计算出隶属度,比较向量最有可能属于哪个话题,并且统计每个话题有多少个样本,这样就能判断微博话题的热度,话题包含的微博文本越多,话题的热度也就越大,这将作为话题热度的评分标准。Map阶段的设计大体与前面的相同,唯一的不同点在于计算完隶属度以后,只输出具有最大隶属度的话题的ID,而value设为1,为下阶段的求和准备。Combine和Reduce过程则是对value值求和,Reduce过程输出话题ID和隶属这个话题的文本数量。

5 实验结果与分析

5.1 数据及实验环境

实验用到的Hadoop集群由5台机器组成,选择其中一台机器同时作为Master节点和Slave节点,其他4台机器全部作Slave节点,5台机器的配置相同。操作系统选用Ubuntu 14.04,CPU是Core i5-3470,主频3.2 GHz,内存4 GB,Hadoop版本选用1.1.0,JDK选择1.7版本。

5.2 结果与分析

本文选用3组数据对HTD-PFCM算法的做了实验,采用加速比指标评价算法的性能。实验数据大小分别是:1.4、3.1和5.5 GB。

加速比是衡量算法并行性能的重要指标,定义为单机执行时间比上集群(多机)执行时间。

MapReduce模型适合处理大规模数据,当数据量小时,IO时间在程序运行时间中的占比会比较大,集群的性能得不到发挥;当数据量大时,IO时间相对于计算时间就会变小,在程序运行时间的占比就会变小,加速比也会变好。表1记录了三组样本的运行时间。

根据运行时间,计算出的加速比如表2所示。

观察表2可以看出数据量越大,加速比越好,当数据量达到3 GB以上时,两台机器的加速比已经达到了1.9以上,5台机器的加速比也超过了4。图4是三组数据在5个节点上的加速比。

从图中可以看出HTD-PFCM算法是近似线性的加速比,并且数据量越大,算法多机执行效率越高。说明HTD-PFCM算法能有效地加快大数据的处理效率,极大地弥补了串行算法的不足。

6 结语

本文针对微博热点话题发现与其他话题发现的不同,对传统VSM模型的权重计算进行了优化设计,使其更符合微博的特点。针对FCM串行算法在海量数据处理上效率不足的问题设计了基于MapReduce模型微博热点话题发现算法—HTD-PF-CM,算法优化了中间数据的处理过程。在三组数据集上对并行算法进行实验,实验结果表明并行算法有良好的加速比,并且随着数据规模的增加,加速比越来越好。由此说明HTD-PFCM算法更适合微博热点话题发现。

热点发现 篇5

截至2016年6月,中国网民规模达7.10亿,半年共计新增网民2132万人,互联网普及率为51.7%,微博用户规模为2.42亿,各类论坛用户数达到10812万[1]。一些国内、国际的热点事件,一旦发生便能迅速在网络上传播开来,并引起公众的极大关注和热烈讨论,在网络上形成了海量的事件评价信息。网络舆情就是通过网络表达和传播公众对公共事件表现出的情绪、态度和意见的总和[2]。网络舆情热点一般是指受到了较高关注和评论的事件,其演化过程与时间有着密切的联系,体现在事件的关注点和关注度会随着时间的变化而发生改变。本文基于海量的舆情评论文本,结合主题模型和时间序列分析模型的优势,试图捕捉舆情热点动态演化规律,进而可以对舆情的发展趋势进行预测。

1 相关研究

对网络舆情的传播机制、技术及系统实现角度进行的研究有:文献[3]对网络舆情发展中的群体影响问题给予了阐述,认为群体心理引发的群体互动、群体压力、群体无意识和群体极化行为在网络舆情信息形成和传播过程中具有影响力;文献[4]研究了文本数据挖掘技术对网络舆情的作用;文献[5]提出了一种话题发现算法,该算法基于Single-pass聚类算法,在特征项权值计算、话题的相似度计算及话题的逻辑结构上进行改进以提高话题发现的效果;文献[6]研究了网络舆情的表示及特征,结合Hits算法和Page Rank算法进行舆情热点挖掘,并在此基础上设计了网络舆情热点挖掘系统。

随着主题模型LDA(Latent Dirichlet Allocation)[7]的提出,试图利用主题模型进行舆情主题发现的相关研究有:文献[8]将时间信息结合到主题模型中,得到的主题表现出随时间轴演化的趋势,提出了DTM(Dynamic Topic Model)主题模型,将时间离散化,然后按照时间片进行语料库分割;文献[9]从话题热度变化和内容变化两方面研究舆情动态,建立动态主题模型(DTM)。通过挖掘随时间变化的动态话题链,从词语变化的微观角度分析热门事件下公众意见的变迁过程,还原事件的整个发展过程,并提出话题热度计算方法;文献[10]提出了利用主题模型进行主题特征抽取并进行特征分类的方法;文献[11]利用LDA模型对不同时间片内的话题进行自动抽取,可以得到不同数量的话题,然后通过话题过滤剔除意义有限的话题;文献[12]提出了时序动态主题模型CDTM(continuous time dynamic topic model),利用布朗运动原理来对文本的潜在主题建模,设计的可变近似推导算法利用了文本的离散性。

时间序列分析及舆情趋势演变的相关研究主要有:文献[13]提出了自回归积分移动平均模型ARI-MA(autoregressive integrated moving average model),其基本思想是:将预测对象随时间推移而形成的数据序列视为一个随机序列,用一定的数学模型来近似描述这个序列,这个模型一旦被识别后就可以从时间序列的过去值及现在值来预测未来值;文献[14]提出了一种通过信息量词识别时间延迟的方法,有利于动态噪声数据的消除;文献[15]利用搜索引擎的关注度指标对网络舆情热度时空演变的情况进行了研究。

从以上国内外研究现状看,还没有从主题挖掘和时间序列分析角度来考察舆情演化的相关研究。主题挖掘模型是一种生成模型,适于提取舆情文本的特征词项,特征词项反应了舆情的主题内容,主题随着人们所关注内容的变化而发生变迁;时间序列分析法是利用预测目标的历史时间数据,通过统计分析研究其发展变化规律,建立数学模型,据此进行外推预测目标的一种定量预测法。

2 TE-LDA主题模型

2.1 TE-LDA模型

(1)TE-LDA(time embedded LDA)模型图。在主题模型LDA中嵌入时间因子,可以获取不同时间点的主题词,即动态舆情热点。TE-LDA模型如图一所示,符号说明如表一所示。

(2)TC-LDA的参数估计。TC-LDA在原有的LDA模型基础上添加了时间嵌入约束因子q(ti)。模型参数主要有θdk和φwk,其计算分别如式(1)、式(2)所示。

2.2 ARIMA算法

ARIMA(p,d,q)称为自回归积分移动平均算法,p为自回归项,q为移动平均项数,d为时间序列成为平稳时所做的积分次数。

①自回归过程

令Yt表示时间点t时期的舆情热点数据,可以将Yt的模型写成式(3)。

其中,δ是Y的均值,而ut是具有零均值和恒定方差σ2的不相关随机误差项(即ut是白噪音),则Yt遵循一个一阶自回归或AR(1)随机过程。P阶自回归函数形式可写成式(4)。

②自回归积分移动平均过程

很多时候舆情热点数据是非平稳的,即单整(单积)的,将非平稳数据经过差分可以得到平稳数据。差分算子如式(5)所示。

3 模型比较和分析

参与比较的模型有LDA、DTM和结合了ARI-MA的TE-LDA(简记为ATE-LDA)。三个模型热点提取的准确率和召回率比较如图二所示,其中纵坐标代表准确率值或召回率,横坐标代表主题个数。

从图二可以看出,ATE-LDA与其他两个模型相比较,在不同的主题个数时都具有较大优势,表明嵌入时间和加入时间序列分析算法后,对于热点发现有明显改善。而LDA对于时间变化不敏感,其主题词难以反映时间点的变化性,其准确率和召回率都偏低。DTM在内部分配中引入了时间机制,其热点提取的准确率和召回率要高于LDA,但这种时间机制和热点主题的关联性不够,导致热点发现的性能低于ATE-LDA。

4 结束语

本文针对舆情热点的时间相关性强的特点,提出时间嵌入的主题模型TE-LDA,并与ARIMA时序分析算法进行结合。TE-LDA模型发挥主题模型的数据降维作用,将时间戳嵌入LDA模型以便提取动态的热点主题词,为进行时序分析提供可靠的基础数据。ARIMA时序分析算法可以实现热点词的时序化,可以有效发现隐含在大量文本中的动态舆情热点。

摘要:由于网络舆情文本日益呈现大数据化趋势,并且热点主题具有明显的时间变化特征,因此本文提出了一种基于主题模型和ARIMA算法的网络舆情热点发现技术。主题模型可以降低文本数据的维度,提取舆情主题,而ARIMA算法可以动态捕捉随时间变化的热点主题。实验表明,主题模型和ARIMA算法的结合可以提高舆情热点提取的准确率和召回率。

热点发现 篇6

随着Web2.0技术和社会网站不断发展,互联网进入了一个完全崭新的“自媒体”时代。以新浪微博、Twitter等为代表的微博网站成为了人们关注的焦点,但随之而来的巨大的信息量也给人们带来了困扰,如何从海量的微博信息流中检测最新的热点话题,便成为人们一种迫切的需求[1]。

微博平台中的信息不同于博客或普通新闻网页中的信息,具有原创性、时效性、草根性、重复性、碎片性、随意性等特点,同时,相对于普通文本,微博数量多、字数少、话题广泛,这给微博话题的检测带来很大困难[2,3]。从分散的网络数据中找出真正自己感兴趣的话题,需要进行文本挖掘,而文本聚类是文本挖掘的重要手段[4]。当前文本聚类算法主要有K均值算法、Claran算法、Birch算法、sting算法[5,6,7,8],但是这些算法均存在各自不同程度的缺陷,如sting算法不适合处理大型数据集;Birch算法、Clarans算法等不适合处理非球形数据集,而微博数据很可能呈现不规则形状;K均值算法等对数据集中的噪声、孤立点敏感[9]。CURE算法是一种适用于大型数据集的层次聚类算法,不仅能够处理非球形、类大小差别比较大的数据,而且采用抽样和分割预聚类方案,降低了总的数据量,但并不影响聚类结果的质量,提高了运算效率,因此许多学者将其引入到微博话题检测中,取得了不错的效果[10]。但在实际应用中,分布于网络中的文本包含话题广泛,虽然存在热点话题,但是除此以外,还存在许多与热点话题不同的文本,这就导致微博数据集存在许多孤立点数据,微博在聚类的过程中会出现“长尾”现象,影响CURE算法的聚类效果[11]。

针对微博热点内容广泛、孤立点多等特点,提高微博热点话题的发现准确度,提出一种消除孤立点的微博热点话题发现算法。在CURE算法的基础上,加入对孤立点预处理的部分,通过仿真测试对算法有效性进验证。

1 微博热点话题发现算法的工作原理

基于消除孤立点的微博热点话题发现算法包括:数据采集和预处理,文本特征向量,孤立点过滤,聚类分析等步骤,其工作原理如图1所示。

1.1 数据采集和预处理

首先采用中国爬盟提供的微博数据采集系统,通过下载爬盟采集器登录微博账号和密码持续采集数据一周的时间,然后采用中国科学院计算技术研究所提供的分词系统ICTCLAS(Institute of computing Technology Chinese Lexical Analysis System)对博文进行分词处理,最后采用停词处理消除一些出现频率很高但是对话题识别没有太大作用的噪声数据。

1.2 计算特征值

对于分词后的博文S,将每个单词作为一个特征t,采用向量空间模型可以表为:

其中,tnm表示第n篇博文第m个特征项;wnm表示第n篇博文第m个特征项权重。

采用TF-IDF公式计算每个特征计算特征词的权重:

其中,wij表示第i篇博文第j个词的权重;fij表示第i篇博文第j个词出现的词频;nij表示第j个词出现的博文数,N表示一个博文数。

1.3 CURE聚类算法

CURE算法是一种针对大规模数据的层次聚类算法,采用多个点代表一个簇,能够处理非球形、类大小差别比较大的聚类问题,同时采用随机取样、分区的方法,聚类效率高。其基本思想为:将每条博文看作一个簇,将距离最近的簇进行合并,一直到簇的个数为一个或者指定的个数为止。CURE聚类算法步骤:

(1)从采集的数据集中随机选择部分数据,组成一个样本S。

(2)将S划分为p个区,每一个区的样本数为S/p。

(3)对于每个划分的区,采用层次聚类法进行局部聚类。

(4)如果某一个区的聚类增长速度太慢,则作为孤立点删除。

(5)对P个代表点根据收缩因子向类中心移动,完成S样本的聚类。

(6)不断重复步骤(1)-步聚(5),直到全部数据聚类数完成,并用相应的簇标签标记数据,聚类结束。

2 孤立点预处理的CURE聚类算法

2.1 孤立点

在博文聚类过程中,除了与热点话题有关数据之外,用户还对其它博文发表自己的看法,这些数据相似性差异较大,表现为孤立点。在CURE聚类算法工作过程中,当原始博文中包含孤立点时,如果不对孤立点进行预处理,孤立点就会误聚为单独的簇,导致一些有价值的博文被聚类到同一簇,无法被发现,对最终博文聚类效果产生不利影响。采用预先消除孤立点措施,不仅可以消除其中的“噪声”数据,加快聚类速度,而且可以提高聚类质量。

2.2 孤立点预处理思路

在CURE算法进行微博热点话题进行聚类之前,对采集的微博热点话题数据集进行孤立点预处理,消除数据中的孤立点,由于数据集中的孤立点被消除,难以界定簇的增长速度快慢,因此,在去掉标准CURE算法的增长十分缓慢簇消除步骤,保留聚类最后阶段对较小簇的识别和消除。

定义1博文的相似度(Sim)。Sim为[0,1]间的数,Sim=1表示两篇博文完全不相似,Sim=0表示两篇博文完全相似,因此Sim值越小,那么两篇博文之间的相似度越高。相似度的计算如下:

对于博文xi和xj,则有:

其中,R为相似度阈值。

定义2相似密度ρ。在收集的微博数据集中,与博文p相似的博文数称为博文p的相似密度ρ。则有:

其中,M为相似密度阈值。

2.3 孤立点预处理步骤

(1)从微博数据集S中随机选择一篇博文p。

(2)计算点p的相似密度ρ值,如果ρ

(3)不断重复步骤(1)、(2),完成微博数据集中孤立点处理。

(4)输出消除孤立点的微博士数据集S。

综上所述可知,基于消除孤立点的微博热点话题发现算法工作流程如图2所示。

3 仿真实验

3.1 数据集

目前还没有通用的中文微博数据集,通过新浪微博注册用户登录中国爬盟采取新浪微博数据,其抓取了50 000个用户从2012年12月1日到2012年12月31日发表的所有微博数据,对数据清洗后,选取长度为4个字符以上的微博文本共174 228 098条,每条微博平均为40个字符。在Windows平台,C++语言实现算法。

特征值计算的代码如下:

3.2 对比算法及性能评价指标

为了使本文的微博热点话题发现算法的结果更具说服力,采用标准CURE算法进行对比测试。并采用F值(F-measure)来衡量和平均运行时间(单位:s)作为算法性能评价指标。F值定义如下:

其中:

式中,ni是话题i应有博文数;nir是话题r中包含话题i中的博文数,nr是类别r中实际博文数,f(i,r)表示聚类r和类别i之间f值。

3.3 结果与分析

本文算法和标准CURE算法的聚类结果如图3所示,它们的F值见表1所示。从图3和表1可知,本文算法的聚类效果标准CURE算法,较好地实现了微博热点问题发现的功能,同时由于引入消除孤立点预处理,较好地防止孤立点对微博文聚类结果不利的影响,同时减少计算时间,提高了聚类效率,因此本文算法可以更好地发现微博热点话题。

4 结语

针对网络博文数据量大,数据中孤立点多的特点,结合CURE聚类算法优点,提出一种消除孤立点的微博热点话题发现算法。通过仿真实验分析,本文算法可以很好地消除孤立点对热点话题发现的影响,提高了热点话题发现的准确率,而且加快算法运行效率,能够满足大数据量处理的需求,可以应用于微博平台的实时热点发现。

参考文献

[1]杨冠超.微博客热点话题发现策略研究[D].浙江:浙江大学,2011.

[2]郑斐然,苗夺谦,张志飞,等.一种中文微博新闻话题检测的方法[J].计算机科学,2012,22(1):138 141.

[3]张晨逸,孙建伶,丁逸群.基于MB-LDA模型的微博主题挖掘[J].计算机研究与发展,2011,48(10):1795 1802.

[4]Cai R,Yang J,Lai W,et al.An Intelligent Crawler for Web Forums[C]//Proceeding of the 17th international conference on World Wide Web,2008:447 456.

[5]Christian,Wartena,Rogier,et al.Topic detection by clustering keywords[C]//Washington DC,USA:Proceedings of the 19thInternational Conference on Database and Expert Systems Application,2008:54 58.

[6]Wang Y,Yang J,Lai W,et al.Exploring traversal strategy for web forum crawling[C]//Proceeding of the 31st annual international ACM SIGIR conference on research and development in information retrieval,2008:459 466.

[7]鲁明羽,姚晓娜,魏善岭.基于模糊聚类的网络热点话题检测[J].大连海事大学学报:自然科学版,2008,34(4):52 58.

[8]刘青宝,侯东风,邓苏.基于相对密度的增量式聚类算法[J].国防科技大学学报,2006,28(5):73 79.

[9]陈黎飞,姜青山,王声瑞.基于层次划分的最佳聚类数确定方法[J].软件学报,2008,19(1):62 72.

[10]罗姗姗,杜庆治,杨秋萍,等.一种改进的孤立点消除及网络文本聚类算法[J].云南师范大学学报,2012,32(1):48 51.

热点发现 篇7

目前, 城市出租车已成为最重要的交通工具之, 它具有方便、快捷、舒适等特点, 受到越来越多出行者的亲睐[1]。出租车是城市客运交通的重要组成部分, 是常规公共交通的重要补充[2]。但是目前存在严重的乘客打车难的问题, 包括等待空车时间长, 以及乘客在陌生地不知何处可以打车等。而上述所有问题, 都能被归结为出租车分布不合理的问题。

已有学者针对此问题进行了研究。Hu, K, Z He等人[3]提出了一种解决问题的方法, 他们的主要思想是将城区划分成多个行政区域, 根据某区域在某一时间段内, 该区域出租车为空载状态的数量占有该区域内所有出租车数量的比率, 计算得到该区域的出租车空车率, 根据区域空车率引导高空车率区域内的空车转移至低空车率区域, 实现区域间出租车空车率均衡。这种方法能够使得城区内出租车数量均衡, 但是由于行政区域的划分不能反映该区域内的人群出行特征, 而不同出行特征的区域在不同时间段对于出租车的需求量是不同的。因此这种方法不能解决上述问题。

郑宇等人[4]提出的功能区方法将北京市按照居民出行以及POIs (points of interests) 划分成多个功能区域, 该功能区域的划分能够帮助人们清楚地了解复杂的都市区域特征, 有利于各种应用如城市规划、企业选址、用户出行分析和社会建议等。该功能区域与行政区域的不同主要在于行政区域是按照政治和行政管理划分的, 而功能区域划分是按照人群出行特征划分的。该功能区划分方法的优点是能够反映该区域内人群出行特征, 分析时能更加清楚该区域的生活、工作、娱乐等能力。

2 热点区域发现

针对市民出行打车不方便, 以及出租车空驶率高的问题, 该文创新地提出一个基于功能区划分的出租车OD热点区域发现方法。该方法可以分为三个步骤:1) 功能区内出租车OD点的筛选;2) 功能区的网格划分及网格聚类权值计算;3) 采用改进的DB-SCAN方法筛选功能区内网格, 并采用卡方分布统计分析得出热点区域。

2.1 有关定义

时间段集合D[5]:由于城市交通情况在短时间内是一致的, 为了更有效地发现本文所关心的点, 把一天24小时分成8个时间段, 把24小时当作一个集合D, 则D可以表示为:D={hi=[3i, 3i+3]|0≤i≤7}。

特征日集合W:集合W表示一周七天, W={Mon, Tue, Wed, Thu, Fri, Sat, Sun}, 且D0={Sat, Sun}, D1={Mon, Fri}, D2={Tue, Wed, Thu}, 则W可以被描述为:W={Di|0≤i≤2}。

2.2 数据处理

本文根据郑宇等人[4]提出的功能区发现方法, 将北京城区划分为不同功能区域, 将市区按照市民出行活动区域, 划分为工作区、商业区以及生活区、车站等。在不同功能区域中, 出入该区域的乘客人群具有明显的生活、工作规律, 在时间上具有周期性。譬如在西单商业区, 人群出行时间段集中在12点之后。根据功能区出行特点及人群出行的周期性, 该文对于各功能区分时间段周期性研究其热点OD区域分布。从出租车原始数据中提取功能区域的行车OD数据, 并对通过车载设备向交通信息中心传回的出租车载客原始数据筛选出OD点。

由于出租车行驶轨迹覆盖了整个北京公路网络, 所以我们采用水平/垂直交叉点数判别法提取功能区域的OD点。通过上述方法很容易得到功能区域内的OD点, 对这些点采用改进的DB-SCAN算法进行聚类, 剔除离群的OD点, 形成一个个簇构成的区域, 作为热点区域的候选对象。然后:

1) 把功能区域划分成r×r的网格。由于各个功能区的道路宽度以及地形不相同, 所以对于参数r的选定也不相同, 参数r的可选值在表1中。根据落在每个网格内的OD点个数, 确定每个网格的权值。网格密度初始化为0, 将各个时间段聚类簇中的GPS点投射到各个网格中。如果GPS点属于该网格, 该网格密度加1。这样就将发现热点区域的问题转换成根据每个网格权值大小进行聚类。

2) 由于在时间段h0和h1内出租车数量少, 且此时间段内人们对出租车的需求量低, 因此本文将不对该时间段进行任何工作。

3) 在上述时间段划分的前提下, 通过聚类分析方法和统计分析的方法得到最终的热点区域:对于上述划分的时间段内, 采用改进的DB-SCAN方法对网格进行聚类分析, 得到网格簇。对一个季度内相同时间段分类内的网格簇进行统计分析。由于该区域内的数据是服从卡方分布的, 因此本文选择95%的置信区间[6]筛选网格, 落在该范围内的网格组成的区域即为热点区域。

3 热点区域的覆盖率和命中率

本文选择时间从2012年1月1日到2012年12月30日, 北京公路上12000辆汽车的原始GPS数据 (包括经纬度位置、运行时间、载客状态、行驶速度和方向等信息[7]) 。每辆汽车每30秒至70秒上传一次GPS数据。测试地图选择北京四维图新的2012版本的地图底层, 并选择分析区域为北京西站、国贸、望京和西单。

3.1 热点区域的覆盖率

本节讨论分析OD热点区域的覆盖率。以西单区域为例, 基于本文中的方法对此区域第一季度的数据进行分析。区域中原始出租车OD点分布与聚类后划分的热点区域分布如图1所示, 该图选取h6时间段数据进行分析。绿色的五角星代表出租车乘客的真实OD点, 红色区域代表热点区域, 即采用该方法聚类得到的区域。可以看到所得到的热点区域覆盖了大多数的OD点, 覆盖率为78.53%。从聚类得到的结果可以得出, 在这个时间段内, 出租车停车点区域主要沿着该商业圈的出入口以及出入口周边的路口, 并呈现带状分布。

从图2中可以看得出来各个时间段热点区域对原始OD点的具体覆盖率。其中, 图2 (a) 、2 (b) 、2 (c) 分别表示特征日D0、D1、D2时的数据。在每幅图中有六条曲线, 分别代表热点区域在时间段D={hi=[3i, 3i+3) |2≤i≤7}对原始OD点的覆盖率。可以看出, 热点区域的覆盖率主要分布在75%-85%。其中, 图2 (c) 表示特征日D2, 时间段hi (2≤i≤7) 热点区域对原始OD点的覆盖率主要分布在70%-85%。

3.2 热点区域的命中率

本节对热点区域的命中率进行分析。仍选用西单区域第一季度的OD点计算热点区域, 选用该区域4月份的数据计算热点区域的命中率。从图3中可以看到, 2012年4月4日和2012年4月7日, h6时间段, 热点区域对OD点的命中率分别是72.03%和70.22%。

对第二季度各个时间段的热点区域命中率进行分析, 得到结果如图4所示。图4 (a) 显示第二季度D0特征日, hi (2≤i≤7) 时间段热点区域对原始OD点的命中率;图4 (b) 、7 (c) 分别为特征日D1、D2相应时间段热点区域的命中率。从这三张图可以看出, 使用第一季度的数据计算得到的热点区域, 对第二季度原始OD点也具有很高的命中率 (高于70%) 。

通过计算得到三种特征日的平均命中率分别为76.34%, 73.73%和71.89%。因此, 采用该方法计算该区域的热点分布, 得到的结果可以作为出租车上下客热点区域的依据。

4 结束语

本文提出一种在功能区发现出租车OD热点区域的方法, 此方法目的在于使城市出租车分布更加合理。选用改进的DB-SCAN算法进行聚类分析, 并用卡方分布对最终热点区域进行合并分析。通过对2012年12000辆出租车所记录的原始GPS数据进行处理, 根据人们在不同时间段、不同功能区的出行情况, 最终得出出租车OD热点区域。对热点区域的评价有两个标准, 一个是覆盖率, 另一个是命中率。综合分析得出, 该文采用的方法能够根据人群出行特征所划分的功能区准确找出热点区域。

在未来的工作中, 仍将需要继续完善本文工作。例如, 出租车OD热点区域可以根据公路分布情况和实际距离合并。另外, 该方法也可以通过结合其他数据, 例如结合公交车站数据和地铁站数据等, 进行完善。

参考文献

[1]周晶, 何建敏, 盛昭瀚.城市出租车运营系统的随机分析[J].管理工程学报, 2000, 14 (1) :63.

[2]陆建, 王炜.城市出租车拥有量确定方法[J].交通运输工程学报, 2004, 4 (1) :92-95.

[3]Hu K, Z He, et al.Taxi-Viewer:Around the Corner Taxis Are!.Ubiquitous Intelligence&Computing and 7th International Confer ence on Autonomic&Trusted Computing (UIC/ATC) [C].2010 7th International Conference on, IEEE, 2010.

[4]Yuan J, Y Zheng, et al.Discovering regions of different functions in a city using human mobility and POIs[C].Proceedings of the 18th ACM SIGKDD international conference on Knowledge discovery and data mining, ACM.2012.

[5]Lee J.Analysis on the waiting time of empty taxis for the Taxi telematics system.Convergence and Hybrid Information Technology[C].2008.ICCIT'08.Third International Conference on, IEEE.2008.

[6]Deng Z, M Ji.Spatiotemporal structure of taxi services in Shanghai:Using exploratory spatial data analysis[C].Geoinformatics, 201119th International Conference on, IEEE.2011.

上一篇:小学体育高效课堂下一篇:主分量分析