意图识别

2024-06-05

意图识别（精选三篇）

意图识别篇1

关键词：消费意图识别,查询商业意图识别,消费意图模板,社会媒体

0研究背景

近年来,网络数据资源呈现几何式、爆炸式增长,巨量的网络数据中蕴含着大量的用户发布的,对诸如产品购买等有价值的行为信息及个性化需求信息,这些关于产品类的信息需求表达了人们的各种消费意愿和消费需求。例如,Google、 Baidu等搜索引擎查询日志记录了人们从互联网搜索所需产品的信息; Twitter、新浪微博等社会化媒体平台的时尚性、广泛性和互动性能帮助人们即时发布所需产品的信息; 京东商城、淘宝网等电商网站记录了用户浏览和购买行为。只有充分了解利用用户的信息和需求,才能做到有的放矢。互联网各种不同的媒体上存储了大量用户资料、用户之间的社交关系以及用户的行为数据,如表1所示。

可以看出,各种不同媒体中所积累的海量用户信息为构建新的社会化应用,以及理解人们当前和潜在的消费需求带来了前所未有的新机遇。在如此庞大用户基数的支撑下,互联网的巨大潜力正日益体现,与现实社会的互动渗透更加紧密深入。互联网上出现的不同媒体在商业、生活、政治等各方面,也正发挥着源自其强大信息传播的重要作用。截至2014年12月底,我国网络购物用户规模达到3. 61亿,较2013年底增加5 953万人,增长率为19. 7% ; 我国网民使用网络购物的比例从48. 9% 提升至55. 7% 。根据艾瑞咨询预测,2017年的网络购物交易规模将达到56 340亿元,占社会消费品零售总额的比例为15. 7% ,较2010年提升12. 8个百分点。特别是在商业营销上,约有51% 的消费者在成为企业品牌的粉丝后,购买该品牌商品的意愿也会相应提高5个百分点。可以说,互联网上用户对产品的需求与日俱增,并且形式多种多样。在经济全球化和信息网络化的今天,主动掌握个体兴趣偏好和群体消费趋势等用户消费需求信息,就可以在市场营销、产品计划等实现智能精准决策,在此背景下, 消费意图( Consumption Intent) 识别的相关技术应运而生。

1任务

消费意图,是指用户表达出的对购买产品服务等一些商业消费需求的意愿[1]。消费意图识别技术是对带有消费需求色彩的互联网用户生成的文本或用户本身行为数据进行的分析和整理,通过网络的方式挖掘出用户当前或潜在的消费需求。

面向社会媒体的消费意图识别的任务可以分为基于内容的消费意图识别和基于用户的消费意图识别。其中,基于内容的消费意图研究包括消费模板的抽取、消费意图识别以及消费意图中的消费对象抽取等。具体地,基于内容的消费意图是指导用户通过互联网发布与购买需求相关的信息, 如: “我想买一部手机,谁能给推荐一下吗”,即是一个显式消费意图内容,这里的“手机”即为消费对象; 而基于用户的消费意图则是指一条信息没有明确的表达购买产品或服务的意图,但通过推理可发现用户潜在的商业需求,间接地表明用户将来会购买与母婴用品相关的产品或服务。然而到目前为止,关于消费意图并没一个标准的定义及分类体系。通过大量的调研,即可发现基于内容的消费意图文本中有意义的信息主要有触发词语( 如“想买”) 、消费对象等,而基于用户的消费意图也会包含有一些用户历史行为。下面本文将逐一介绍目前显式消费意图识别研究中的主要任务和主要实现技术。

最初的消费意图识别任务源自前人对带有消费意图的词语或模板的分析,如“想买”即是带有消费意图的模板。随着互联网上大量的带有消费意图的文本出现,研究者们逐渐从简单的消费意愿的模板的分析研究过渡到更为复杂的用户当前需求以及潜在需求的研究。基于此,按照处理角度的不同,可分为基于文本内容的消费意图识别和基于用户的消费意图识别。其中,前者处理的文本内容包括互联网上用户在搜索引擎输入的单个查询、单条微博文本等用户发布的内容,如微博消费意图文本“想给儿子买个电动挖掘机”,表明了用户的消费意愿是想为受众目标“儿子”购买一台“电动挖掘机”的消费对象; 后者处理的对象主要是以用户为中心, 如一个用户一直对母婴用品有消费意图。按时消费意图的时效不同,可分为现实需求和潜在需求。现实需求是指已经存在用户当前的需求。潜在需求是指消费者虽然有明确意识的欲望,但由于种种原因还没有明确的显示出来的需求。

2挑战

互联网用户的消费意图识别存在着各种各样的挑战。具体地,可将其划分为三种。现给出如下论述。

2.1网络数据采集的挑战

互联网数据形式多样化,不同媒体平台的用户和内容具有异构性,因而针对网络数据的采集需要就不同类型的内容分别进行处理,提取有价值的内容信息和用户行为信息。例如,在线社区中的用户信息大部分以超文本标记语言( HTML) 的网页方式展现,挖掘基于社区中的用户消费意图文本,需要针对HTML这种非结构化的数据精准地抽取出用户名、用户发贴内容等元数据信息。而社交媒体网站的数据挖掘则需要通过采集记录内部系统日志来实现,如Facebook的Scribe。因而,在进行消费意图研究的相关工作中,都首先需要挖掘出不同媒体中的含有消费意图的内容或具体行为。

2.2数据稀疏的挑战

互联网上存在着大量的垃圾信息。例如社会媒体用户中有33% 左右的用户微博发布的是自己的状态信息,诸如 “好无聊怎么办”,而仅有8. 7% 的微博内容传达了有价值的信息。由于微博上用户可以借助个人习惯的方式表达自己的感受,因而在这些有价值的信息中,微博内容信息通常是随意、零散和有噪声的。

2.3跨社区的挑战

互联网上社会媒体、论坛、电商网站等迅速发展,积累了大量的用户信息,为社会计算的相关研究提供了前所未有的海量数据。例如,Ding等人[2]基于微博用户的消费意图研究电影票房预测问题。也有学者分别研究了用户评价[3]和在线论坛中的用户[4]消费意图识别问题。但是这些相关工作都只关注面向单个社区或社交媒体的消费意图识别问题,这是因为不同媒体的用户之间往往没有显式的链接,就使得一个媒体中的用户与其他媒体的用户之间是无法进行关联的。此外,虽然每个用户在不同媒体平台上拥有不同的用户信息,但是这些用户信息在不同的平台之间是非共享的。可以观察到,由于不同媒体平台在主题以及功能上的不同,用户的信息碎片化地分布在不同类型的媒体平台中。

3相关工作

3.1消费意图模板的抽取

模板( pattern) 是自然语言领域中的常见概念,是指从自然语言实例( 如短语、句子等) 中泛化而来的抽象表达。正因为模板较之实例有着更好的概括和泛化能力,因此被广泛使用于信息抽取、机器翻译、自然语言生成等研究中。一个模板通常包含两部分,即模板词( patternwords) 和模板槽( pattern slots) ,其中前者可看作模板的常量部分,后者则是模板的变量部分。例如,对于模板“想给[x]买个[y]”,“想给”和 “买个”是模板词,而“[x]”是模板槽。在模板匹配过程中, 模板词必须严格匹配,而模板槽可匹配任意内容。这里,通过在模板槽中填充具体内容从而生成模板实例的过程称作模板的实例化( instantiation) 。例如,在模板“想买[x]买个 [y]”的前后两个槽中分别填充“儿子”和“i Phone6”,便将上述模板实例化为“想给儿子买个i Phone6”。显然,一个模板可以实例化为多种不同的实例。

模板在信息抽取以及自动问答中已然获得十分广泛的应用,因此这两个研究方向的许多学者都曾提出过模板的抽取方法。与这些方向的研究类似,在消费意图类模板抽取的研究中,一部分学者使用基于规则的方法抽取模板。规则的制定通常要基于一系列的语言分析与预处理,如词性标注、命名实体识别和句法分析等。相应地,制定的复述规则也包括词序列规则、词性规则以及句法规则等形式。有学者[3,5]基于规则和基于图的方法分别获取意图模板。在基于图的方法中,通过将意图模板抽取看作为图上随机游走过程,而且定义的图节点将分别表述为模板节点和原始内容节点,其基本想法是,若模板节点 + 原始内容节点仍能出现在原始语料中,则该模板为候选模板,进而通过图迭代的方法获取最终模板。依据这一方法抽取得到的愿望模板则如下所示:

可以看到,基于规则的方法其缺点在于规则的可扩展性差,人工编写规则的工作量大,成本较高。具体来讲,由于人们在语言表述上具有复杂性和灵活性,规则的制定过程费时费力且难以覆盖所有的语言现象。规则往往依赖于具体语言、领域和文本风格,可移植性不好。同时基于规则的方法代价昂贵,且迁移性差,因此越来越多的研究者开始利用基于统计的方法来识别消费意图。

有研究者基于种子实例从产品评价中抽取产品受众者, 即上述模板中的“[x]”。例如,Wang等人[6]将抽取产品受众者的模板用于产品推荐系统的目标人物抽取环节。研究中首先为其产品推荐系统设计了一个受众者分类体系,然后针对该体系人工编写少量“种子”实例。比如,对于“I bought my son this phone. ”类型的产品评论,其编写的种子实例为 “buy somebody something”。该方法利用种子实例作为输入, 并使用基于boostrapping的方法从产品评论中匹配该种子实例的字符串,进而生成模板。依据此方法抽取得到的受众者模板如下所示:

3.2基于内容的消费意图识别

Goldberg等[3]首次提出了“buy wish”的概念( 即本文定义的显式消费意图,如: 想买一部手机) 。研究是从用户在互联网上发布的愿望清单和产品评论中的内容来识别其中的消费意图。过程中,即事先人工给定了一些通用的消费意图规则模板,比如“I wish for”,而后再利用规则模板去匹配具有消费意图的句子。这种方法较为简单,但基于人工制定模板的匹配方法效果不甚理想,特别是系统的召回率很低。进而,作者提出了基于二元图方法自动抽取消费意图模板,如此生成的消费意图模板表达能力更强,使得系统识别的效果的性能也相对提高,特别是召回率有了显著的提升。在此基础上,作者加入了文本中词汇作为消费意图识别的特征。尽管采用词特征比较简单,但是通过实验结果发现文本中的词特征对于消费意图识别是非常有效的。

Chen和Hsu[4]也提出过相似的概念“Intention Posts”。研究者基于不同领域间消费意图表达方式相近的假设,即用于学习的训练样本与新的测试样本近似地满足独立同分布的条件。利用这种迁移学习( Transfer learning) 的思想只需要在一个领域标注数据,并将其应用于一个新的没有任何标注的目标域数据。面对着消费意图文本中表达意图的内容通常只有一个或几个关键字,同时数据不平衡的问题,作者提出了Co - Class算法。首先,利用已有领域的标注数据构建一个分类器,然后将分类器应用到目标域的无标注数据中。这样,在目标数据中便可以重新形成特征选择,进而构建新的分类器。这两个分类器将共同对目标实施数据分类。这一迭代过程运行,即直至类别标签对目标数据标注不再改变为止。作者分别在四个领域的语料上进行了迁移学习的实验,而通过实验则证明了提出的Co - class算法对跨领域迁移学习的消费意图识别任务是有效的。

Wang等[7]在不同领域的消费意图识别任务上展开了相关研究。研究提出了基于图的方法来识别Twitter中表达用户意图的内容。具体来说,该方法将要分类的Twitter内容和意图关键词( 如: 对句子“I want to buy an xbox”中“buy an xbox”即为文中定义的意图关键词) 作为图上的节点,利用意图关键词和Twitter句子之间的关系形成边和边权重来构建图,继而使用图传播算法来完成在不同领域类别上的消费意图分类。此外,Ding等人[2]提出了基于领域自适应卷积神经网络的微博文本消费意图识别方法,并将此方法应用到了电影票房预测的任务上,研究证明,消费意图特征有助于预测电影票房,其原因在于用户对电影的消费意愿能直接反映出用户购票的活跃度。

3.3基于内容的消费对象识别

相比而言,已有研究主要针对基于内容的消费意图进行识别,很少研究消费意图句中的消费对象识别。本文定义消费对象是指消费者提出所需要购买的对象,即某段文本内容中所论述的对象。由于广告商所关注的正是用户针对某一消费对象的消费意图,而也就是这一存在使得消费意图研究更加突显其现实重要意义。但目前针对消费意图对象的相关研究较少。Wang等人[6]提出了从微博中挖掘趋势相关产品的问题。相应地,即将“趋势”定义为在微博上被用户热烈讨论的话题。例如,如果有人在微博上说“最近北京空气很差”,那么就希望从空气很差这一趋势中,挖掘出空气净化器,口罩等与之相关的产品。

一般而言,现有的研究是从文本内容中挖掘产品命名实体[8,9,10]或是评价对象[11 - 14〗。这里期望能从产品命名实体和评价对象抽取的研究中借鉴一些有价值的方法,从而对消费对象抽取研究有所启发和促进。一方面,事实上产品命名实体抽取的研究属于命名实体识别的研究范畴。命名实体 ( Named Entity: NE) 挖掘,主要是指从文本中挖掘出人名、地名、机构名等。早期命名实体的研究方法是基于人工规则的算法。近年来,一些机器学习的方法被应用到命名实体的研究之中。一部分学者采用基于分布假设计算词义相似度,其基本思想是那些倾向于出现在相似的上下文中的词意思相近,通过人工给定一组实体作为种子,其上下文作为模板并使用迭代的方法获取了给定目标类别下的新实体。以往的产品命名实体识别的研究主要是基于有指导的方法,然而这类方法需要标注大规模的训练语料,由于产品命名实体中词汇量比较大,新词频繁出现,经常出现缩略语,构建足够训练规模的产品命名实体训练集是比较困难的。这个问题对于消费对象识别来说同样存在,由于社会媒体中用户发布的内容随意,导致消费对象的成分多不完整,通常由缩略语等代替,故而诸如产品型号类: 5s( 指i Phone手机的型号5s) 这种产品型号边界未必能够被识别出来。

在情感分析中,有研究从评论中挖掘用户的评价对象。一般而言,现有的方法将评价对象的范围限定在名词或名词短语的范畴内,当然并非所有的名词或名词短语都是评价对象,因而需要对其进行识别。有研究者基于经验性的规则[12]或关联规则的方法找出频繁出现的评价对象[13,14],然后基于经验性的剪枝方法从中过滤错误的评价对象实例。还有学者将评价对象与产品属性之间关联起来,即认为产品属性可以作为评价对象的一种表达方式,如对一个手机来讲,“手机的像素”是手机的一个属性,而“触屏手机”是手机的部件之一。首先,该方法获取大量的名词短语作为候选评价对象; 继而采用了某些关系指示短语( 比如“属性 - 从性” 关系指示词: attribute - of) 来获取评价对象,最后利用候选评价对象和关系指示短语之间的共现关系,得出该候选评价对象是否是真正的评价对象。

4未来的研究方向

消费意图识别作为产品推荐和自然语言处理领域的一个重要方向,还有许多有意义的问题值得研究,其中热点的研究方向和问题主要包括:

( 1) 虽然研究者们已经提出了多种方法用于消费意图句的识别、消费意图模板和消费对象识别等方法。然而总的来看识别出的准确率较低,仍有许多噪声数据无法过滤,特别是隐性消费意图识别鲜有研究。因此接下来的一个主要目标就是如何找到一种有效的方法对不同平台中的消费意图句进行准确识别。同时,迫切需要其后的研究者把消费意图识别的各项任务做细、做深。尤其是希望能找到一种对于各个平台或各个不同领域都适用的识别方法。

( 2) 目前来看,消费意图识别的大部分工作都集中在显式消费意图识别的研究任务中。然而与显式消费意图识别任务不同,隐式消费意图识别的研究任务也是比较有意义的问题。即在一个用户表达的文本中,挖掘出潜在的购买目标。这方面的研究工作还比较少且仍未臻深入。此外,相对于消费意图句的识别而言,基于用户消费意图的研究也还未展开,尤其是在跨平台上的研究远未达到充分和全面。然而总的看来,基于隐式消费意图的研究和基于用户的消费意图研究方面还有许多的问题有待解决。

( 3) 消费意图研究中的评测问题一直是困扰研究者的一个主要问题。因此希望广大研究者们能够共同努力,推出一套大家都能认可和接受的评测体系和数据,这样定会极大地促进本研究的发展。本文基于内容的消费意图识别中各项实验大都采用人工评测的方法,基于用户的消费意图识别评价中采用了自动评价的方法。由于人工评测主观性强且费时费力,因此找到一种消费意图研究的自动评测方法还是非常有必要的。

( 4) 消费意图识别研究在众多相关研究中都有很大的应用潜力,如有研究是基于消费意图的电影票房预测取得了不错的性能。但这方面具体应用的例子仍然不多。所以在今后的研究中,应该积极探索消费意图识别在各种实际任务中的作用,这样才能更好地推动此项研究深入开展。

5结束语

意图识别篇2

大家实际上都很明白防空识别区的概念，是分等级识别，不是禁飞区也不是领空，但这不是重点,很多人没有想明白，我们设立防空识别区的战略意图，就是扭转“传统”的东海战略格局，攻守易形，这叫什么？符合真正战略对峙势态的，积极适当的战略转型，靠自身实力的稳步增长及推进，逼出一个主动的前出缓冲。

我们的防空识别区其背后本质就不是用来“防空和监视的”，没有防空识别区就不防空了？呵呵，这是一种战略空间的硬性拓展，说白了，不是为了防，而是为了出！为了我们的军机可以无所顾忌的出入我们的战略申延范围，这一步就八个字：理所当然，按部就班。

我管你什么跳梁小丑偷偷摸摸打个什么擦边球，在防空识别区的边缘偷鸡摸狗，然后大肆宣扬搞舆论胜利，实际上他们是赢了死要面子，输了实际的里子，雷达能照射的范围，解决起来方式很多，（再说，你怎么知道仅仅是雷达监控，还是心照不宣的好，我可不是指中国男人的视频，是什么当事者心里清楚）转为火控照射，不用战机，远程防空系统干掉你也没太大难度。

对方来几次，鬼头鬼脑的试探，想突出的无外乎就是探测监控强度，执行底线和舆论宣传，我们该怎么做，就怎么做，按照既定的规则来，不用附和他们的节奏，我们的监控标准就是按部就班。

在设立防空识别区之前，我们的推演是很充分的，对美国的反应和周边的反应是有充分预案的，截至目前，实际上，我们是高看了美国，他现实中的应对不过如此，呵呵，集中向软实力和舆论战方面倾斜了。

你要真不承认防空识别区，有本事你就进来！起码到升空警戒区域，或者让F-18E/F和F-22A来，机头指向明确些，看看有没有什么监控等级的变化，别在压着线来回装孙子，呵呵，你不来，我们可出去了。

就一句话，对于防--进来的，我们根本不在乎，也没多大战役兴趣，有没有识别区对国土防空的意义也就那样，依照我们目前的力量，只要你敢不听劝告做危险的战术动作，只要进入相关内侧的警戒区就绝放不过你，采取如何的“观察”方式，如何贴身“校正”航线，怎么质询由我们决定；如果敢触犯领空就强力驱逐乃至击落你，没有废话！希望美日别只敢和个吃屎的孩子一样远远的在外围竖中指，然后在舆论上找心理安慰，只剩这点出息了？

我们只对攻--出去的，感兴趣，我们的防空识别区虽然不是领空，但必然是我们今后军机自由翱翔的“领地”，有了防空识别区的范围和概念，就是未来战略空军攻防一体的法理保障和权限固定保障。

美日最好还是把鸡鸣狗盗那点心理快感压一压吧，因为，有了防空识别区，我们的空军和海军航空兵，可是要出去了，而且这将是雷打不动的常态，呵呵（借用天涯一句话说明这次炒作防空识别区不作为的现象：2005年，航空自卫队战斗机107架次紧急起飞拦截进入日本“防空识别区”的中国飞机，中国飞机通报了0次。2012年，为250架次，中国飞机通报了0次。8年间，中国飞机合计过千架次飞进了日本所谓的“防空识别区”，通报了0次。美日宣称这次没通报就沿斑马线线裸奔了两次，可有些人已经高潮了1万次）。

实际上，大家可以去龙腾看一下，这个世界话语权的偏袒到了何种地步？几乎没有一个国家的BBS正面评价中国东海防空识别区，都在指责中国单方面改变现状，却没有几个人知道，日本几乎划到中国领空的防空识别圈存在了几十年！而且几乎所有的BBS都认为日本可以很轻松的取得对中国军事冲突的胜利，这个世界就是这么现实，呵呵要改变这种全世界的黑视现象，只有靠实力说话。

另外给大家一个思路，这是笔者刚看到的新闻，大家注意：“中国战机紧急升空查证进入防空识别区日美军机：中新社北京11月29日电(记者陶社兰)中国空军新闻发言人申进科空军上校29日在北京表示，当天，中国空军识别查证了进入中国东海防空识别区的外国军机，实现了对防空识别区内空中目标的常态化有效监控。据申进科介绍，29日上午，中国空军组织苏-30、歼-11等主战飞机紧急起飞，查证美国P-

3、EP-3侦察机2批2架，识别进入中国东海防空识别区的日本E-767、P-

3、F-15等3型飞机7批10架。“中国空军执行东海防空识别区空中巡逻任务以来，与海军有关部队一道，忠实履行使命任务，对进入防空识别区的外国军机进行了全程监视、及时识别，并判明其类别。”他说。申进科并强调，担负中国东海防空识别区空中巡逻任务的空军、海军飞行员，将常备不懈、密切协同，共同保卫空防安全。”

意图识别篇3

近年来计算机网络安全事故已经对计算机网络系统造成极大的安全威胁,而传统的网络安全防御技术[1]功能单一,且只能根据设置被动地防御攻击事件,无法识别攻击者的攻击计划并预测攻击者的下一步攻击。在攻击意图识别领域[2],基于规划图分析的意图识别方法[3,4]无法处理复杂问题,基于概率推理的意图识别方法[5,6]在先验概率方面具有一定的局限性。

1 基于最小顶点割的攻击意图阻止算法

采取一定措施,降低发生概率高、危害程度大的攻击意图的实现概率是提高网络安全的重要途径。为使采取的补救措施最少,首先分析攻击路径图中起始节点到攻击目标节点的最小顶点割集,然后采用一定措施消除最小顶点割集的这些节点,就可以阻止该攻击意图的实现,从而实现增强网络安全的目的。

1.1 最大两两顶点不相交路径的构造

为简化最大两两顶点不相交路径问题,采用节点拆分(node-splitting)技术将问题转变为构造最大两两边不相交路径问题。将汇节点和源节点外的其他节点拆分为出点和入点,将该出节点的有向边转变为由出点引出的有向边,到该节点的有向边转变为指向该入点的有向边,以一条权值为1 的有向边连接出点和入点,节点拆分示意图如图1 所示。

从图1 可以看出,经过节点(见图1(a))的路径一定会经过节点(见图1(b))的该节点出点和入点之间的边,因此图1中最大两两顶点不相交路径等价于最大两两边不相交路径。从而构造最大两两顶点不相交路径可通过采用标准的最大流算法和网络流技术实现。

如图2 所示,按照节点拆分原则及路径转化原则,构造最大两两边不相交算法如下:

(1)将正在进行攻击的路径图作为一个流网络,把该流网络每条边的容量设为1;

(2)在当前使用的残留网络中找到所有的增广路径;

(3)在原来的流网络中添加增广路径,从而构造出新的流网络;

(4)重复步骤(2),(3),直到找出所有的增广路径;

(5)删除无流的边,余下的u-v路径就是网络图的最大两两边不相交路径。

图2(a)~图2(e)为循环迭代过程,(a)是初始网络,黑粗线代表增广路径,(b)是(a)的残留网络,(c)是(a)增加相应增广路径流量后的更新网络;(d)是(c)的残留网络,(e)是(d)增加相应增广路径流量后的更新网络。图2(f)是最后的计算结果,粗线代表网络图的最大两两边不相交路径,也就是最大两两顶点不相交路径。

1.2 最小顶点割

设PATH*为PATH的补集,PATH是Graph最大两两顶点不相交u-v的路径集合,其共有b条路径,则b为其最小顶点割的势,其中第i条路径共有di个内顶点。Min Cut是有向图Graph(VE RTEX,EDGE)的一个最小顶点割,则对于vertex∈ Min Cut,必然有路径path经过顶点vertex,且path∈PATH 。根据上述假设,则从有向图最大两两顶点不相交的u-v路径得到u-v的最小顶点割的算法如下:

(1)在各路径pathi∈PATH中,1≤i≤b,通过选取各节点依次形成具有b个元素的顶点集合共m个,记VERTEX1,…,VERTEXm,其中

(2) 取PATH*中的路径path*,然后检查全部的VERTEXj集合,如果path*不从集合VERTEXj中的任意顶点经过,则舍去VERTEXj,其中VERTEXj∈{VERTEX1,…,VERTEXm};

(3)对PATH*中所有的路径path*执行步骤(2)后,余下的m′ 个VERTEX1′,…,VERTEX′m′顶点集合就是所求的最小顶点割Min Cut。

1.3 基于最小割的攻击意图阻止

为阻止攻击者的入侵,可在攻击路径图中,通过切断通往意图的全部路径来实现网络安全防护的目标,而最经济有效的方法就是移除攻击路径图中的所有最小顶点割集。从前述最小顶点割的算法可以看出,攻击路径图Graph中意图节点v和初始节点u共有{s1,s3},{s1,s4},{s2,s3} 和{s2,s4}4 个最小顶点割。记m′ 个最小顶点割分别为VERTEX1′,…,VERTEX′m′,各个最小顶点割集均有b个顶点元素。由于有向图能够取主机级、安全域级和脆弱性级的攻击路径图,所以vertex可分为代表主机、安全和脆弱性的域节点。设最小割集VERTEXi′中的第j个顶点元素为vertexij,去掉节点vertexij的金钱成本、时间成本、人力成本以及关闭服务、主机和安全域造成的损失成本总和是f(vertexij)。最优的防护措施就是移除成本最低的最小顶点割集,具体如式(1)所示:

2 攻击意图动态识别算法图

2.1 攻击意图概率计算

脆弱性级攻击路径图中的节点趋向系数需要考虑攻击成功后的收益Gain、攻击的难易程度Difficulty*、攻击的隐蔽程度Stealths三个因素,各因素所占的权值分别用w1,w2,w3表示。将攻击者的攻击水平按由低到高分为低、中、高三个等级,其三个系数的相应权值依次为[0.8,0.0,0.2],[0.5,0.3,0.2],[0.2,0.4,0.4]。在攻击初始时刻,攻击水平较低,将相应权值作为初始值,然后依据攻击者在攻击过程中利用网络脆弱性的攻击复杂度来自动增减其攻击水平,从而实现权值的合理分配,具体如式(2):

脆弱性利用的难易程度Difficulty*的计算方法为:

若入侵者成功利用过该脆弱性,则难易程度Difficulty*为1,其他情况的难易程度Difficulty*需要进行计算。本文采用一个能实时反映脆弱性状态的信号因子描述脆弱性状态对攻击意图实现的影响程度。设脆弱性vulni在时间区域 τ 内所处状态Su的信号因子为λ(τ,vulni,Su),其中u =1,2,3,4,5。根据NTC的定义和Difficulty≠0知:NTC(ni-1,ni)≠0,NTC(n0,n1)=1,则信号因子为:

攻击者为了完成攻击意图,必须能够成功利用当前节点u出发到达攻击意图节点v的任一条路径上系统的全部脆弱性。依据脆弱性当前的状态和路径上各个脆弱性的利用概率能够计算出该条攻击路径成功完成攻击的总概率APPI。针对一条完整的攻击路径:pathk=(u,vuln1,…,vulnn,v),v是攻击意图节点,而系统的脆弱性之间利用“与”的关系。因此,通过式(5)可以计算出攻击路径pathk的APPI:

但从初始节点u到达攻击意图节点v的路径不是惟一的,设从初始节点u到达攻击意图节点v的攻击路径共有m条:{pathk,k = 1,2,…,m},具体如式(6)所示:

式中第k条路径pathk的长度为kn。在所有m条攻击路径中,只要攻击者完成任何一条攻击路径,就能够实现其攻击意图。因此,攻击意图的实现概率如式(7)所示:

2.2 基于当前状态的攻击路径预测

如图3 所示,攻击者的当前位置为v5,攻击者已经成功利用的脆弱性节点用深色节点表示,因此节点v2,v5处于状态S4,节点v8处于状态S5,余下节点处于状态S1。由于已经观察到了部分攻击行为,所以包含节点v2,v5的攻击路径{u,v2,v5,v9,v12,v} 的实现概率要比以前(节点v2,v5的状态为S1时)的实现概率高;而系统的响应行为使包含节点v8的攻击路径丧失了实现条件,所以{u,v2,v5,v8,v12,v} 的攻击路径的实现概率为零。

设攻击起点u到达攻击意图节点v的攻击路径共有m条,则在已知攻击者的攻击意图的条件下,利用式(8)可求解各个攻击路径的概率:

式中:Pr(intent)=AIP(intent),Pr(pathk)=APPI(pathk),可分别由式(5)和式(7)求得。应用式(7)可计算出各条路径实现攻击意图的概率,然后按照概率由高到低进行排列,据此针对实现概率高的攻击路径优先制定防护措施。

3 基于攻击意图分析的威胁评估

3.1 资产价值评估

针对确定网络的安全属性要求,资产的重要性和价值可通过其对完整性、机密性、可用性的敏感程度进行评估,由上述安全属性未达成时所造成的影响后果或者其达成程度来决定资产的价值。信息安全标准ISO13335 中利用资产的各安全属性被破坏后的影响后果确定资产的价值[7],具体如式(9)所示:

其中adi(i=1,2,…,n)表示资产对各安全属性的敏感程度。本文从资产的完整性、机密性和可用性三个安全属性出发,因此资产价值的计算公式为:

完整性、机密性和可用性的敏感性等级及划分方法如表1 所示。

将完整性、机密性和可用性的敏感度等级在极高时的值设为1,在不敏感时的值设为0,故AV∈[0,1]。

3.2 威胁评估算法

网络中的关键资产集合记为ENTITY,针对其中某一关键资产entity的攻击意图设为intent,则攻击意图intent对关键资产entity的威胁值为:

式中:AIP(intent)代表攻击意图对关键资产entity的攻击成功概率;AV(entity)代表关键资产entity的价值。

当评估网络中全部关键资产的威胁值时,先将全部关键资产的价值进行归一化处理,使threat(ENTITY)∈[0,1],具体如下:

4 网络攻击意图动态识别系统设计

4.1 系统总体框架

根据上述设计算法,攻击意图动态识别系统由数据源模块、接口模块、数据管理和存储模块以及可视化模块四个模块组成。

数据源模块:数据源模块利用各种安全技术收集网络中的安全相关数据,主要包括攻击事件信息、系统脆弱性信息、网络环境信息、安全防护策略信息等;

接口模块:接口模块将上层系统与数据源模块之间进行有效隔离,同时对数据完成转换和传输;

数据管理和存储模块:系统中包含数据文件和数据库2 个子模块,同时保证了对数据的处理能力和对可视化系统的支持;

可视化模块:系统的输出显示模块,完成原始数据到可视化数据的映射,实现图形颜色分配及图形拓扑算法。

4.2 网络攻击意图动态识别系统的实现

数据源模块、接口模块和数据管理和存储模块功能较为简单,故攻击意图的可视化是系统实现的重点内容,需对可视化模块的实现进行详细设计,本文采用开源可视化工具包prefuse实现可视化模块,具体实现步骤如下:

(1)数据文件的读取。采用SAX2 方式读取可视化数据文件,采用jdom形式读取网络拓扑信息的配置文件;

(2)Data Tables到Visual Abstraction数据的映射,实现将普通数据到可视化数据的映射;

(3)图形绘制。在prefuse.render包中使用NET_labelrenderer类绘制图形的节点,使用NET_edgerenderer类绘制图形的边;

(4)交互实现。通过自定义类ET_Drag Control实现节点的拖动、图形的放大和缩小、图形平移。当类ET_Drag Control接收到相应消息后,通过图形重绘事件实现交互效果。

5 系统实验

搭建的实验网络环境与拓扑结构如图4 所示。

运行实验系统,从2011 年6 月20 日到2011 年7 月10 日共探测到报警3 733 条,将其提炼成17 条攻击行为信息。图5 所示为2011 年6 月20 日05:13:43 时的攻击路径图,包括主机级、安全域级和脆弱性级三个层次。

网络所受的威胁程度随时间的变化如图6 所示。随着攻击行为的深入,攻击者对网络安全的威胁也逐渐加大,威胁值也逐渐变高。

以上测试表明,本文提出的攻击意图动态识别算法及系统在所搭建的测试环境下是有效的。

6 结论

本文给出了网络攻击路径图中的最小顶点割的攻击意图阻止算法和基于时间自动机的攻击意图动态识别算法,并在算法的基础上,设计并实现了网络攻击意图动态识别系统,采用图形化的系统数据输出手段,显著地提高了系统的表达能力,便于用户的理解和使用。本文提出的算法和系统仅在搭建的简单网络环境中进行了实验,要实现算法和模型的实用化,还需后续在更复杂的网络中进行充分测试,以便最终实现系统的工程化应用。

参考文献

[1]张阳,张琛,唐朝京.基于DCA的主动安全防御算法[J].现代电子技术,2015,38(15):53-56.

[2]冷画屏,吴晓锋,余永权.对抗意图识别技术研究现状及其突破途径[J].电光与控制,2008,15(4):54-58.

[3]BLUM A L,FURST M L.Fast planning through planning graph analysis[J].Artificial intelligence,1997,90(1/2):281-300.

[4]FIKES R E,NILSSON N J.STRIPS:a new approach to the application of theorem proving to problem solving[J].Computation intelligence,1995,2(3/4):189-208.

[5]CHARNIAK E,GOLDMAN R.A Bayesian model of plan recognition[J].Artificial intelligence,1993,64(1):53-79.

[6]ALBRECHT D W,ZUKERMAN I,NICHOLSON A E.Bayesian models for keyhole plan recognition in an adventure game[J].User modeling and user adapted interaction,1998,8(1):5-47.

本文来自 360文秘网(www.360wenmi.com)，转载请保留网址和出处

【意图识别】相关文章：

阳光意图04-17

领导意图06-02

编者意图06-04

设计意图06-14