基于混合推理的高血压药物模型研究

2024-04-14

基于混合推理的高血压药物模型研究(共7篇)

篇1:基于混合推理的高血压药物模型研究

基于混合推理的高血压药物推荐模型研究

摘 要:高血压是常见的慢性疾病,是心血管疾病的重要危险因素,但目前为止,尚未研制出根治高血压的特效药物,具有一次得病,终身服药的特点。对于不同的人群,合理地选择降压药对于治疗高血压有重要意义。本文针对高血压疾病治疗率低的问题,运用混合推理算法进行药物推荐,通过使用案例推理算法从案例库得到相似案例,进而用贝叶斯推理算法得到相应的药物,并分别与案例推理和贝叶斯推理算法所得到的结果比较,实验表明,该混合推理算法在一定程度上提高了药物推荐的准确率。

关键词:高血压;案例推理;贝叶斯;混合推理;推荐

中图分类号:TP18 文献标识码:A

Abstract:Hypertension,as a common chronic disease,is a high risk factor of cardiovascular disease.However,no specific drug has been developed currently to cure hypertension.It has a characteristic of lifelong drug therapy once contracted.For different people,it is of great significance to choose the anti-hypertensive drugs reasonably for treatment.Aiming at the problem of low curing rate of hypertensive disease,hybrid reasoning algorithm has been used to drug recommendation.First of all,similar cases are collected by case-based reasoning algorithm,then the corresponding drugs are obtained by the Bayesian algorithm.The experiment,after comparing the results of the case-based reasoning with Bayesian,shows that to some extent,the hybrid reasoning algorithm improves the accuracy of drug recommendation.

Keywords:hypertension;case-based reasoning;Bayesian;hybrid reasoning;recommendation

1 引言(Introduction)

高血菏浅<的慢性疾病,也是引起心血管疾病的首要危险因素。在《中国心血管病报告》中指出,中国心血管疾病的发病率持续不断上升,全国的心血管病患者近3亿,其中高血压患者占2.7亿。研究表明,我国每年的心血管死亡人数中与高血压有关的多达200多万人[1]。可见,有效地降低血压对于心血管疾病的预防,提升人类生活幸福指数有重要的现实意义。

目前,高血压患者的治疗仍以药物为主,国外的Michel Burnier[2]等人认为高血压病人要想达到降血压的目的,必须坚持接受药物治疗;吴昊[3]等人构建了高血压领域本体和推理规则,将本题库与案例库相结合,给出患者的用药处方;黄飞[4]等人通过构建高血压本体数据库,运用本体推理的方法对高血压患者心血管风险水平进行鉴定;曹小凤[5]在基于遗传算法的药物疗效评价模型中指出,只有长期进行药物治疗,才能使血压维持在相对较低的稳定水平。本文的目标在于为高血压患者推荐合适的药物,进而提高药物的治疗率,将案例推理与贝叶斯推理相结合,构建了高血压药物推荐模型,对于高血压患者的治疗有一定的指导意义。

2 高血压定义及电子病历构建(The definition of hypertension and construction of electronic medical record)

血压是指作用于血流通过时血管壁单位面积的压力,通常划分进入收缩压和舒张压。正常的收缩压力小于140mmHg,舒张压小于90mmHg。根据WHO标准,中度血压收缩压高于160mmHg,舒张压更大超过95mmHg。如果收缩压范围在140和160mmHg和舒张压介于90―95mmHg,这是边缘性高血压。

根据WHO/ISH高血压治疗指南中将高血压定义为,不使用降压药物的前提下,收缩压SBP≥140mmHg和(或)舒张压DBP≥90mmHg。根据收缩压和舒张压血压值不同,本文将所用的高血压级别划分为1级高血压(轻度)、2级高血压(中度),以及3级高血压(重度)具体如表1所示[1]。

高血压电子病历数据库的建设,除了数据库本身的知识外,还要结合领域的相关性。根据高血压药物推荐的需要,本文所设计的电子病历数据包括患者基本信息,历史血压记录,过往服用药物及用药记录,其中用药记录中包含记录ID、登记时间、药物ID、病人ID和血压级别。

3 高血压药物推荐模型(The recommended model of hypertension drugs)

本文构建了高血压电子病历库,根据案例推理可以检索出大量相似案例[6],对相似性处理能力有限,而贝叶斯推理有丰富的概率表达能力的特点[7],提出了一种基于混合推理的高血压药物推荐模型,旨在为患者推荐适合自身的药物,进而有效降低血压。首先根据患者的身体指标和血压级别取得相似案例,再运用贝叶斯推理算法得到更准确的药物列表,从而辅助医师开具最适合患者的药物处方。本文提出的高血压推荐模型工作过程如图1所示。

在大量高血压医疗病历中通过案例推理得出的结果不止一种,而每一种案例所使用的药物处方往往也有所不同,即使同样的案例,最终的用药结果也有不同程度的差异。针对这些问题,将满足一定条件的案例全部抽取出来作为目标案例的相似案例,并抽取出处方记录,其表示如下:

从药物1到药物n表示检索出来的用药列表。由上述描述可知,这些药物列表存在不同程度的差异,因此在药物推荐之前需要做一定的调整。

贝叶斯推理提出了推理的概率模型,它描述了某个事件最终得以发生的概率。本文在对药物进行后验概率的计算时,需要综合考虑多方因素,如药物的.使用频率、药物的疗效等。药物的条件概率计算如公式2所示:

式中,表示药物的后验概率,在高血压患者中某个患者可能不只患有高血压一种病,还可能同时存在心脏病。考虑到这种情况,本文首先根据患者的特征值到案例库中进行匹配,如果找到了就根据上述式(2)计算概率值,否则,就根据模糊理论采用如下的计算方法:

式(3)中,综合其他疾病的药物概率对某一药物概率值排序。通过贝叶斯算法所得到的药物列表可表示如式(4):

式(4)中,到表示通过贝叶斯推理所得到的药物列表,其按概率大小排名。

4 实验过程及分析(The experimental process and analysis)

本文将电子病历中患者的信息分为目标案例和源案例。通过与医师沟通分析,分别对案例推理、贝叶斯推理,以及本文提出的混合推理算法的准确率[7]进行分析。为了保证实验结果的准确性,将实验数据集随机分成10个相等的数据子集,取9个数据子集训练数据集,其余数据子集作为测试数据设置;重复10次,允许每个数据子集作为测试数据反过来,并使用平均10个测试结果,以评估该药物推荐模型。实验过程如图2所示。

本文所提出的混合推理算法对高血压药物的推荐过程具体实现过程如下:

(1)提取特征:根据患者的血压和身体特征从数据库中抽取所关心的特征,去除无用的特征信息。

(2)案例推理:根据提取的特征项,从案例库中抽取相似案例,并根据其历史诊疗及服药记录指导当前的决策。

(3)贝叶斯推理:对所提取的药物用式(2)与(3)计算药物的条件概率,并对药物列表排名。

(4)药物推荐:经过上述计算步骤后,便可以取得对当前患者可能适用的药物列表,推荐的医疗处方由式(4)所示,其结果由多种药物组成的药物列表。

为了更好地对比算法,本文列出了三种不同的推理算法在不同数量案例情况下准确率。图3描述了一种药物下的准确率,图4描述了两种药物下的准确率。

通过调查研究发现,高血压患者很少同时服用四五种药物,一般情况下服用的药物均为一到两种。实验表明,在药物推荐准确率上本文所提出的混合推理算法在均高于单一使用案例推理,以及贝叶斯算法,因为该混合推理算法集成了二者的的优点。另外,从实验结果可以发现,两种药物推荐的准确率比要高于一种药物的推荐,这主要是由于使用联合用药的患者还是少数,大部分只服用一种药物,通过两种药物的推荐匹配成功的可能性大大增加。

5 结论(Conclusion)

本文在对高血压研究的基础上,提出了一种药物推荐的混合推理模型。研究表明,在药物推荐的准确率上,本文所提出的混合推理模型相比于案例推理以及贝叶斯推理均有所提高,该模型对辅助医师开具高血压治疗药物有一定的指导意义。

参考文献(References)

[1] 刘力生,王文,姚崇华.中国高血压防治指南(基层版)[J].中华高血压杂志,,18(1):13-16.

[2] Michel Burnier,Gregoire Wuerzner, etc.Measuring, Analyzing, and Managing Drug Adherence in Resistant Hypertension[J]. Hypertension,2014.

[3] 吴昊,谢红薇.基于本体和案例推理的高血压诊疗系统的研究[J].计算机应用于软件,,30(12):155-158.

[4] 黄飞.高血压患者心血管风险水平智能分层系统[J].科学技术与工程,2014,14(7):204-209.

[5] 曹小凤.基于遗传算法的药物疗效评价模型研究[J].软件工程,(5):39-42.

[6] 张薇,何瑞春.基于案例推理的交通疏导辅助决策方法[J].计算机工程与设计,2014(10):3621-3625.

[7] Alaa Saleh Altheneyan,Mohamed El Bachir Menai.Naive Bayes classifiers for authorship attribution of Arabic texts [J]. Journal of King Saud University Computer and Information Sciences,2014 (26):473-484.

[8] Wang K,Khan M M H.Performance Prediction for Apache Spark Platform[C].IEEE International Conference on High PERFORMANCE Computing and Communications.IEEE, .

[9] Aronow W S.Treating hypertension and prehypertension in older people:When,whom and how[J].Maturitas,2015,80(1): 31-36.

作者介:

曹小凤(1989-),女,硕士,助教.研究领域:数据挖掘,人工智能,机器学习.

 

篇2:基于混合推理的高血压药物模型研究

专家系统是以推理为手段,以知识为中心解决问题的。目前专家系统较常用的推理方法主要包括基于规则的推理和基于案例的推理。基于规则的推理系统也称为产生式系统,它能够利用抽象的方法,把某一领域里专家的经验知识总结出来,并归纳成计算机可以接收的规则。基于案例的推理,是一种基于记忆,利用过去的案例和经验来解决新问题的一种方法,它可以看作是从一个旧案例到另一个新案例的类比推理。

早期专家系统多数是以规则推理为推理机制,存在“知识获取”的颈瓶以及知识库维护困难的缺陷。现有的考试系统评价与分析模块中核心组成部分推理机,大多采用基于案例的推理或者基于规则的推理等单一推理方法,推理效率往往较低,尤其不能适应学生学习规律的动态变化发展的特点,这也是导致现有的考试评价系统效果不明显的根本原因之一。

本文针对考试评价系统的特点和发展要求,提出了将基于案例的推理和基于规则的推理融合在一起,结合两种推理的优势,提高系统的运行质量和效率,研制开发了基于混合推理机制的考试评价专家系统。

该系统中的智能评价与分析功能模块能根据每一个学生的测试情况即时迅速地作出推理分析,并提出相应的学习建议,友好地约束使用者的学习进度以提高学习效率,实现了一定的自我学习和知识积累功能。

1 基于规则和案例的混合推理机制

1.1 基于规则的推理机制

基于规则的推理是人工智能技术发展过程中比较成熟的一种推理模式。许多成功的专家系统都采用产生式系统的典型结构,用产生式规则表达知识。产生式系统既直观、自然,又便于进行推理。产生式是规则库中的最基本的知识单元,形式相同,易于模块化管理。能表示确定性知识、不确定性知识、启发性知识、过程性知识等,也可表示元知识。产生式有固定的格式,既便于规则设计,又易于对规则库中的知识进行一致性、完整性检测。

由于人们对知识的表示和需求各不相同,专家系统中知识的形态及表示方法也非常繁多,产生式系统正是采用了人类常用的表达因果关系的知识表示形式,而考试系统的智能评价的学科专家经验知识中大多存在因果关系。这种因果关系也就是前提与结论的关系,而产生规则的一般形式为:if<前提>then<结论><规则置信度>,因此用产生式系统来表示学科专家经验知识是非常方便的。

该系统中的知识包括学科专业理论知识和学科专家经验知识,其中学科专业理论知识即一般事实知识,学科专家经验知识即规则知识、控制知识、元知识和常识,智能评价与分析功能模块中的知识主要是学科专家经验知识。基于规则推理的推理机是根据规则库进行有效的推理,但在求解大规模问题时,知识获取往往遇到颈瓶,规则库将难于维护,推理效率也会大大降低。

1.2 基于案例的推理机制

基于案例推理是近年来人工智能领域中兴起的一项基于经验知识进行推理的技术。它的基本原理是:当人们在解决新问题时,常常利用过去经验中积累下来的具体案例进行推理,并通过适当修正得到新问题的解决方案,进一步构造和完善案例库。与基于规则的推理模式不同的是:它不必像基于规则的推理那样,每一次都要从头开始,而是通过一些特征值检索案例库中的同类原有案例进行适配和修正,从而获得解决当前问题的方案,即生成目标案例。

采用基于案例推理技术可以简化解决新问题的途径,提高推理效率和效果,因此更加符合人们迅速准确地求解新问题的要求。基于案例推理解决了存在于基于规则系统中知识获取的瓶颈问题,对于解决复杂领域或知识不完备领域的问题更为有效。这种技术在没有很强的理论模型、领域知识不完全而经验丰富的故障诊断、决策、评价分析等领域,具有较明显的特点和优势,具有非常重要的研究价值。

案例推理以案例作为知识元,知识获取和表示自然直接,具有自学习功能,其本质是基于相似性的类比推理,与人类类比思维的逻辑是一致的。案例推理技术借鉴以往的经验知识,更符合领域专家和设计人员的设计思维过程。但它也存在着一些问题,如:最适合的案例不一定能被选中;具体结构和细节部分的表示较繁琐等。

1.3 基于规则和案例的混合推理机制

基于规则的推理与基于案例的推理都有其自身的优点和不足,若将两种推理方法结合在一起,可以利用各自优点,取长补短,提高专家系统中推理机的推理效率和灵活性。基本思路是,首先构建学生考试案例库,在出现新问题时判断在案例库中是否存在与新问题相同或相似的历史案例,存在则进行案例推理,否则进行规则推理,其结果均通过解释机输出,并且将最终解决方案添加到案例库中,实现了系统的自学习。

本文研究的考试评价专家系统,要求有很高的时效性,采用以基于案例推理为前导,基于规则推理为补充的混合推理机制。

2 案例推理的设计

考试评价系统能否有效运行,一个重要的关键在于案例知识的表示方法以及设置的检索方法是否适当,这里重点对这两个问题进行讨论。

2.1 案例库的构建

考试评价案例库是实现推理的基础,其内容和构建形式直接影响到下一步推理方式的选取。一个合格案例表示包括两部分:问题初始化条件;问题求解目标,达到该目标的解决办法。

案例就是能导致特定结果的多个特征属性的集合,它的表示方法多种多样。由于学生特点和学习规律的多样性,复杂性,系统采用面向对象的案例表示方法来构建案例库。面向对象表示方法是将客观事物抽象化,具有封装性、模块性、继承性、易于维护和可扩展性等优点。首先将参与考试学生的案例归纳成考生类型标识、考生考试用时、试卷标识、每套题得分、正确率、每个单元的正确率、理论和实践的正确率、每套题答题完整性、同一知识点的出现次数、每套题难易度、专家学习建议等特征属性。根据特征属性的不同数据类型确定统一的参与考试学生属性特征向量,根据特征属性的重要程度确定特征属性的权值,然后通过关系数据库以记录的形式来存储案例表,属性特征向量表及其权值分配表,从而建立案例库。

将学生考试案例抽象为如下形式的多元组:case=C={I,ID,T,Co,S,R,C,F,D,M},其中

I———案例号:casei;

ID———考生类型标识:IDi;

T———考生考试用时:Ti;

Co———试卷代码:Coi;

S———每套题得分:Si;

R———正确率:R1,R2,…,Rw,其中,Ri={ri,thi,pri},ri为总正确率,thi为理论部分正确率,pri为操作部分正确率;

C———每套题答题完整性:Ci;

F———同一知识点的出现次数:F1,F2,…,Fw,其中,Fi={fi,ki},fi为出现次数,ki为知识点代码;

D———每套题难易度:Di;

M———专家学习建议:M1,M2,…,Mk。

以上学生考试案例表示方法,较为全面地反映了学生考试的评价与分析。为了实现学生考试评价知识的有序储存与快速检索,考试评价系统设计了相关数据库并对其进行自然码编码。

2.2 案例检索

案例推理的实现过程主要有两步,即检索与修正,而后是诊断结果的反馈。其中检索尤为重要,检索的目的是找出与新案例相同或者相似的旧案例,如何判断新旧案例是否相同或相似,在多大程度上相似,则是案例检索的关键问题,通常需要建立相似性函数对新旧案例进行比较。案例推理中常用的相似性函数有最近邻算法、k-NN算法、多参数相似性函数、距离度量法等。

根据考试评价与分析的特点以及上述案例的表示方法,本系统采用的案例推理方法是逐步逼近匹配法。当案例检索时,将正确率等信息输入基于案例的考试评价系统,实际运行时,评价和分析的数据往往由考试模块自动传输过来。首先按正确率的编码进行检索,并将匹配结果暂时存入临时数据库,其次根据答题的完整性等信息在临时数据库中检索,得到对考生的评价与分析建议。如果没有相同的案例,系统将提供近似的案例,并按照学生考试案例的表示方法,对案例所提供的评价建议进行修改以适合当前的学生个例,直到用户满意为止,并将其作为新的案例存储到案例库中。若得不到用户满意的评价结果,则转向基于规则的推理模块。随着学生考试案例的增加,考试评价系统的适应性也会大大提高。

3 规则推理的具体实现

该系统中的知识包括学科专业理论知识和学科专家经验知识,其中学科专业理论知识即一般事实知识,学科专家经验知识即规则知识、控制知识、元知识和常识,智能评价与分析功能模块中的知识主要是学科专家经验知识。

由于人们对知识的表示和需求各不相同,专家系统中知识的形态及表示方法也非常繁多,而该系统的智能评价中的学科专家经验知识单元之间大多存在因果关系,而产生式系统正是采用了人类常用的表达因果关系的知识表示形式,这种因果关系也就是前提与结论的关系,因此用产生式系统来表示是非常方便的。产生式不仅可以表示精确知识,而且还可以表示不精确知识。用产生式表示知识的系统中,“事实”与产生式的“前提”中所规定的条件进行匹配时,可以是“精确匹配”,也可以是基于相似度的“不精确匹配”,只要相似度落入某个预先设定的范围内,即可认为匹配。因此这种表示方法得到广泛的应用,其有效性和执行效率在实际应用中也得到了验证。

例如,该系统中有如下产生式:

IF该学生理论知识正确率>=80%

该学生实践操作知识正确率<=50%

THEN建议该学生先加强实践操作知识练习,置信度为CF=0.6

在设计知识库时,为了减小搜索空间、提高系统运行的可靠性和执行效率,本文中采用了产生式规则分类法,即把规则集分为不同的类别,系统在进行评价推理时首先匹配规则类别,然后再匹配具体的规则,这样就大大缩小了规则的首次搜索空间,从而提高了搜索和推理效率。

在系统的智能评价中采用的知识表示策略是“规则类别+规则体”的形式,这种知识表示策略可用一个描述语法结构的形式来表示,常采用BNF范式的形式。其描述如下:

规则组::=<规则类别><规则体>

规则类别::=‘IF’<前提因素集>‘THEN’<结论因素集>

其中,::=表示‘定义为’。

4 系统实现

4.1 智能评价中求解问题的步骤

该系统的智能评价中求解问题的步骤是:

(1)初始化综合数据库,把问题的初始已知事实(如本次测评的成绩数据)送入综合数据库中。进行案例检索,若案例库中不存在相同或相似案例,转而实施规则推理;

(2)规则推理时首先匹配规则类别,其次再匹配具体的规则,若规则库中存在尚未使用过的规则,进一步推理,若它的前提可与综合数据库中的已知事实匹配,则继续;若不存在这样的事实,则转第(5)步。若规则中不再有未使用过的规则,则转第(6)步;

(3)执行当前选中的规则,并对该规则做上标记,把该规则执行后得到的结论送入综合数据库中。若该规则的结论部分指出的是某些操作,则执行这些操作;若该规则的结论部分给出的是某些结论或建议,则保存该结论或建议以备输出或显示;

(4)检查综合数据库中是否已包含了问题的解,若已包含,则终止问题的求解过程;否则,转第(2)步;

(5)要求用户提供进一步的关于问题的已知事实,若能提供,则转第(2)步;否则,终止问题求解过程;

(6)根据用户提供关于问题的已知事实,更新知识库。更新结束后,转第(2)步。

4.2 具体实现

该系统利用SQL Server数据库的诸多优点,例如能够很好地处理知识表示中的不一致性、整体性及冗余度检查问题,能利用强大的SQL查询语句对知识进行搜索处理等,并利用面向对象的开发语言VB为开发平台,采用SQLServer2000为后台数据库,建立了考试评价的案例库和规则库,实现了SQL Server对知识的访问,亦即在VB中利用ADO技术访问SQL Server表的问题。并与推理机结合实现了一个多层次,分布式的考试评价与指导专家系统。以下以一个实例表明其推理过程:

(1)输入参与考试学生的学习过程信息:考生类型标识、考生考试用时、正确率、每个单元的正确率、理论和实践的正确率、每套题完整性、同一知识点的出现次数、正确率及曲线图(波动性、稳定程度)、不同难易度的得分情况等特征属性。在系统的实际运行中,这些考试信息由考试系统自动记录、并传送到评价与分析模块;

(2)系统基于用户提交或自动记录的信息,首先对案例库进行检索,其次从案例库调用相似的相关案例,如果大于设置的阙值,则案例匹配成功,给出预测结果,预测过程结束。预测结果包括:参与考试学生的学习规律、学习特点、专家建议等;

(3)如果用户对给出的学习评价和建议不满意,系统与用户进行交互,用户根据系统给出的案例相似度和自己的观察经验,对方案进行修改,直至用户满意,并将案例保存在案例库中;

(4)如果用户认为差异太大,可以终止预测过程,对案例库进行补充,或咨询专家。

实践证明基于案例推理为主,规则推理为辅的混合推理机制下进行考试评价与分析,操作简单,推理迅速、准确,有很好的应用前景。

5 结束语

基于混合推理技术的考试评价系统实现了传统的案例推理和规则推理两种推理方式的有效结合,提出了“以案例推理为先导,以规则推理为基础,两种推理方式相互独立,相互补充”的混合推理方法,符合常规的设计习惯。两种推理机制取长补短,同时又可相互促进,无论采取哪种推理方式得到的推理结果都可以反馈到问题案例库中,在一定程度上也实现了系统的自学习。所提出的混合推理机制也同样适用于其它具有多状态参数特征的故障诊断和评价系统中。在系统案例足够多的时候,能够提高系统的推理速度,保证推理结果的可靠性。同时也兼顾了系统的可移植性,使系统在不更改推理机的情况下,通过补充更新知识库就可以直接进行其他类型的评价系统的设计。

该系统中的智能评价模块已具备一定的推理智慧,能根据学习者的测试情况和个性提供相应的指导,实现个性化教学,能根据学习者当前的薄弱环节,提供学习者补漏拾遗的提示和相应的学习计划建议。智能评价模块将学生的评价信息提供给系统的智能组卷模块,就能根据学习者的水平和学习情况提供合适的、个性化的、交互的练习和测试环境,这极大地增加了学习情境的人性化色彩,对提高学习者的学习兴趣,改善教学效果有重要的意义,显然有效的智能评价系统是必要的。

摘要:文章针对目前考试系统中评价与分析功能过于简单的特点,以专家系统、教育心理学等理论为指导,采用基于规则推理和案例推理的混合推理设计了考试系统中的智能评价模块。该系统中的智能评价模块能根据每一个学生的测试情况即时迅速地作出推理分析,并提出相应的学习建议,友好地约束使用者的学习进度以提高学习效率,实现了一定的自我学习和知识积累功能。

关键词:考试系统,智能评价,专家系统,混合推理

参考文献

[1]李小青.基于案例推理的故障诊断方法[J].计算机测量与控制,2007,15(9):1130-1131.

[2]刘道华,乔春平,原思聪,等.专家系统中知识的关系化表示方法[J].信阳师范学院学报(自然科学版),2005(10):491-493.

[3]钟珞,黄飞,江琼,等.混凝土抗硫酸盐侵蚀专家系统知识结构研究[J].微机发展,2003(11):61-63.

[4]王巍,贺建军.基于数据库技术的气流干燥专家系统知识库的建立[J].自动化与仪表,2007,22(3):9-11,72.

[5]何波,刘全利,王越,等.基于混合推理机制的故障诊断专家系统[J].微计算机信息,2006,22(9):192-194.

[6]年志刚,梁式,麻芳兰,等.知识表示方法研究与应用[J].计算机应用研究,2007(5):234-236.

[7]刘宏伟,姚寿广.数据库技术在专家系统知识表示中的应用[J].江苏科技大学学报(自然科学版),2007(6):50-53.

篇3:基于混合推理的高血压药物模型研究

关键词改进混合高斯模型目标间差分自适学习权重

目前,国外学者提出了多种针对不同应用条件的背景模型。Wren C的实时系统[1]对跟踪对象采用多类的统计模型,在初始化一个没有运动物体的背景后,这个系统能得到较好的效果,但在户外环境中,该算法跟踪效果不佳。Ridder C 等人[2]采用Kalman滤波,对每个像素构建一个模型,该算法虽然能适应灯光的变化,但背景自适应能力缓慢,处理多层次的背景没获得满意的结果。

Friedman N 等人[3]利用自适应混合高斯模型在处理光照变化、树叶抖动等获得较好的效果,但混合高斯背景模型采用固定学习权重,难以适应运动目标运动快慢变化。更新权重高导致慢运动目标误判为背景并引入大量噪声;更新权重低则在停滞物体逃离背景时长时间留下前景运动物体和降低对光照变化的适应能力。

针对上述问题,对传统混合高斯模型作了改进,设计了自适应学习权重。结果表明基于改进的跟踪系统获得良好效果。

1混合高斯背景模型

1.1混合高斯密度函数

Grimson和Stauffer中提出的背景模型[4][5]采用K(3-5)个高斯分布统计每帧中相同像素点的最近t帧值(X1,X2,…,Xt),从而得到下一像素点值在当前帧的密度概率函数:

■ (1)

(2)

式中,ωi,t表示t帧的值(X1,X2,…,Xt)落入第i个高斯分布的比率,μi,t和∑i,t分别表示高斯分布的期望值和方差,∑i,t=σ■■I(假设像素点的GRB个分量互相独立,且有相同的方差,I为单位矩阵)。K个高斯分布总是按照优先级λi,t=ωi,t/σ■■(i=1,2,…,K)从高到低的次序排列,ηi,t为与ωi,t对应的高斯分布。

1.2混合高斯模型更新和背景生成

对某像素点的每个新样本点Xt+1判断其与已存在的K个高斯分布进行匹配,若满足条件Xt+1-μt<2.5σi,则Xt+1与该分布匹配。如果Xt+1都不匹配,则增加新高斯分布或者用新高斯分布代替λ最小的分布。新的高斯分布以Xt+1作为均值,方差用经验值30。

高斯分布权重、均值和方差分别按式(3)、式(4)和式(5)更新。对于匹配的分布Mi,t+1=1,否则Mi,t+1=0。不匹配的分布,均值和方差都保持不变。

■ (3)

■ (4)

(5)

■ (6)

高斯模型更新完毕后,从新排列优先级λi,t,取前B个高斯分布生成背景:

■ (7)

■ (8)

该模型中有两个重要参数α(学习权重)和H,其中1/α表示训练P(Xt)的最大样本空间中的样本点个数;H用来确定作为背景模型的分布,H取经验值0.8。

2自适应学习权重

传统混合高斯背景模型采用固定学习权重,难以适应目标运动快慢变化,易把缓慢运动目标融入背景中,从而引起误检测。图1(a)是没有出现目标缓慢挪动的背景模型;图1(b)是运动目标在A位附近进行缓慢挪动的原视频帧;若采用固定学习权重更新背景,当运动目标出现缓慢运动时,背景模型会出现图1(c)长期留下运动目标痕迹。

2.1目标分割

文灏等人[6]采用背景模型直接对当前帧相减,以此获得运动目标。但在运动目标检测过程中,常因快速的光照变化、树叶运动时反射色差较大或运动目标颜色和背景颜色相似而导致背景区出现大片干扰或目标区内断裂和空洞现象。本文采用极限误差作分割标准,在高斯模型中随机量落在极限误差3σ以外认为是前景。某像素点Xt+1满足Xt+1-μt>3σi,则判为前景,将该像素点R、G、B三分量置为255,反之则判为背景并置0。该法不但填补了目标体内的裂痕和空洞,而且在背景区引入的噪声少。图2(d)为极限误差分割法的前景,比图2(a)直接相减后得到的前景区,其含目标体内裂痕、空洞和背景区的噪声明显要少。

2.2小面积噪声消除

系统设计是面对室外复杂环境的目标跟踪,改进后的背景模型虽然能消除树叶的轻微抖动、光照的缓慢变化,但在较大的风速或背景颜色和前景颜色接近时,便不可避免在目标分割后存在一些小面积的噪声。

常用的消噪方法有形态学闭运算或是中值滤波,但对于小面积噪声消除不净,且易造成目标的变形或目标裂痕加大。因此设计了基于标记的小面积噪声消除法。

一般地,二值化后的图像中单个运动目标都是较大的连同区域,而噪声的面积比目标小得多。直接把连通区域像素标记为同一目标,计算各个分离目标的面积(像素个数),将面积小于预定阈值的像素置0,从而保留了面积大于预定阈值的目标。

设:带噪声二值图像为f(x,y),宽为w,高h,即像素(x,y)的灰度为f(x,y),x=0,1,…w-1;y=0,1,…h-1。x为横坐标,y为纵坐标,图像左上角为坐标原点。图像背景为黑色,灰度值为0;运动物体为白色,灰度值为1。

图像像素(x,y)对应像素的物体编号为I(x,y)。当前物体编号为K,K=0,1,…,M。背景像素物体编号K=1,当某一像素的物体编号K=0时,表示该像素还没有被标定属于那个物体。物体编号最大值M为当前帧中非连通块的个数。

nlc202309031430

物体编号为K的像素个数为N(K),并设定阈值为Yu。当前景图像(x,y)的邻近坐标为(u,v),其中x-1≤u≤x+1,y-1≤v≤y+1,且(u,v)不等于(x,y)。

消除噪声算法步骤如下:

(1)给像素编号

a. 初始K=1。对每一个像素(x,y),若该像素为黑色目标像素,则设置物体编号I(x,y)=1;否则该像素为背景像素即灰度f(x,y)=0。

b. 从坐标y=1,x=1,物体编号K=0开始。

c. 判断当前坐标位置像素的物体编号。若当前像素物体编号I(x,y)=0,执行下一步,否则当前像素的物体编号I(x,y)不等于0时,转步骤g。

d. 当前物体编号K增加1。

e. 递归函数开始。将当前像素物体编号I(x,y)置为K。

f. 当前像素有8个邻近像素,邻近像素坐标为(u,v)。若物体编号I(u,v)为0,则将(u,v)视为当前像素,递归调用步骤e;否则下一步。递归完毕。

g. 当前坐标位置往右移动一个像素,即x=x+1。当超过右边边界,就往下一行左端移动,即y=y+1,x=0。若坐标没有达到右下角,则转步骤c,否则执行下一步。

(2)计算每个编号的像素个数

a. 初始化K=1,2,3,…M,令N(K)=0;

b. 遍历每个像素,即对于x=0,1,…w-1;y=0,1,…h-1,当编号I(x,y)=K,令像素个数N(K)=N(K)+1。

(3)删除小面积噪声

若像素个数N(K)

2.3区域细分与自适应权重

对33帧和34帧分别采用极限误差分割法和噪声消除后,得到图4(a)和图4(b)连续两帧的目标区。两帧差分得到图4(c)连续两帧目标间的变化区。变化区与33帧异或得过去目标区,如图4(d);变化区与34帧异或,得到当前目标区。变化区域被分割成属于过去一帧(33帧)的过去目标区和属于当前帧(34帧)的当前目标区,分割结果如图4(d)和图4(e)所示。

在运动目标运动缓慢时,易给混合高斯背景带来大片干扰(如图1(c)示),本文采用自适应更新权重消除此干扰。对背景区域采用小的更权重(α取0.002),以维护高斯模型的统计特性;对过去目标区采用较大更权重(α取0.1),可消除运动目标由于缓慢运动留下的痕迹;而对当前目标区不作更新,消除当前帧运动目标给背景模型引入干扰。

3实验结果

对在风力4级、存在树叶抖动剧烈的室外环境下拍摄的视频进行仿真实验,测试软件为MATLAB7.0。图5(a)为原算法背景模型,由于运动目标出现停滞而留下的干扰难消除。图5(b)为改进后背景模型,在运动目标出现停滞的处获得了较满意的修复效果。

基于改进后的背景模型,运动目标系统在室外复杂环境下获得了良好的跟踪效果。跟踪效果如图6所示。

4结论

对传统混合高斯背景模型作了改进,有效消除传统模型中难以适应运动目标出现缓慢运动而引入噪声的情况。因采用了噪声消除和目标间差分,很好区分了背景不同性质区,对不同区域用不同学习权重,是背景模型具有自适应性,因此背景模型在受运动目标干扰的区域得到快速的修复。实验结果表明,该算法有效的提高了混合高斯背景模型的鲁棒性,为后继运动目标检测、识别、跟踪提供了良好基础。

参考文献

[1] Wren C,Azarbayejani A,Darrell T,et a1.Pfinder:real—time tracking of the human body [J].IEEE Transactions on Pattern Analysis and Machine Intelligence,1997,19(7):780-785.

[2] Ridder C,Munkelt O,Kirchner H. Adaptive background estimation and foreground detection using Kalman·filtering[A].In:Proceed· ings of the Int’1 Conference on Recent Advances Sinmechatronics [c],Istanbul,Turkey,1995:193-199.

[3] Friedman N, Russell S. Image segmentation in video sequences: A probabilistic approach[A]. In: Proceedingsof the13 Conference on Uncertainty in Artificial Intelligence [ C ], Rhode Island, USA, 1997:175-181.

[4] W E mixture models for Stauffer C.GrimsonL.Adaptive background real—time of IEEE Conference on tracking[A].In:Proceedings Vision and Pattern Collins,Computer Recognition[C],Fort Collins,Colorado,USA,1999:246-252.

[5] Stauffer C,Grimson W E L.Learning patterns activity using real time Transactions Pattem and Machine tracking[J].IEEE Analysis InteHigence,2000,22(8):747-757.

[6] 文灏,陈红涛.基于减背景与对称差分的运动目标检测[J].微计算机信息,2007,23(9):18-20.

Research of Tracking Moving Objects Base on Improved Mixture Gaussian Model

Liu Yongfu1,Tan Jianbin2

(1. Guangdong Polytechnic Institute,Guangzhou 510091,China)(2. Foshan Polytechnic,Foshan 528137,China)

AbstractSystem made improvement to traditional Gaussian mixture background to eliminate the effect of slow movement objects on background model. System use target difference to identify the movement area of coherent frames, and it will adopt different learning weight updated strategy to each areas. The experimental results show that this improved algorithm has strengthened background model and achieved a better result in tracing system.

Key words improved mixture Gaussian model,objects subtraction,Adaptive learning weight

(收稿日期:2012年7月21日)

篇4:基于混合推理的高血压药物模型研究

当前协同设计中冲突用到最多的消解策略主要包括以下几种:约束松弛、知识推理、回溯和协商仲裁[1], 但每种方式都有独特性。

基于知识的推理策略依赖于知识数据库, 主要解决一些工程设计项目中的错误, 以避免将错误的放入数据库中, 影响后面设计者的继续设计, 但对数据冲突问题处理薄弱。约束松弛的方法主要采用放松对约束条件的限制来进行的。但是有些放松条件的情况下可能完成的目标不符合要求。回溯的处理方式是指在冲突产生后, 设计程序倒退到某一设计点中, 选择当时放弃的设计方式。这种策略是在没有专业领域的消解知识经验的情况下来进行的。因此, 在冲突时所选用的回溯点会有很多, 但是不能确定新的方式就不会有错误, 而且不能确定哪一种是最优化的策略。协商仲裁的方式指的是上述多种方式不能解决时, 相关的设计人员还不相互让步的情况, 如果解决消解问题必须进行仲裁。

2 基于冲突分类的事例推理冲突消解模型

通过上面对冲突的分析和探讨, 单一的方法不能够解决协同设计中出现的多种类型的冲突, 所以一种集成的能够处理不同种类冲突分类的消解方法便成为需要。本节提出了基于冲突分类的事例推理冲突消解模型, 该模型主要有冲突检测模块、冲突归类模块、冲突消解模块和冲突管理数据库组成, 如下图所示:

1) 冲突检测模块

冲突检测模块的主要功能是对冲突进行捕获和登记。冲突的捕获是依据冲突的约束规则库, 当捕获冲突后, 就可以把冲突信息登记在冲突登记表中。冲突登记表在实时检测到系统中的冲突后, 进行登记。

2) 冲突归类模块

印染图案协同设计的过程中会产生种类繁多的冲突。冲突归档的模块主要起到对冲突进行分类的作用, 分类的结果对冲突的消解是作为一个依据, 冲突的顺序调节是根据冲突的关系规则推理出冲突的关系, 也是冲突消解的参考。

3) 冲突消解模块

冲突的消解是冲突管理中的重要技术之一, 如果在监测到冲突之后冲突得不到解决, 就可能将冲突带到下面的设计过程中或者导致协同设计的终止。本文的冲突模块冲突消解策略为基于冲突分类的事例推理冲突消解。

系统首先使用特定的冲突检测工具对产生的冲突进行监测, 将检测完成的冲突进行相应的分类, 形成冲突分类的信息登记表, 将信息登记表添加到冲突数据库中。该模型首先应用事例检索来查找相似的事例, 通过检索出的相似事例或修改相似事例的冲突消解策略来对冲突进行消解。如果没有相似的事例, 再进行下一步, 读取冲突规则库和冲突分类表的数据进行针对性的消解;如果冲突的产生带有连锁的效应, 采用约束松弛的方法来进行消解;对于连锁效应较小, 主要是单个体的冲突类型, 利用知识推理的方式进行消解;对于计划和执行产生的冲突, 采用回溯的消解策略方式;对于上面3种方式都无法解决的冲突, 采用协商仲裁的方式, 在协商的过程中可能会出现冲突的各方都不让步的现象, 导致协商的失败。此时进行冲突的仲裁, 仲裁在综合各方建议后直接实施决策, 最终完成冲突的消解。

4) 冲突管理数据库

冲突管理的数据库维护与规则维护相关联, 约束规则库约束的是存储约束规则的包括表达式、预处理规则等相关的信息库。冲突消解事例库中对之前冲突解决方案的事例, 并且得到领域的专家认可的方案进行存储, 作为冲突过程中的事例检测和索引的相关操作。冲突关系的规则库则存储着协同设计过程中系统内部的冲突关系的相关信息, 规则库中还包含冲突应当遵循的解决顺序的数据, 这也是冲突解决的依据[2]。

3 冲突消解模型的应用实例

下面以印染图案协同设计中的冲突检测与消解的一个实例来讲解该模型的工作过程。如图所示为协同图案设计过程中冲突消解前后图案的变化。

冲突消解前, 图案的种类太多和所占画布比例过大, 整幅图案显得较乱。通过事例推理后得到相似事例的处理方式, 通过4应用减少图案数量为4种和删除中间位置图案后, 图形冲突得到消解, 冲突消解后的图案显得规则大方, 符合审美习惯。

4 结论

本文在分析现有冲突消解技术的基础上, 研究了基于冲突分类的事例推理冲突消解模型, 该模型可以利用多种消解策略来对冲突进行消解, 并通过印染图案的实例进行了验证。

摘要:协同设计的过程中不可避免的要产生冲突, 然而当前的消解策略都比较单一。本文研究的基于冲突分类的事例推理冲突消解模型可以利用多种消解策略来对冲突进行消解, 并通过实例进行了验证。

关键词:协同冲突,事例推理,冲突消解

参考文献

[1]李详, 王东哲, 等.协同设计过程中的冲突消解研究[J].科技成果, 2001 (1) :32-25.

篇5:基于混合推理的高血压药物模型研究

关键词:财务指标;核主成分;混合高斯模型;聚类

中图分类号:F23 文献标识码:A doi:10.19311/j.cnki.1672-3198.2016.07.046

1 研究背景

上市企业定期公布的财务报表对投资者选股、持股有一定的参考价值,但大量数据背后的信息往往难以被发掘。聚类分析是一种以数据特征为基础的分类技术,通过对上市企业财务数据的聚类分析,能基于财务指标的相似性实现对上市企业的有效分类,对投资者有重要的指导意义。

原思聪(1995)首次探讨了模糊数学方法在股票选择方面的应用,通过综合隶属函数与模糊函数构建了股票选择的评价体系,然而模糊聚类的主观性较强。沈周翔、钟键(2005)则采用主成分(PCA)的方法,通过提取累计方差贡献率大于95%的两个主要成分,将股票财务数据投影到二维平面上,并根据平面象限区分聚类类别,但传统的PCA算法是基于线性组合构造主成分的,并不能处理具有非线性结构的财务数据,因此学者提出了以核主成分(KPCA)技术替代PCA技术进行特征提取。余乐安、汪寿阳(2009)先用KPCA算法对股票的财务数据进行降维处理,再对降维后的数据采用K-Means聚类,这种处理方法能得到准确率更高的聚类结果。但K-Means聚类为硬聚类技术,无法反映KPCA降维及聚类过程中的不确定性,更无法对聚类结果提供有效的解释。针对此问题,在KPCA降维数据的基础上,本文引入一种基于混合高斯模型的聚类算法,能有效地提高聚类结果的可解释性。

2 混合高斯模型软聚类算法

已有研究所采用的聚类算法都是一类优化目标函数的硬聚类算法,其特点是能清晰地对事物进行划分,不允许模棱两可的结果。然而,上市企业的财务指标具有多样性及复杂性等特点,硬聚类算法显然很难基于复杂多样的财务指标将上市企业清晰地加以区分。一种基于混合高斯模型的软聚类算法能有效地解决该类问题。

2.1 混合高斯模型的基本概念

混合高斯模型(Gaussian Mixture Model,GMM)是一种以高斯分布为基础的混合模型,其概率密度函数可表示为多个高斯分布概率密度函数的线性组合。Wilson(1999)已证明,由有限多个高斯分布构成的混合高斯模型能以任意精度逼近任何的多元分布,这种良好的性质使得其在降维或聚类中有良好的应用前景。

2.2 混合高斯模型算法

混合高斯模型是由多个独立的单高斯分布模型(Singal Gaussian Model)的线性组合而成,每一个单高斯分布可称为混合高斯模型的成分(Component)。考虑多元的情况,假设1×d的多维变量x服从单高斯分布,其概率密度函数f(x;μ,∑)为:(1)

其中,μ是1×d的均值向量,∑是d×d的协方差矩阵。而GMM的概率密度函数g(x)则可表示为:(2)

K为成分的数目,在聚类应用中同时代表类簇的数目;αi(i=1,2,…,K)是权值因子,是第i个单高斯分布在混合模型中所占的权重;μi,∑i分别是第i个单高斯分布的均值向量及协方差矩阵。

2.3 混合高斯模型参数估计

由于聚类是一种无监督学习的方法,其结果具有较强的目的导向性,因此在聚类应用中,聚类类簇数据K,即混合高斯模型的成分个数往往是外生的,而需要估计的参数有αi、μi及∑i(i=1,2,…,K)。假设N×d的数据集,服从概率密度函数为g(x;θ)的混合高斯分布,θ表示所有参数的集合,其似然函数L的形式如下:(3)

由于单个混合高斯概率密度函数值一般都很小,随着数据点个数N的增大,连乘的结果会变得非常小,容易造成浮点数下溢,因此采用自然对数形式改写目标似然函数:(4)

一般的参数求解方法是通过对对数似然函数求偏导以求得各参数的极值,然而(4)式中在对数函数里面存在大型求和符号,不能用求偏导解方程的发法直接求得参数极值。Bilmes(1998)提出的期望最大化算法(EM),能通过多次迭代的方法简化参数估计过程,进而求取模型参数。

首先初始化混合高斯模型的所有参数,设为θ0=(α0,μk0,∑k0),k=1,2,…,K,其中K个多元高斯分布的均值向量μk、协方差矩阵∑k可通过统计方法进行计算权值αi初步设定为1/K。在迭代的过程中,对于第j个样本点xj,其由第k个多元高斯模型生成的概率定义为:(5)

然后,在第一次更新参数的步骤中,计算可得ωj1(k),对于任意一个样本点xj,其值的ωj1(k)*xj部分可看作是由第k个单高斯模型产生的,即将该部分数据用作第k个单高斯模型的参数估计。因此,第k个单高斯模型共产生了ωj1(k)*xj(j=1,2,…,N)共N个数据点,通过这N个数据点能计算出第k个单高斯模型的均值向量与协方差矩阵参数,在第一次更新参数时,第k个单高斯模型的参数可更新为:(6)(7)(8)(9)

在第一次EM迭代计算后,可得到所有参数的更新值θ1,用θ1代替初始化参数,即可以进行第二次的EM迭代计算。在目标精度下,设置一个阈值thresh-old,在n次重复EM迭代后,当满足|ln(L)[n-1]-ln(L)[n]|

3 实证分析

3.1 数据来源

本文参考了财务综合能力分析的指标体系构建方法,考虑到数据的全面性及可得性,搜索了2014年沪市、深市134家房地产上市企业的年度财务指标,包括偿债能力、运营能力、盈利能力及发展潜力四个一级维度之下的18个二级财务指标(见表1),形成样本数据集(本文数据来自Wind资讯金融终端,实证分析通过Matlab实现)。

3.2 实证分析

在聚类类簇数目设定上,参考通达信软件对于股票收益率板块的区分(《通达信板块解释》),将作为外生参数设置为三类,分别表示下游企业、中游企业以及优质企业。

通过KPCA降维,在85%的阈值下将18个指标压缩为12个,并以该13412的降维后数据为基础,采用EM算法估算混合高斯模型的参数。参数估计后根据所得的概率矩阵,将134家上市企业聚为三类,其中聚于一类(优质企业)有5家,二类(中游企业)有113家,归于三类(下游企业)的有16家,聚类的三维可视图见图1。其中,132家上市企业能以85%以上的概率进行聚类,说明三成分的混合高斯模型能很好地逼近样本数据的多元分布,对样本聚类的把握性较大,而聚类概率低于85%的两家企业具体情况见表2。从表2可看出,两个聚类异常点与三维可视图结果相似,此外,由于不能以较高的概率确定其归属,因此对该两家企业的聚类情况应谨慎对待。

4 结论及建议

4.1 结论

实证分析显示,基于GMM的聚类算法能较好地实现对房地产上市企业的聚类,并反映各企业归属各类别的概率大小。事实上,GMM参数的估计依赖于样本点属于各个类别的概率大小,当遇到某样本点属于两个类别的概率相差甚小的时候,可对分类结果抱有怀疑态度,从而通过修正算法等方法找寻更精细的分类。

此外,通过GMM参数的估计,能获得各类簇近似的单高斯分布,而通过相应单高斯分布能深入了解到各类簇的结构与性质,便于对各类簇进行评估或进一步的研究。

4.2 建模的启示及建议

综合上述分析,有如下启示和建议:

(1)对于证券公司而言,其公布的业绩评价对于投资者购买股票具有举足轻重的作用,因此其评价必须严谨并有充分的依据。通过本文的分析,券商可以适当在上市公司业绩评级的过程中采用高维数据聚类的方法,通过该方法所得的聚类结果较之传统的净资产收益率识别具有更高的可信性。

(2)对于政府而言,加快证券市场的改革进度,进一步完善上市公司财务报表审核机制,确保所以上市公司公开财务报表的真实性。只有基于准确真实的数据出发,才能使研究结果贴近市场、贴近企业、贴近投资者,才能带动金融行业的进一步发展。

篇6:基于混合推理的高血压药物模型研究

1.1 基于内容的图像检索

在网络和存储技术飞速发展的今天,从多媒体数据库检索有用的信息变得十分重要。作为多媒体信息检索中的一个重要分支,图像检索受到广泛关注。由于基于文本的图像检索其结果不尽人意,基于内容的图像检索(CBIR)成为近期图像检索领域的主流方向。它根据图像的语义特征(如图像的颜色、纹理、布局等)从图像数据库中检索出具有相似特性的其它图像。常见的CBIR方法有颜色直方图方法,累加直方图方法,基于颜色-空间特征的图像检索方法等。颜色直方图法通过提取图像的颜色直方图并比较其相似度来判断图像的相似度,从而得到检索结果,该方法只考虑到了图像的颜色信息,未考虑到图像的空间信息。累加直方图方法是颜色直方图方法的一种改进,它用累加方式来增强颜色直方图的鲁棒性。基于颜色-空间特征的图像检索方法将颜色特征与空间特征相结合,先用HSV模型对图像进行分割,然后根据分割得到的对象的颜色、形状和位置信息来计算图像的相似度。

1.2 基于有限混合模型的聚类分析

所谓聚类,就是按照一定的标准将事物进行区分和分类的过程。这一过程是无监督的,即在这一过程中没有任何关于类分的先验知识,仅靠事物间的相似性作为划分类的准则。聚类分析则是指用数学的方法研究和处理给定对象的分类。聚类分析是一个将数据集划分为若干簇的过程,它将相似度较高的数据对象聚为一个簇,而将相似度较低的数据对象区分开。为了实现对数据对象的聚类,人们提出了很多种不同的算法,主要可以分为以下几种:划分聚类算法、层次聚类算法、基于密度的聚类算法、基于网格的聚类算法以及基于模型的聚类算法等。各种算法的代表算法分别为k-means算法、CURE算法、CLIQUE算法、STING算法和EM算法。文献[5]介绍并分析了各种常用聚类算法及其优缺点和适用范围。

基于混合模型的聚类算法是以概率统计理论为基础的一种灵活有效的聚类方法,它的基本框架是有限混合模型,聚类的基本策略是先对数据集进行初始划分,再采用EM算法进行模型参数估计,实现聚类结果的优化,最后用合适的方法选出最佳模型及聚类数目。用基于有限混合模型的方法进行聚类分析,可以克服一般聚类算法对数据集中的噪声无法建模以及聚类数目难以确定的问题。高斯混合模型是我们常用的一个数学模型。它是单一高斯概率密度函数的延伸,它能够平滑地近似任意形状的密度分布。文献讨论了混合模型聚类的局限性及存在的问题。

2 基于高斯混合模型聚类的图像检索算法

本文提出一种基于高斯混合模型聚类的图像检索方法,不仅考虑到了图像的颜色特征,而且也重视了图像的空间特征。主要分以下3步进行:①提取每个图像的每一个像素的特征;②对像素的特征矢量集建立高斯混合模型并用EM算法优化混合模型参数,得到每个图像的混合模型,从而得到图像库的混合模型集;③对各个图像高斯混合模型的参数向量混元建立高斯混合模型并估计模型参数,得到与检索例图模型相似的模型的类,从而得到检索结果。

对像素的特征矢量进行聚类,是将一幅图像分为若干个区域的过程,使得每个区域的像素具有较高的相似性,称为一类。每一个区域中的像素属于该类的概率分布可用一个高斯分布来描述,因而对整个图像可用具有G个混合成分的高斯混合模型来描述。特征提取以像素为单位进行,每个像素的特征矢量包含该像素的颜色和空间信息。我们选择(Y,U,V)作为颜色信息(其中Y为亮度信号,U、V为色度信号),同时选择该像素的坐标(e1,e2)作为位置信息。将每一个分量归一化到[0,1]区间。从而将每一个像素映射到5维空间里面的一个向量x=(Y,U,V,e1e2)中。

2.1 高斯混合模型

在Gauss混合模型中,待聚类的数据被看成是来自于多个正态分布的混合概率分布,这些正态分布代表不同的类,从而可以用各正态分布的相关参数(均值与协方差矩阵)作为类原型。设d维随机变量X=(xundefined,xundefined,…,xundefined)T具有有限混合高斯正态分布,若x为其中的一个采样,则其概率密度函数为:

undefined

其中undefinedundefined,j=1,2…,G是第j个分支的概率密度函数,即第j类所包含数据服从的d维正态分布的概率密度函数,μj是均值,∑j是协方差矩阵。πj是混合比例,满足undefined,它描述了第j类所包含的数据量比总数据量之比。G个成分对应于混合模型聚类的G个类。参数空间为undefined,其中参数θj由均值μj和协方差矩阵∑j组成。

要完成对数据集的聚类,只需估计出混合模型(1)的参数即可,主要用极大似然方法。即要求解以下优化问题:

求undefined。

其中undefinedundefined是参数Ψ的对数似然函数。

2.2 用于模型参数估计的EM算法

一般采用EM算法来估计混合模型的参数,EM算法是一种从“不完全数据”中求解模型参数的极大似然估计方法。记所取样本点取值为x=(xundefined,xundefined,…,xundefined)T并称之为不完全数据,同时引入潜在数据z=(z1,z2,…zn)T,其中zi在{1,2,…,G}中取值,表示第i个样本点来自于第zi个分支。称y=(xT,zT)T为完全数据。则完全数据对数似然函数为:

undefined

EM算法的基本思想是假设数据独立同分布于已知初始参数的高斯混合模型,因此可以根据初始模型推导出各数据点属于每个成分的概率,然后修改每个成分的参数值,重复该过程直到收敛。

但是传统的EM算法有着对初始值敏感的缺陷,近年来,关于EM算法的初始化也有不少研究。如岳佳等采用一种基于密度估计的方法来初始化EM算法,并与各种传统初始化方法作对比,取得了不错的效果。在本文的算法里,我们不着重于EM算法的初始化,主要介绍EM算法的主体在模型参数估计上的应用。

2.3 模型分支数的选取

模型分支数的选择指的是对式(1)中参数G的选择。在建立混合模型的过程中,分支数的选择对于输入样本的精确聚类是十分重要的,太多的分支会形成对数据的过度拟合从而使模型推广能力太差;太少的分支又不能很好地近似隐藏在数据中的规律。为了选择最优的G值,各种选择分支数的方法的研究也在不断进行。杨明提出了一种MML-EM1方法来选择模型分支数。该方法的优点是它将模型选取(估计最优分支数)和参数估计结合到一个单一的EM算法中,且对模型参数初始值的稳健性,选择最优分支数的正确率随着对初始分支数的增大而增高。

2.4 算法

本文的算法首先对图像库中每幅图像进行分析,提取出图像特征,建立特征库,对像素特征建立高斯分布模型,然后用EM算法估计混合模型参数,优化聚类中心。再以各个图像高斯模型的参数向量混元为数据集,按上述方法聚类。最后返回包含检索例图的簇。在本文算法的整个聚类过程中,假设模型的分支数已知和初始参数值给定。

2.4.1 基于高斯混合模型的图像检索算法

输入:图像库,检索例图,像素特征值混合模型参数初始值π01,μ01,∑01,图像模型参数向量混合元混合模型参数初始值π02,μ02,∑02。

输出:检索结果——包含检索例图的簇

(1)对图像库中的任意图像k,提取k的每个像素的特征向量xi=(YI,UI,VI,e1i,e2i),i=1,2,…,nk (nk表示像素总数),对数据集x=(xundefined,xundefined,…,xundefined)T建立高斯混合模型(1)。

(2)采用算法2迭代估计模型(1)的参数,得到参数值向量kj=(πj,μj,∑j)T,j=1,2,…,Gk.(Gk表示图像k的模型分支数)。

(3)得到图像k的模型参数向量混合元mk=(k1,k2,…,kGk)。

(4)对数据集m=(mundefined,mundefined,…,mundefined)T (r表示图像总数)建立高斯混合模型(1)。

(5)采用算法2迭代估计模型(1)的参数。

(6)输出包含检索例图的簇。

2.4.2 EM算法

(1)在参数空间Θ中为Ψ选择一个合适的初始值Ψ(0),k=0;

(2)E-步:由Ψ的当前估计值Ψ(k),计算辅助函数(完整数据对数似然函数关于x的条件期望):

undefined

(3)M-步:在参数空间Θ中极大化Q(Ψ,Ψk),即:

求undefined

(4)若logL(Ψ(k+1))-logL(Ψ(k))≤ε1或‖Ψ(k+1)- Ψ(k)‖≤ε2,迭代终止,否则k←k+1,转第(2)步。

3 结束语

本文提出了一种基于高斯混合模型聚类的图像检索算法,通过对图像集二次建模,采用EM算法优化模型参数,从而检索出符合要求的图像。本文是在假设模型分支数已知和初始聚类中心已给定的情况下进行聚类的,可以通过进一步研究模型分支数选取方法和改善EM算法初始敏感性方法来提高检索精度。

摘要:通过研究聚类算法在图像处理上的应用,提出了一种基于高斯混合模型聚类的图像检索方法。该检索方法首先提取每幅图像的特征,并以特征值为数据集建立高斯混合模型,得到所有图像的高斯混合模型。再以所有图像的混合模型参数集作为数据集,用基于高斯混合模型的聚类算法进行聚类。最后输出检索例图所在的类,即得到检索结果。

关键词:图像处理,基于内容的图像检索,混合模型,聚类,EM算法

参考文献

[1]SWAIN M J,BALLARD D H.Color indexing[J].InternationalJournal of Computer Vision,1991(1).

[2]刘忠伟,章毓晋.利用局部累加直方图进行彩色图像检索[J].中国图像图形学报(A辑),1998(7).

[3]王涛,胡事民,孙家广.基于颜色-空间特征的图像检索[J].软件学报,2002(10).

[4]胡庆林,叶念渝,朱明富.数据挖掘中聚类算法的综述[J].计算机与数字工程,2007(2).

[5]汤效琴,戴汝源.数据挖掘中聚类分析的技术方法[J].微计算机信息,2003(1).

[6]冉延平,余昭平,贾利新,等.基于混合模型的聚类算法研究[J].河南科学,2005(3).

[7]岳佳,王士同.高斯混合模型中EM算法及初始化的研究[J].微计算机信息,2006(11).

篇7:基于混合推理的高血压药物模型研究

关键词:UMARS;用户模型;空间扩展;属性扩散;时间更新

中图分类号:TP391文献标志码:A

文章编号:1672-1098(2015)01-0055-05

随着计算机网络通信技术的发展,电子商务作为一种商务模式得到了迅速推广,业已成为人们日常购物消费的重要渠道。作为电子商务平台的重要营销手段,个性化推荐系统得到了广泛的研究和应用,并在提高电子商务网站的交叉销售能力、提高客户对电子商务网站的忠诚度等方面发挥了积极的作用[1]。然而,已有的推荐系统存在明显不足,未能较好地承担改善用户体验的功能。如基于关联规则的个性化推荐中,规则无法自动生成,且更新和维护工作量巨大[2];基于内容过滤和协同过滤的个性化推荐受推荐对象特征提取能力的限制较为严重、冷启动问题

[3-5]。

目前,学术界对个性化推荐的研究已取得了一定的成果。文献[6]通过表明个人某一方向兴趣的各类示例文本,经过文本映射和文本结构分析,获得文本的逻辑表示,将段落作为识别用户兴趣的基本要素,改进了用户兴趣模型的结构分析。文献[7]借助RRS技术实现用户兴趣资源的整合,并使用本体构建用户兴趣模型。文献[8]在传统VSM向量中引入了兴趣度因子,进一步提出了主题兴趣度的概念并对主题兴趣度的提取方法进行了详细描述。文献[9]将混合模糊理论运用于个性化推荐系统中,开发了FTCPRS推荐系统,并在电信服务推荐中得到了应用。文献[10]将表示信任度的FRPRA模型应用到协同推荐系统中,并与传统的KNN算法进行了比较。上述这些方法虽然在一定程度上缓解了推荐系统的不足,但均未考虑用户兴趣属性之间的相关性。

文献[11]将遗传算法应用到协同个性化推荐中,试图通过启发式特征术语的选择,有效地与其它用户分享信息选择经验,优化用户模型,提高信息选择的质量。文献[12]提出基于蚁群算法实现用户聚类,以提高协同过滤推荐系统的最近邻查询速度。文献[13]提出一种基于兴趣相关性的本体用户模型更新算法,用户更新IS-A关系下的用户兴趣值,取得了一定的效果。文献[14]将浏览行为和用户在页面上的停留时间结合,提出了基于时间元兴趣度度量方法。文献[15]通过时间遗忘函数、黏度函数、用户特征向量,对协同过滤算法寻找用户的最近邻居集合过程进行了改进,体现了时间效应、用户偏好程度和用户特征。以上对兴趣模型和协同算法的改进均未考虑用户兴趣属性之间的联动性,即用户的一种兴趣发生变化时可能会引起对另外一种物品的兴趣。

本文以淘宝电子商务平台的分类为知识,建立分类知识库,提出一种考虑用户兴趣演化扩散和商品属性特征的混合个性化推荐系统UMARS。根据用户购买记录、浏览记录及行为建立兴趣模型,利用用户兴趣的空间扩散来更新用户模型,考虑用户兴趣随时间的演化特性,同时,采用商品属性特征匹配的方法筛选推荐商品。实验证明这种方法能够有效的表示用户兴趣之间的相互关系,提高个性化推荐的准确率。

1用户兴趣模型的建立

11全局知识库的建立

在UMARS系统中,每个商品或服务都对应到特定的分类中。本文以淘宝电子商务平台中的商品分类为依据对商品进行分类,建立全局本体树。每个商品都被划分在对应的分类中,每个分类都是某个分类的子类,如{数码:手机:HTC:HTC one 802w},从右到左依次HTC one 802w是HTC的子类,HTC是手机的子类,手机是数码的子类,这种父子类别的关系构成本体树的上下层关系。全局知识本体树中,分类的父子类别形成本体树的父子节点。每个节点的描述形式为(N,v,W),其中N是节点的名称,W为节点的特征属性向量,v为节点的原始兴趣值,其取值为父节点的原始兴趣值进行归一化得到,如公式(1) 所示。

Io(sni)=I′o(sni)/count(sni)(1)

式中:Io(sni)为子节点sni的原始兴趣值,I′o(sni)为节点sni的父节点的原始兴趣值,count(sni)表示本体树中层次i的所有节点总数。

每个商品都有特征属性,用于表明自身区别其他商品的特色。用户在搜索商品时会给出所需商品的特点要求。因此,本体树上的每个节点除具有具体的商品类别外,还拥有表征的属性W={w1,w2,…,wn},用于区别同一父类的其他兄弟子类,子类拥有比父类更多的特征属性。例如父类“手机数码”拥有品牌、价格等属性,而子类“手机”除了拥有父类的全部属性以外,还拥有手机特色、手机配置等其他属性,如图1所示。提取本体树中节点的特征属性,建立特征向量,未列入特征向量的特征表示该分类不具有该属性,对应取值为0。

图1全局本体树及其特征属性

12兴趣度计算

在UMARS系统中,用户模型的兴趣由显式兴趣和隐式兴趣组成,显式兴趣来自于用户以前的购买记录,隐式兴趣主要来自于用户的浏览、收藏等行为。当用户首次购买、浏览某商品后,获得初始兴趣点和兴趣值,用户的兴趣会随着时间的推移产生演化。

1) 用户兴趣的表示。

用户兴趣模型是一个本体树,它是全局知识本体的一个子集。兴趣模型中的每个节点表示用户的一个兴趣点,描述为,其中N表示节点名称,即兴趣点名称,I(N)表示用户在该兴趣点的兴趣值,W表示该兴趣点的特征向量。I(N)通过公式(2)计算获得。

I(N)=αI′(N)+βIs(N)(2)

式中: I′(N)为用户节点N的兴趣值,其初始值为Io(N) ,即用户在节点N的原始兴趣值,Is(N)表示用户对节点N的隐式兴趣值。α,β∈R 且α+β=1。

用户兴趣主要来自于购买记录和用户的行为。当用户购买或浏览商品时,系统记录该商品类别和商品特征,并在全局本体树中查找对应的节点,作为用户的兴趣节点,取出该兴趣节点的特征属性W,并作为用户兴趣节点的兴趣特征向量的依据。

2) 行为分析。

用户兴趣的获得还来自于用户的行为,称为隐式兴趣。在分析用户行为的同时,根据用户的不同行为来表达用户兴趣。定义用户行为的集合及其对应的权值,如表1所示。

表1用户行为分类及其权值

动作动作表示权值

平均浏览时间A1p1

重复访问同一页面A2p2

点击链接A3p3

查看购买评价A4p4

收藏页面A5p5

点击旺旺链接A6p6

访问关键词A7p7

上述7种用户行为代表了用户对产品可能产生兴趣的不同,其权值表示兴趣的差异。在进行用户行为分析时,首先取得页面产品的描述,然后利用产品标识查找在全局本体树中的位置,从而获得兴趣点N,接着通过公式(3)计算用户在该兴趣节点上的用户行为度量f(N)。

f(N)=∑ni=1pi*Ai(3)

式中:∑ni=1pi=1,n为用户行为的分类数目。

用户的行为度量可以衡量不同行为对用户隐式兴趣获得的贡献,用户的隐式兴趣通过公式(4) 计算得到。

Is(N)=l(N)+1lmax(N)+1 f(N)(4)

式中: l(N)表示用户行为目标对象在用户兴趣模型本体树中的节点层次; lmax(N)表示用户兴趣模型本体树节点的最深层次; f(N)表示用户行为度量。

2用户兴趣的更新

21兴趣的空间扩散

用户对商品的兴趣会在商品的购买过程中迁移并最终确定,这种迁移称之为用户兴趣的空间扩散。例如,用户A在购买了手机之后,其感兴趣的商品就会由手机类商品变迁到与手机相关的其他商品,如移动电源、手机硅胶套等。也就是说,用户兴趣的空间扩散是与当前兴趣相关的。表现在用户兴趣本体模型上,这种扩散表现为与当前兴趣节点Ni相关的兴趣节点集合。

由于用户的兴趣点之间是相关的,这种相关性在用户兴趣模型中表现为本体树节点之间的结构和语义关系(如节点距离、节点间的父子关系、节点之间的特征属性相似关系等)的相关性,如图2所示。已知用户i对商品Mj具有兴趣,由于用户兴趣之间存在相关性,并且当前用户的兴趣因为兴趣相关性扩散,从而影响用户对其他商品的兴趣,这种兴趣扩散可以缓解用户兴趣模型的数据疏松问题,用户兴趣扩散采用公式(5)~式(6)计算。

fi(N,Mj)=I(N)/(1+exp(-d(N,Mj)*t))(5)

Ir(N)=∑nj=1fi(N,Mj)(6)

式中: fi(N,Mj)表示用户i的已有兴趣Mj对兴趣N的影响;Ir(N)用户在兴趣节点N的关联兴趣值。

22商品属性扩散

用户在电子商务平台上浏览商品时,往往并没有欲购买商品的明确目标,只是提出对商品功能、特点的要求。如用户B希望自己能购买一个屏幕较大,具有看电影、听音乐、上网收发邮件、浏览新闻等功能的手持设备。此时,本系统为精确定位用户关注的商品,收集用户所需要的商品的主要特征,利用用户搜索的商品特征属性进行扩散匹配,为用户推荐最符合需求的商品。

图2兴趣的空间扩散

利用用户搜索时提交的商品特征属性,匹配现有商品的特征,通过计算相似度定位感兴趣的商品,确定商品的兴趣值。设属性集合B={b1,b2,…,bn}为用户搜索的属性集合,Ai={ai1,ai2,…,aim}为兴趣节点Ni具有的特征属性集合,可能感兴趣的商品即兴趣度通过公式(7) 计算。

Ia(N)=Sup(B)∩ Sup(Ai)Sup(B)∪Sup(Ai)*Ii(N)(7)

本系统中用户i对兴趣节点N的兴趣值可用公式(8)计算得到。

Ii(N)=α1Is(N)+α2Ir(N)+α3Ia(N)(8)

式中:α1,α2,α3∈R,且α1+α2+α3=1。

23兴趣的时间更新

人们对某件事物的兴趣度大小随着时间的推移而发生先快后慢的增长,因此人们采用时间函数来描述这种变化规律。 林鸿飞等人采用了基于兴

趣聚类的方法来描述用户兴趣的更新和扩散,未能考虑用户兴趣扩散和时间的关系。时间窗是解决上述问题的一个较好的方法,用户的长期兴趣是相对较稳定的兴趣,随时间的变化较慢,如何划分长短期兴趣是难以克服的问题。更多的研究者选择采用Logistic模型描述用户兴趣随时间的变化规律,因为该模型能够描述用户兴趣随时间推移先快后慢的增长规律,最终趋于稳定。本系统也采用Logistic模型来描述时间对用户兴趣度的影响。

用户对商品N的兴趣度随时间推移的变化规律可采用公式(9)计算。

Ii(N)=Ii(N)/(1+exp(-(α+βt)))(9)

式中:α,β∈R且α+β=1,取α=β=0.5。

3混合的个性化推荐

UMARS系统包括用户数据采集、用户模型创建、用户模型进化和推荐模块四部分组成。用户数据采集模块负责收集用户的年龄、职业等基本信息、用户在网站中的购买记录以及行为数据,并对收集到的用户数据进行必要的预处理;用户模型创建模块负责根据采集的用户数据,为首次登录系统的用户创建用户兴趣模型;用户模型进化模块主要对已有用户的兴趣进行时间更新、空间扩展和基于商品属性的兴趣扩展;推荐模块主要综合运用用户模型的相似度计算以及商品属性匹配度计算,为用户推荐精准的感兴趣商品。系统架构如图3所示。endprint

图3系统结构图

在UMARS系统中,基于相似用户推荐是通过用户模型相似度计算获得与当前用户具有相同或相似兴趣的若干个用户,采用Top N算法进行过滤,然后将相似用户感兴趣的商品推荐给当前用户。用户模型的相似度计算采用了余弦相似度计算方法。

Sim(i,j)=∑nk=1Iik(N)Ijk(N)∑nk=1I2ik (N)∑nk=1I2jk (N)(10)

式中:Iik(N)、Ijk(N)表示用户i和j对兴趣项目k的兴趣度值。

基于商品属性内容推荐,是根据用户查询的内容,通过和商品库中商品的属性进行相似性计算,接着采用Top N方法进行过滤,最后将得到的属性相似的商品推荐给当前用户。属性相似性计算方法如公式(11)所示。

SimA(B,Ai)=Sup(B)∩ Sup(Ai)Sup(B)∪Sup(Ai)(11)

式中:B为当前用户搜索的商品属性向量,Ai为商品库中第i个商品的属性向量。

4实验及分析

41实验数据及评价

通过淘宝网平台开放的API获取商品分类和属性条目以及用户数据,选取了2142名用户交易记录,每名用户实际发生交易均超过10次,共36726条记录,时间跨度超过5个月。采用熵权法计算[16]得到用户七种浏览行为的权值,如表2所示。

表2熵权法计算行为权值

动作A1A2A3A4A5A6A7

权值0.110.130.110.130.190.210.13

UMARS系统根据用户的购买记录、浏览行为等计算用户兴趣度,并利用用户模型的相似度计算和属性相似度计算,通过Top N方法为用户提供可供其选择的商品集,如果用户选择并浏览该商品集中的商品,则表示系统推荐是准确的。于是本文采用用户实际点击商品数占推荐商品个数的比例,即利用推荐命中率PR[17]来检验UMARS系统推荐的准确性,如公式(12)所示。

PR=∑ni=1ClickNumi∑ni=1RecItemsi(12)

式中:i为第i次推荐,ClickNumi代表客户在第i次推荐中点击所推荐商品的数量,RecItemsi表示第i次推荐的商品集中商品的数量。n为对当前用户推荐的次数。

42实验分析

首先,根据用户的购买记录和浏览行为得到用户的兴趣本体树,采用基于相似用户的协同推荐和基于商品属性内容匹配的混合推荐方法得到Top N的推荐商品集,然后统计用户的推荐命中率,得到如图4所示的推荐命中率曲线。其中MT为文献用户显意识下的多重态度个性化推荐算法,US为基于用户模型和属性扩散的混合个性化推荐。

推荐商品数/个

图4算法的命中比比较

本系统利用商品的类属和商品的属性进行推荐,同时,将用户兴趣随时间和空间的演化运用到推荐当中,命中率呈现较为快速的增长。但随着商品的增多,命中率呈现下降趋势,当商品数量超过500后增长趋势下降较为明显。这是因为随着商品数量的增多,商品的属性数量增速明显,符合属性的商品数量随之增多,从而导致命中率增速下降。

5结束语

本文以淘宝电子商务平台为依托,提出基于用户模型和商品属性扩散的混合个性化推荐系统,通过将用户兴趣进行时间演化和空间扩散的方法,简化了推荐系统的实现。同时,通过商品属性匹配的技术更加精准的为用户提供推荐服务。最后实验验证了该方法在提高了推荐系统效率和推荐命中率等方面具有较为明显的效果。

参考文献:

[1]余力,刘鲁. 电子商务个性化推荐研究[J].计算机集成制造系统, 2004,10(10):1 306-1 313.

[2]刘华. 基于关联规则的个性化推荐系统研究与应用[D].上海: 华东师范大学, 2011.

[3]曾春,邢春晓,周立柱. 基于内容过滤的个性化搜索算法[J].软件学报,2003, 14(5):999-1 004.

上一篇:关于思念的作文题记下一篇:物权法教学大纲