分类精度

2024-09-10

分类精度(精选三篇)

分类精度 篇1

粗糙集是20世纪80年代初由波兰数学家Z.Pawlak[1]首先提出的处理不确定知识的数学理论, 它能有效地分析和处理不精确、不一致、不完整等各种不完备信息, 并从中发现隐含的知识, 揭示潜在的规律。粗糙集理论[2]认为知识即为分类能力, 分类能力越强知识愈丰富。经典粗糙集理论以等价关系 (自反性、对称性、传递性) 为基础, 通过等价关系对论域进行划分, 而知识即表现为等价关系对论域划分的结果, 划分越细, 知识越精确, 则粒度越小, 从而又将知识与粒度紧密联系在一起。为描述知识不确定性, 粗糙集理论通过引入上、下近似运算来逼近论域中的任一概念。粗糙集理论在人工智能、机器学习、知识发现、数据挖掘和决策分析等领域得到了广泛的应用。在这些应用的推动下, 粗糙集理论得到进一步推广, 其中之一是将单一论域的粗糙集模型推广为双论域的模型[3,4], 拓宽了研究和应用的范围。

近似分类精度是Pawlak粗糙集理论中的基本概念。指出了可能的决策中正确决策所占的百分比。本文通过引入独立集, 将近似分类精度概念推广到一般二元关系下的双论域粗糙集中。给出了度量公式, 并通过实例显示了其应用价值。

1 Pawlak粗糙集的近似分类精度

1.1 粗糙集理论的基本概念

定义1 四元组I= (U, A, V, f) 是一个信息系统, 其中:U为对象的非空有限集合;A为属性的非空有限集合;V=aAVa, Va是属性a的值域;f:U×AV是一个信息函数, 它为每个对象的每个属性赋予一个信息值, 即对任意aA, xU, f (x, a) ∈Va

定义2 设PA, XUX关于P的下近似和上近似分别定义为:

Ρ*X={xU|[x]pX};

Ρ*X={xU|[x]pX}

其中[x]p表示P划分下包含元素xU的等价类。

定义3X关于近似空间A的近似精度为:

αΡ (X) =|Ρ*X||Ρ*X|

其中||表示集合的基数。近似精度反映了根据现有知识对X的了解程度。

1.2 Pawlak粗糙集的近似分类精度度量公式[5]

I= (U, A, V, f) 是一个信息系统, PA。令X={X1, X2, …, Xn}是U的一个划分或分类, 划分X独立于属性集P。例如, 划分X可能由一个专家为解决分类问题所给出。子集Xi (i=1, 2, …, n) 是划分X的一个类 (或块) 。I中的划分X关于P的下近似和上近似分别定义为P*X={ P*X1, P*X2, …, P*Xn}和P*X={ P*X1, P*X2, …, P*Xn}。

系数

dΡ (X) =i=1n|Ρ*Xi|i=1n|Ρ*Xi|

称为分类X关于P的近似精度, 简称为近似分类精度。

2 双论域粗糙集的近似分类精度

2.1 双论域粗糙集基本概念

定义4[6] 设U, W为两个非空有限集合, RU×W 是一个从UW 的二元关系, 称三元组 (U, W, R) 为广义近似空间。R可以看成是从U到2W 的一个集值映射 r:U→2W, 对任意的xU, 记: r (x) ={yW︱ (x, y) ∈R}, r (x) 表示W中所有与元素x相关的元素的集合。对于任意的YW, Y关于近似空间 (U, W, R) 的下近似和上近似分别定义为:

R* (Y) ={xr (x) ⊆Y},

R* (Y) ={xr (x) ∩Y≠Ø}。

U=W时, 可将r (x) 看成x的邻域, 这时得到的模型就退化为一般关系下的单论域粗糙集模型。

2.2 独立集基本概念[7]

定义5 设U为非空有限论域, RU×W为二元关系, 如果xUr (x) =Ø, 则称xR关系下的一个独立元素, 由R关系下所有独立元素组成的集合称为独立集, 用符号S表示。

S=﹛x|xU, r (x) =Ø﹜

关于独立集S的性质有:

(1) R* (Ø) =S, R* (Ø) =Ø, R* (W) =U, R* (W) =Sc。 (Sc表示SU中的补集)

(2) SR* (Y) , R* (Y) ⊆ Sc

(3) R* (Y) —SR* (Y) 。

(4) 如果S≠0, 则R* (Y) ≠ R* (Y) 。

其中Y∈2W, 证明从略, 参见文献[7]。

2.3 双论域粗糙集的近似精度

定义3给出了Pawlak粗糙集的近似精度度量公式, 但此公式不适合一般关系双论域粗糙集。由定义4得一般关系双论域粗糙集的下近似和上近似分别为:

R* (Y) ={xU|r (x) ⊆Y}={xU|r (x) =Ø}∪{xU|Ø≠r (x) ⊆Y};

R* (Y) ={xU|r (x) ∩Y≠Ø} ⊆ {xU|r (x) ≠Ø}。

显然, R* (Y) ⊄R* (Y) , 若按αR (Y) =|R*Y||R*Y|计算, 则αR (Y) [0, 1], 与近似精度αR (Y) ∈[0, 1]的定义相违背。因此, 一般关系双论域粗糙集中, 根据现有知识对Y (Y∈2W) 的了解程度, 即近似精度应定义为:

αR (Y) ={xU/r (x) Y}{xU/r (x) Y}=|R*Y-S||R*Y|

2.4 双论域粗糙集的近似分类精度度量公式

I= (U, W, A, V, f) 是一个信息系统, 令Y={Y1, Y2, …, Yn}是W的一个划分或分类, 划分Y与属性无关。例如, 划分Y可能由一个专家为解决分类问题所给出。子集Yi (i=1, 2, …, n) 是划分Y的一个类 (或块) 。I中的划分Y关于R的下近似和上近似分别定义为R*Y={R*Y1, R*Y2, …, R*Yn}和R*Y={ R*Y1, R*Y2, …, R*Yn}。由双论域粗糙集的上、下近似集概念及独立集概念, 通过修正Pawlak粗糙集的度量公式, 得到双论域粗糙集的近似分类精度的度量公式。

系数

dR (Y) =i=1n|R*Yi-S|i=1n|R*Yi|

称为分类Y关于关系R的近似分类精度, S为独立集。

例1 在社区医疗管理系统中, 若某居民迁出社区, 通常不能删除该居民留存在社区系统中的信息, 该居民的既往医疗信息有被查询的可能, 需要继续保留。一般的做法是将该居民与系统中疾病集之间的映射关系终止, 所以独立集S常常非空。

U={a, b, c, d, e, f}为该社区居民的集合, W={A, B, C, D, E, F, G, H, I}为该社区常见疾病的集合, R={ (c, A) , (c, E) , (d, A) , (d, E) , (e, B) , (e, C) , (e, D) , (e, I) , (f, H) }为居民与疾病之间的关系。设Y={Y1, Y2}, 其中Y1={A, B, E}, Y2={C, D, F, G, H, I}。现实意义为, Y1为近阶段多发的疾病集, Y2为近阶段相对少发的疾病集。

则, r (a) =r (b) =Ø, r (c) =r (d) ={A, E},

r (e) ={B, C, D, I}, r (f) ={H};

S={a, b};

R* (Y1) ={a, b, c, d}, R* (Y1) ={c, d, e};

R* (Y2) ={a, b, f}, R* (Y2) ={e, f};

dR (Y) =i=1n|R*Yi-S|i=1n|R*Yi|= (4-2) + (3-2) 3+2=35

以上例中Y1={A, B, E}, R* (Y1) ={a, b, c, d}为例分析, r (a) =Ø, 而Ø并非是Y1中的元素A, B, E中的任何一个, 说明a不患有A, B, E这三种疾病。但在下近似集的计算中, 因为Ø⊆Y1, 使得aR* (Y1) 。同理, 使得bR* (Y1) 。在社区医疗管理系统中, r (a) =r (b) =Ø, 只是表明a, b两位居民已经搬离了本社区。将孤立集中元素放入下近似是不正确的决策。在上近似集的计算中因为Ø∩Y1=Ø, 所以孤立集S中的元素不可能进入上近似集, 即孤立集中的元素不是可能的决策。为了体现“可能的决策中正确决策的百分比”, 应将集合计算上属于而逻辑上不该属于的元素, 也就是孤立集中的元素排除。

例1的现实意义表明, 当前社区中的c, d两位居民患病的可能性很大, 应重点关注;而f居民患病的可能性较小, 可降低关注。

3 总结

近似分类精度是粗糙集中的重要概念, 是考查分类效果的重要指标。本文通过引入独立集概念, 给出了双论域粗糙集中对近似分类精度进行度量的公式, 并对公式的合理性进行了分析。这将有助于对双论域粗糙集的各种其它性质展开深入研究。

摘要:由等价关系R所决定的近似空间 (U, R) 上, 可用近似分类精度来表示可能的决策中正确决策的百分比。将近似分类精度概念推广到一般关系双论域粗糙集的近似空间上。通过引入独立集概念, 给出了度量公式, 最后通过实例验证了其合理性。

关键词:双论域,粗糙集,近似分类精度

参考文献

[1] Pawlak Z. Rough sets.International Journal of Computer and Information Science, 1982;11:341—356

[2] 张文修, 吴伟志, 梁吉业, 等.粗糙集理论与方法.北京:科学出版社, 2001

[3] Pei D W, Xu Z B. Rough set models on two universes. International Journal of General Systems, 2004;33:569—581

[4] 余杨.双论域的粗糙集模型.科学技术与工程, 2005;5 (10) :661—662

[5] Pawlak Z. Rough set: theoretical aspects of reasoning about data. Dordrecht: Kluwer Academic Publishers, 1991

[6] Yao Y Y, Wong S K M, Lin T Y.A review of rough set models. Rough Sets and Data Mining: Analysis for Imprecise Data. Boston: Kluwer Academic Publishers, 1997:47—75

分类精度 篇2

Terra/MODIS雪被产品在牧区积雪灾害的动态监测中,具有重要的应用价值.利用新疆北部地区2001-2005年4个积雪季的Terra/MOD10A1雪被产品和20个气象台站的观测资料,对比分析了MODIS积雪制图算法的分类精度.结果表明:①在晴空天气条件下,MODIS积雪制图算法分类的.总精度达98.5%,积雪分类精度为98.2%,积雪多分误差小于漏分误差.分类精度在不同观测台站之间存在较大的差异,其总精度介于94.0%~100%,积雪分类精度介于77.8%~100%.②MODIS积雪算法的分类精度同海拔、坡度和坡向之间没有稳定的相关关系,雪深和土地覆盖是导致精度差异的主要原因.MODIS无法识别雪深低于0.5 cm的积雪;当雪深介于0.5~3 cm时,积雪识别精度较低,介于45.2%~76.2%.当雪深大于等于3 cm时,积雪识别精度随雪深的增加而增大,平均值达98.6%以上.③MODIS积雪制图算法在草地区的分类精度最高,达98.9%;其次为农田、灌木林和城市与建设用地区,分别为97.9%,97.2%和96.9%.在农区积雪漏分误差低于多分误差,在草地、灌木林和城市与建设用地区则高于多分误差.

作 者:梁天刚 高新华 黄晓东 张学通 LIANG Tian-gang GAO Xin-hua HUANG Xiao-dong ZHANG Xue-tong  作者单位:兰州大学,草地农业科技学院,农业部草地农业生态系统学重点实验室,甘肃兰州,730020 刊 名:干旱区研究  ISTIC PKU英文刊名:ARID ZONE RESEARCH 年,卷(期):2007 24(4) 分类号:P407.8 关键词:制图   MODIS   积雪产品   精度分析   新疆  

★ 6S模式对EOS/MODIS数据进行大气校正的方法

★ Word自动提取数据制作成绩单

★ sybaseiq1.6下数据load方法

★ 描写积雪的诗句

★ 公积金提取 委托书

★ 公安提取笔录范文

★ 物证提取笔录范文

★ 个人养老保险金如何提取?

★ 关于提取档案介绍信

分类精度 篇3

全极化SAR (Synthetic Aperture Radar) 数据包含目标更完备的物理信息和结构信息, 为土地覆盖分类提供了新的技术方法[1]。系统分析研究全极化SAR数据的土地覆盖分类性能具有重要意义。目标分解技术是全极化SAR数据应用研究和信息提取的主要方法, 也是与其它遥感数据应用的最大差别所在。利用目标分解提取的信息进行目标分类与检测识别是SAR数据应用于目标分类的主要方法。

目前, 利用Radar Sat-2极化数据进行土地覆盖分类已经有大量研究, 但大多数采用的是单极化、多极化的Rada Sat-2数据[2,3,4]。本文以一景旧金山Radar Sat-2全极化数据的8种分解 (共计25个特征波段) 为分类特征数据, 以美国NLCD2006 (National Land Cover Database) 数据作为参考数据, 从中提取训练样本区和检验样本区进行土地覆盖分类实验, 并从分类类别面积一致性、空间相似性两个方面对Radar Sat-2全极化数据用于土地覆盖分类的分类结果进行分类精度评价。同时, 本文也对同时期成像的光学TM数据分类结果进行对比。结果表明Radar Sat-2全极化数据用于土地覆盖分类可以达到很好的分类质量。

2 数据源与数据预处理

2.1 数据源

本文研究区域为美国加利福尼亚州的旧金山, 经纬度为W122-122.5°, N 37.5-38.2°, 采用数据源为Radar Sat-2全极化数据 (成像时间:2008-04-09, 分辨率:8m*12m) 、Land Sat5TM数据 (成像时间:2008-03-17, 分辨率:30m) 和NLCD2006数据 (分辨率:30m) 。

2.2 数据预处理

Radar Sat-2数据预处理流程如下:

(1) 数据滤波:对Radar Sat-2数据进行5*5窗口的精制lee滤波[5]。

(2) 特征提取:对滤波数据进行了各种不同的目标分解, 包括Krogager、Huynen、Freeman、Yamaguchi、Could、Van Zyl、Barnes和Holm共8种分解获得25个特征波段。

(3) 特征数据与NLCD数据配准:采用2次多项式进行图像配准, 精度高于1个像元。

3 分类方法与评价方法

3.1 分类方法

3.1.1 分类系统

本文采用的是与NLCD2006数据相同的分类系统。NLCD2006数据分类系统是由Anderson土地利用/土地覆盖分类系统二级类别派生的20类土地覆盖分类系统[6]。

3.1.2 分类类别确定和样本区制作

根据NLCD2006数据在旧金山地区各种土地覆盖类别所占面积比例将旧金山地区分为5类 (开阔水域、城市/建筑用地、常绿林/混交林、高灌木从、草本植被) 。

利用NLCD2006数据作为参考数据提取制作训练样本区和检验样本区, 具体步骤如下:1) 利用ARCGIS软件对NLCD2006数据按类别属性提取出研究区各个类别的矢量图;2) 在各个类别矢量图中均匀的选取一部分区域作为训练样本区;3) 把各个类别矢量图减去训练样本区的地区作为检验样本区。

3.1.3 SVM监督分类

SVM分类器能有效地避免经典学习方法中过学习、维数灾难、局部极小等传统分类存在的问题。本文利用SVM分类器来对Radar Sat-2数据提取的特征数据集进行土地覆盖利用分类, 采用序列前向搜索方法进行分类特征组合的搜索[7], 把最佳的组合分类结果作为Radar Sat-2数据分类的结果。

3.2 评价方法

3.2.1 类别面积相关分析

相关系数 (R) 表示的是两变量之间的线性关系。相关系数平方表示了两变量相关的强度或大小。本文通过计算Radar Sat-2数据分类结果和NLCD数据类别面积的相关性来评价Radar Sat-2数据分类类别面积相对参考数据的偏离程度。相关系数定义如下:

式中:i为1…5代表5种不同的土地覆盖类别;xi为各类别的总面积;yi为参考数据各类别的总面积;x为所要评价的土地覆盖分类数据5种类别面积的均值;y为参考数据5种类别面积的均值。

3.2.2 混淆矩阵分析

混淆矩阵是土地覆盖分类后处理的重要方法之一, 通常用来对分类结果进行验证。本文通过计算Radar Sat-2数据土地覆盖分类结果与NLCD数据 (参考数据) 的混淆矩阵来评价分类结果与参考数据的空间相似性。混淆矩阵中的总体精度和Kappa系数定义如下:

式中:n为总的像元数量;xii为i类别正确分类像元数量;xih为参考数据中i类别的总像元数;xil为所要评价的土地覆盖分类数据i类别的总像元数。

4 结果分析

4.1 面积一致性比较

面积是土地覆盖分类数据蕴涵的重要信息, 对面积的比较有更现实的意义。本文对Radar Sat-2数据分类结果、TM数据分类结果及NLCD数据进行各类别的面积比较, 如图1所示。

注:R2代表分类结果类别面积与NLCD数据类别面积的相关性, 下标1、2分别代表Radar Sat-2数据和TM数据

从图1中可以看出面积从总体上是一致的。对于开阔水域和城市/建筑用地, Radar Sat-2数据分类精度都较高, 因为SAR成像对水体和地物几何特性是比较敏感的。对于常绿林/混交林, Radar Sat-2数据分类结果统计面积明显偏高, 这是因为Radar Sat-2数据分类把高灌木丛和一部分的草本植被分为了常绿林/混交林。从分类结果与NLCD数据面积总体的相关性可以看出, Radar Sat-2数据分类结果与NLCD数据的面积相关性较高, 为0.9434。

4.2 空间相似性评价

本文数据分类结果如图2所示, 分类混淆矩阵如表1、表2。

注:总体精度=76.91%;Kappa系数=0.65

注:总体精度=86.92%;Kappa系数=0.80

从表1中得出Radar Sat-2数据分类总体精度为76.91%, Kappa系数为0.65, Radar Sat-2数据分类结果与NLCD参考数据有较好的空间一致性。同时期成像的TM数据分类kappa系数为0.80, 与NLCD数据达到了高度的一致。从图2中可以明显看出Radar Sat-2数据分结果中常绿林/混交林类中有城市/建筑用地类的斑点, 可能是因为这些地区存在稀疏的独栋建筑物所引起的, 也可能是因为SAR数据是相干成像, 所以存在相干斑噪声。从表1表2可以看出对于高灌木从和草本植被两类, Radar Sat-2数据和TM数据分类精度都比较低, 可能是因为在研究区这两类所占面积较少从而导致训练样本不足, 分类较差。

5 结论与探讨

本文从面积一致性和空间相似性两个方面评价了一景Radar Sat-2全极化数据的土地覆盖分类精度, 得出如下两点结论: (1) Radar Sat-2全极化数据用于土地覆盖分类分类精度较高, 分类质量达到很好层次 (Kappa系数0.6-0.8) [8]; (2) 在进行土地覆盖分类时各类别所占面积不均衡会导致所占面积较少的类别分类结果较差, 未来可以在包含类别更全面的数据上测试Radar Sat-2全极化数据的土地覆盖分类精度。

参考文献

[1]王超, 张红, 陈曦, 等.全极化合成孔径雷达图像处理[M].北京:北京科学出版社, 2008:70-71.

[2]QI Z, YEH A G, LI X, et al.A novel algorithm for land use and land cover using RADARSAT-2 polarimetric SAR data[J].Remote Sensing, 2012, (118) :21-39.

[3]CABLE J W, KOVACS J M, SHANG J, et al.Multi-Temporal Polarimetric RADARSAT-2 for Land Cover Monitoring in Northeastern Ontario, Canada[J].Remote Sensing, 2014, 6 (3) :2372-2392.

[4]GAO W, YANG J, MA W.Land Cover Classification for Polarimetric SAR Images Based on Mixture Models[J].Remote Sensing, 2014, 6 (5) :3770-3790.

[5]LEE J S, JEN-HUNG W, AINSWORTH T L, et al.Improved Sigma Filter for Speckle Filtering of SAR Imagery[J].IEEE Transactions on Geoscience&Remote Sensing, 2009, 47 (1) :202-213.

[6]VOGELMANN J E, HOWARD S M, YANG L-m, et al.Completion of the 1990s National Land Cover Data Set for the Conterminous United States from Landsat Thematic Mapper Data and Ancillary Data Sources[J].Photogrammetric Engineering and Remote Sensing, 2001, 67 (6) :652-662.

[7]冯琦.基于SVM的多时相极化SAR影像土地覆盖分类方法研究[D].北京:中国林业科学研究院, 2012.

本文来自 360文秘网(www.360wenmi.com),转载请保留网址和出处

【分类精度】相关文章:

同步精度05-01

工程精度05-14

精度模型05-16

精度评定05-25

精度标准06-29

检测精度07-02

精度试验07-11

尺寸精度07-20

安装精度07-26

系统精度08-05

上一篇:教学方式探索下一篇:氧化实验