v支持向量回归

2024-05-18

v支持向量回归(精选九篇)

v支持向量回归 篇1

聚类分析作为一种无监督分类方法, 已经被广泛应用于模式识别、数据挖掘、计算机视觉和模糊控制等领域。传统的聚类分析是一种硬划分, 它把每个待识别的对象严格地划分到某类中, 因此这种类别划分的界限是分明的。而实际上大多数对象并没有严格的属性, 它们在性态和类属方面存在中介性, 因此适合进行软划分。软计算理论, 如模糊集理论、粗糙集理论等被使用在聚类中解决聚类中数据的确定问题, 软聚类方法包含模糊K-means、粗糙K-means、粗糙SOM以及支持向量聚类等[1]。支持向量聚类算法是Ben-Hur等提出的, 该算法主要分为2个部分:支持向量机训练和聚类标识[2,3]。其中支持向量机训练部分负责新的模型的训练, 包含Gaussian核宽度系数的优化、Hilbert空间最小包络球体半径的计算、Lagrang乘子的计算以及有界支持向量与支持向量的选取;聚类标识部分首先生成聚类标识关联矩阵, 再通过深度优先算法根据关联矩阵进行聚类分配。本文中提出了基于粗糙集的V-支持向量聚类算法, 根据粗糙集理论的边界区域和V-支持向量机的优点对支持向量聚类算法进行改进。通过改进的聚类算法可以解决任意形状的软聚类, 有效的解决了边界不确定的点的归属问题。

1 粗糙集理论相关知识

粗糙集理论是将知识与分类联系在一起。知识被认为是一种对对象进行分类的能力, 对象用其属性集合表示, 分类用来产生概念, 概念构成知识的模块, 知识是由对象论域的分类模块组成的, 它提供关于现实的明显的事实, 同时也具有明显事实推导出模糊事实的推理能力[4]。一个知识表达系统定义为:S=〈U, C, D, V〉, 式中, U是对象的集合, C∪D=R是属性集合 (等价关系集合) , 子集C和D分别称为条件属性和结果属性, V=∪a∈AVa是属性集的集合, Va表示了属性a∈A的范围, f:U×→V是一个信息函数, 它指定U中的每一对象x的属性值。这种定义方式使对象的知识可以方便地以数据表格形式描述, 这种数据表称为知识表达系统。

为了便于数学推导, 粗糙集理论中以等价关系代替分类。当用R表示论域U中对象之间的等价关系时, 则U/R表示U中的对象根据关系R构成的所有等价类族。若P⊂R, 且P≠ϕ, 则∩P (P中全部等价关系的交集) 也是一种等价关系, 称为P上的不可分辨关系, 且记为:

Ind (P) :[X]ind (P) =∩[X]R。

不可分辨关系是对象P由属性集表达时在论域U中的等价关系。它揭示出知识的颗粒状结构, 而知识的粒度是造成使用已有知识不能精确地表示某些概念的原因。粗糙集理论中的不确定性和模糊性是一种基于边界的概念, 即一个模糊的概念具有模糊的边界。每一个不确定概念由一对称为上近似和下近似的精确概念来表示:设给定知识库, 对于每个子集和一个等价关系, 可以根据基本集合描述来划分集合:

R- (X) =∪{Y∈U/R:Y⊆X},

R- (X) =∪{Y∈U/R:Y∩X≠ϕ},

BNR (X) =R- (X) -R- (X) 。

式中, R- (X) 和R- (X) 分别称为X的R下近似和上近似;BNR (X) 称为X的R边界。集合的下近似是包含给定集合中所有基本集的集合, 集合的上近似是包含给定集合元素中所有基本集的最小集合。显然, 当BNR≠ϕ时, X是一个不确定的概念。

集合的不确定性是由于边界域的存在而引起的, 集合的边界域越大, 其精度越低, 粗糙集理论引入了粗糙度的概念。令card为该集合的基数, 且X≠ϕ, 则将从U中划分的一个子集合X的不确定程度定义为粗糙度, 即

undefined。

2 支持向量聚类

支持向量聚类方法的思想是运用核方法把数据集合从低维特征空间映射到高维特征空间。在特征空间中寻找出最小包络数据点的球体, 当这个球体映射回原来的数据空间时, 会形成包络一些数据点的轮廓线, 这些轮廓线就是聚类的边界[5,6]。轮廓线封闭区域所包含的数据点属于同一个聚类集合。

在公式的推理中, 假设有一个包含m个点维数为d的数据集合X, {xi}⊂X, xi∈Rd。运用非线性变换ϕ将数据从X映射到高维的特征空间, 寻找Hilbert空间最小包络X点的超球体半径R。其原始问题描述如下:

undefined

因为这是一个凸二次优化问题, 很容易就可以得到它的对偶式, 其对偶式为:

undefined

αi的值决定了点ϕ (xi) 是在超球体的里面还是外面。当点0<α1

undefined

在数据空间的轮廓线包含被{x/G (x) =R}定义的点, 因此在高维空间的计算以及反向映射回数据空间寻找轮廓线的工作由于核函数的作用都被避免了。一旦轮廓线被发现, 聚类的分配工作也就可以开始了。根据它的几何特征, 给定一些属于不同聚类的数据点, 在特征空间中从超球体上连接它们的路径必定存在很多。于是在一对数据点之间定义邻接矩阵M, 对于 ∀yε[xi, xj]如果G (y) ≤R, 那么M[i, j]=1, 否则M[i, j]=0。这对数据点是被映射到高维特征空间超球体的里面或者是超球体的上面。聚类通过由M导出的图的连接成分定义, 在超球体外面的点是边界支持向量机, 它被分配给最近的聚类。

3 基于粗糙集的V-支持向量聚类

与支持向量聚类一样, 基于粗糙集的支持向量聚类也使用核函数进行特征空间的映射, 发现最小粗糙球状的包络点。根据粗糙集理论定义粗糙球, 类似于上近似集与下近似集, 定义粗糙球的内半径r外半径为R (r

undefined

当δ>1时, 为了求解最优化问题, Lagrange可以描述为函数:

undefined

式中, αi≥0, βi≥0, λi≥0, ηi≥0, u1≥0, u2≥0, ωi≥0是Lagrangian乘子。通过KKT条件, 参数必须满足下面的条件:

undefined

将上面的等式代入到Lagrangian的函数, 可以得到原始问题的对偶式为:

undefined

通过求解对偶问题的最优解αi发现, 在粗糙边界中训练点的位置是由αi的值决定的。αi的值的分布情况如下:

① αi=0的数据点属于下近似集;

undefined的数据点形成硬支持向量, 组成下近似集的边界;

undefined的数据点属于边界区域, 它不属于某一确定的聚类;

undefined的数据点形成软支持向量, 组成上近似集的边界;

undefined的数据点位于粗糙球体的外面, 属于孤立点。

如果找到了对偶问题的最优解αi, 就很容易进行数据点的聚类分配。定义粗糙球的内外半径分别为:

r=G (xi) :undefined:undefined。

聚类分配的过程为:① 得到邻接矩阵, M, ∀ε[xi, xj], 如果G (y) ≤R, 那么M[i, j]=1, 否则M[i, j]=0;② 对邻接矩阵M所表示的图进行连接;③ 给出每一个聚类的下近似集;④ 得到边界区域 (对于任意聚类j, xiε属于下近似Ci, 模式xk不属于下近似Cj。如果对于∀yε[xi, xj]有G (y) ≤R, 那么属于边界区域Ci) 。

4 实验结果

采用聚类工具箱Wine数据集中的部分数据进行聚类, 在Windows2000下以matlab进行实验。该数据集有13个属性, 178条记录。算法运行在512 Mb内存1.0 GHz CPU环境下。首先利用粗糙集理论对属性进行约简, 降维后的二维数据如图1所示。设置聚类数为3, 然后进行FCM聚类和基于粗糙集的V-支持向量聚类, 聚类的结果如图2和图3所示。从图3可以看出基于粗糙集的V-支持向量聚类可以有效地解决边界不确定的点的归属问题, 而对于2个聚类有交叉的部分可以通过参数的调整进行划分。

5 结束语

与支持向量聚类一样, 基于粗糙集的支持向量聚类也使用核函数进行特征空间的映射, 发现最小粗糙球状的包络点, 根据粗糙集的上近似集和下近似集确定数据点的归属, 它利用了粗糙集理论的边界区域和V-支持向量机的优点。实验结果表明改进的聚类算法是可行的, 此方法可以解决任意形状的软聚类问题。

参考文献

[1]CHIANGJung-hsien, HAO Pei-yi.A New Kernel Based Fuzzy Clustering Approach:Support Vector Clustering with Cell Growing[J].IEEETrans Fuzzy Systems, 2003, 11 (4) :518-527.

[2]Ben-Hur A, HORN D, SIEGELMANN HT, et al.Support Vector Clustering[J].J Mach Learn Res, 2001, 2 (2) :155-137.

[3]WAKAKI T, ITAKURA H, TAMURA M, et al, A Study on Rough Set-aided Feature Selection for Automatic Web-page Classification[J].Web Intelligence and Agent System, 2006 (4) :431-441.

[4]ZHANGJun-hua, WANG Yuany-uan.A Rough Margin Based Support Vector Machine[J].Information Sciences, 2008 (17) :2204-2214.

[5]CHIANG Jung-hsien, HAO Pei-yi.A New Kernel-based Fuzzy Clustering Apporach:Support Vector Clustering with Cell Growing[J].IEEETrans.Fuzzy System, 2003, 11 (4) :518-527.

v支持向量回归 篇2

应用支持向量回归估计预测陀螺误差系数

针对目前小样本容量陀螺误差系数预测精度不高的.问题,本文将支持向量回归估计引入到陀螺误差系数的预测研究中.通过对某型陀螺某项误差系数的预测,并且对比分析该方法与目前通用的AR模型预测方法的预测效果,结果表明本文采用的支持向量回归估计具有更高的预测精度.

作 者:焦巍 王宏力 刘光斌 JIAO Wei WANG Hong-li LIU Guang-bin  作者单位:第二炮兵工程学院,西安,710025 刊 名:电光与控制  ISTIC PKU英文刊名:ELECTRONICS OPTICS & CONTROL 年,卷(期): 13(5) 分类号:V241.5 关键词:支持向量机   支持向量回归估计   误差系数预测   AR模型  

v支持向量回归 篇3

【关键词】支持向量回归;台湾;旅游;短期客流量;预测模型

一、前言

生活水平的提高使得旅游行业逐渐兴起,台湾具有较为发达的经济,且存在较多旅游景点与经典小吃,一直以来都吸引着大量的旅游者前去旅游。在支持向量回归的基础上,对台湾旅游短期客流量的预测模型加以建立,能够使其短期客流量被更加准确的预测,因此也就能够为台湾旅游行业的发展提供参考。

二、短期客流量影响因素

旅游客流量指的是旅游者从客源地向旅游目的地流动的人群数量以及流动模式。按照旅游时间的不同,可以将其分为日客流量、月客流量、季客流量以及年客流量四种。所谓的短期客流量,主要指的是日客流量。

影响短期客流量的因素有很多,其中经济、政治、教育水平以及资源与交通等都会对其产生影响。以政治因素为例。以交通为例,与台湾之间交通比较便捷的地点,其对台湾所形成的短期客流量便会较大,大陆的广东便在这一范围内。除此之外,心理因素以及个人喜好也会对短期客流量产生影响。因此,在分析短期客流量的过程中,必须充分考虑多方面因素。

三、基于支持向量回归的台湾旅游短期客流量预测模型

1.支持向量回归

支持向量回归是分析台湾旅游短期客流量的一种主要方法,分析过程的实现要依靠支持向量机学习算法来完成,这一算法以统计学理论为基础,通过不断的应用与更新,其分析的准确程度得到了极大的提高。以其为基础,实现对台湾旅游短期客流量的分析与预测,能够使多种影响因素得到综合处理,对于客流量预测效率以及准确度的提高能够起到极大的促进作用。

2.基于支持向量回归的平常日客流量预测模型

基于支持向量回归的平常日客流量预测模型的建立要从基于GA的支持向量回归参数寻优以及对GA-SVR模型的算法过程的分析来完成。

调查显示,2015年度台湾与大陆两岸往来人员总量为985.61万人次,同比增长4.73%,其中大陆居民赴台湾旅游人数达340万人次。

GA运算过程如下:参考台湾2015年度旅游人数数据,在n=1的前提下,随机初始种群,并将种群数目与最大数目做对比,发现种群数目小于最大数目,计算适应值,并完成父代选择、交叉与变异的过程,设置n=n+1,再次判断种群数目与最大数目之间的关系。前者数目大于后者,结束进程,最优者输出。

GA-SVR运算:参考台湾2015年度旅游人数数据以及初始值,将数据具体分为训练集与测试集,在此基础上,以初始值为标准以及训练集与测试集为标准,训练SVR模型,继而通过一系列的计算过程,最终获得GA-SVR预测值。

通过上述计算过程得出如下结果:

通过对一系列数据的分析,得出如下结果:

(1)历史同日的客流量,对于本日的客流量会产生较大的影响,因此,在对台湾平常日客流量的预测过程中,可以以历史同日的客流量为参考来完成。、

(2)昨日客流量同样会对平常日客流量产生影响,一般情况下,台湾旅游者均为外来人员,鉴于其在交通方面投入的大量资本,游客往往不会当日返回,这是导致昨日客流量影响平常日客流量的主要因素。

(3)每日人体的舒适度也会对客流量产生影响。如人体舒适度较低,则当日客流量较低,反之则否,可见两者呈正相关。

3.基于支持向量回归的节假日客流量预测模型

2012年至2015年,台湾节假日游客总量占全年游客总量百分比分别为15.24%、13.47%、10.25%、17.15%和19.01%。与平常日客流量预测计算过程一致,最终得出节假日客流量结果(以五一国际劳动节为例):

通过对各节假日预测值的对比发现,台湾节假日客流量以五一时期最少。节假日往往分布在不同的季节,因此对于台湾节假日短期客流量的预测,同样需要考虑到季节方面的因素。台湾南部与北部处于不同的气候带,夏季集中在5月到9月,这一季节气温较高,且容易发生台风。五一国际劳动节是主要节假日,且正处于台湾的夏季,台风多发,因此旅游者通常不会选择在这一节假日前往台湾旅游。

四、注意事项

在对台湾旅游短期客流量进行预测的过程中,需要注意以下问题:短期客流量中的日客流量不仅会受历史客流量以及人体舒适度的影响,同时还会受到其他因素的影响。台湾较为著名的景区,其日客流量相对于其他景区而言往往较大,因此很容易出现客流拥堵的情况,不仅会对游客本身造成影响,同时对于景区状态的保持也非常不利。对此,可以在支持向量回归的基础上,考虑上述因素对其日最大客流量进行预测,并在客流量最大的时间,通过分流的方式,解决精确的拥堵问题。

五、结论

综上所述,以支持向量回归为基础,对台湾旅游短期客流量进行预测能够有效的判断出其短期客流量与众多影响因素之间的关系,并最终得出客流量随各影响因素的变化趋势,这对于台湾旅游业发展能够起到极大的支持。因此,有必要对这一方法加以重视。

参考文献:

[1]陈荣.基于支持向量回归的旅游短期客流量预测模型研究[D].合肥工业大学,2014.

[2]陈荣,梁昌勇,梁焱,马银超. 基于APSO-SVR的山岳风景区短期客流量预测[J]. 旅游科学,2013,03:50-60.

[3]陈荣,梁昌勇,陆文星,宋国锋,梁焱. 基于季节SVR-PSO的旅游客流量预测模型研究[J]. 系统工程理论与实践,2014,05:1290-1296.

基于梯度信息的支持向量回归机 篇4

在许多工程分析中都要求运行复杂的且计算代价很高的分析和模拟代码, 如有限元分析和计算流体力学。尽管计算机的处理速度及处理能力在不断地提高, 但是运行复杂的工程代码所花费的巨大时间和计算代价也在同步的增加。解决这一问题的一个有效途径就是对那些能够足够精确描述处理过程的复杂分析代码用一个近似模型去替代, 这一近似模型虽然在精度方面有所牺牲, 但它却能大幅度地降低成本。这一近似模型可以叫“元模型”或者叫做“模型的模型” (Kleijnen等, 1987) [1]。从数学的角度来说, 如果输入向量是x, 输出向量是y, 那么它们之间真实的函数关系可以表示为y=f (x) , 其中f (x) 是复杂的工程分析函数。对于易于计算的“元模型”可以表示为y^=g (x) 使得y^=y+ε, 其中ε包括近似误差和随机误差。现有的替代模型主要有:多项式模型 (如:响应曲面模型RSM) 、多元自适应回归 (MARS) 模型、径向基函数 (BRF) 模型、空间相关 (Kriging) 模型、人工神经网络 (ANN) 模型等, 对于以上的几种模型的比较可参见文献[2]。以上所有的模型都有函数近似的功能, 但它们在精度、鲁棒性、计算效率和模型透明性方面却各有千秋。例如, 虽然人工神经网络在近似复杂的模型方面做得不错, 但它却有两个不足之处:①整个过程被当作是一个“黑箱”;②整个过程的计算代价也很大。“黑箱”意味着对整个模型知之甚少, 因为它并不产生一个确切的模型, 只是由一个用于训练的“箱”来接收输入变量和返回输出变量。

支持向量机 (SVM) 最早可追溯到20世纪70年代[3], 并在20世纪末由AT&T贝尔实验室的Vapnic及其同事将SVM进一步发展[4]; 并由文献[5]将其用于回归, 即支持向量回归机 (SVR) 。它被认为是一种“非常强大的方法, 自从它产生的近几年里, 这一方法已经在非常宽广的领域里超过其他的系统”[6]。支持向量回归机 (SVR) 保留了支持向量机 (SVM) 的诸多优点, 并将其能够对线性和非线性函数进行良好近似的能力加入其中, 而最早将SVR引入到计算机试验设计中是文献[7]。有关SVR在计算机试验设计中的应用在综述[8]、[9]都要简要地论述。

传统的替代模型没有考虑到样本点处的梯度信息, 它有一个明显的好处就是使构建的模型更为简单, 但它却使得在小样本情况下拟合精度并不理想。要想提高替代模型的精度, 就不得不通过采集更多的样本点并计算对应的函数值来得到更精确的替代模型, 而很多情形下, 计算对应样本点的函数值是非常耗费财力、 物力及大量的时间的。基于以上原因, 不少学者针对加入梯度信息以期提高小样本情况下的拟合精度进行了一些有意义的探索:文献[10]、文献[11]给出了基于梯度信息的ANN构建方法。针对响应曲面 (RS) 模型, 文献[12]提出了“加权最小二乘” (Weight Least Squares, WLS) 方法, 文献[13]提出了“移动最小二乘” (Moving Least Squares, MLS) 方法。文献[14]和文献[15]利用样本点邻域内的信息构建了基于梯度信息的Cokriging模型, 文献[9]给出了基于梯度 (一阶导数) 及基于海赛矩阵 (二阶导数) 的Kriging模型的构建过程。而对梯度信息的获取, 可以采用自动微分法 (Automatic Differentiation, AD) [16]或伴随法 (Adjoint Approach) [17]。

SVR在计算机试验设计中作为一种新型的建模手段, 其性能还研究得不够充分。通过作者查阅大量的文献, 目前尚未见有关基于梯度信息SVR建模的研究, 而本文正是试图对此进行初步地探讨。

本文第1节给出传统SVR的基本形式。第2节阐述其于梯度信息的SVR (GE-SVR) 的构建过程。第3节利用本文提出的算法进行GE-SVR回归试验并与传统SVR进行了比较, 以验证本文提出的GE-SVR算法的有效性。第4节进行简要的讨论和说明。

1 传统SVR的基本形式

给定数据集{ (x1, y1) , …, (xl, yl) } (其中l代表样本数目) , 若SVR的损失函数取ε不敏感函数

Lε (f (x) -y) ={0, |f (x) -y|<ε|f (x) -y|-ε, (1)

则构成ε-支持向量回归机 (ε-SVR) , 本文中称εε-SVR的参数, 其模型如下:

minΦ (w, ξ (*) ) =12w2+Ci=1l (ξi+ξi (*) ) (2) s.t.{yi- (wxi+b) ε+ξi (wxi+b) -yiε+ξi*ξi, ξi*0i=1, 2, , l

其中, ξi , ξ*i为松弛变量, C为惩罚参数。

该模型的解可由以下二次规划问题求得:

min12i, j=1l (αi-αi*) (αj-αj*) Κ (xi, xj) -i=1l (αi-αi*) yi+εi=1l (αi+αi*) (3) s.t.{0αi, αi*C, i=1, , li=1l (αi-αi*) =0

其中, K (·, ·) 是核函数。在求出上式中的参数α, α*后, 即可求得回归函数f (x) 。使用ε-不敏感函数, 在利用矩阵方法求解式 (3) 时, 矩阵具有稀疏性。

以上模型只考虑了样本点处的函数值, 并未考虑样本点处的梯度信息。当梯度信息容易得到时, 则可以考虑构建其于梯度信息的SVR (GE-SVR) , 下一节将给出具体的构建过程。

2 其于梯度信息的SVR (GE-SVR)

对于传统的SVR, 要求所有的样本点都在超平面的ε-带内 (如图1所示) , 因此得到式 (2) 中的约束条件。当样本点处的梯度信息已知时, 就可以利用样本点处的梯度信息, 不仅要求要样本点xi包含在ε-带内, 而且要求xi的邻域内的点也包含在ε-带内。我们可以在样本点xi处对真实函数进行一阶泰勒展开, 这样也就要求点 (xi+Δxi, yi+di·Δxi ) 和点 (xi-Δxi, yi-di·Δxi ) 都包含在ε-带内, 如图1所示。

因此, 可以对式 (2) 进行变形为:

minΦ (w, ξ (*) ) =12w2+Ci=1lk=16ξi (k) (4) s.t.{yi- (wxi+b) ε+ξi (1) (wxi+b) -yiε+ξi (2) yi+diΔxi- (w (xi+Δxi) +b) ε+ξi (3) (w (xi+Δxi) +b) - (yi+diΔxi) ε+ξi (4) yi-diΔxi- (w (xi-Δxi) +b) ε+ξi (5) (w (xi-Δxi) +b) - (yi-diΔxi) ε+ξi (6) ξi (k) 0i=1, , l;k=1, 2, , 6

接下来求式 (4) 的Lagrange对偶模型。

首先, 引入Lagrange函数:

L (w, b, ξ, α) =12wΤw+Ci=1lk=16ξi (k) -i=1lαi (1) (ε-yi+ (wxi+b) +ξi (1) ) -i=1lαi (2) (ε+yi- (wxi+b) +ξi (1) ) -i=1lαi (3) (ε- (yi+diΔxi) + (w (xi+Δxi) +b) +ξi (3) ) -i=1lαi (4) (ε+ (yi+diΔxi) - (w (xi+Δxi) +b) +ξi (4) ) -i=1lαi (5) (ε- (yi-diΔxi) + (w (xi-Δxi) +b) +ξi (5) ) -i=1lαi (6) (ε+ (yi+diΔxi) - (w (xi+Δxi) +b) +ξi (6) ) -i=1lk=16 (ηi (k) ξi (k) ) (5)

其中, α (k) i, η (k) i (k=1, 2, …, 6) 是Lagrange乘子, 满足α (k) i, η (k) i≥0 (k=1, 2, …, 6) 。分别对b, w, ξ (k) (k=1, 2, …, 6) 求偏导并令它们为0, 可得:

bL=i=1l (-αi (1) +αi (2) -αi (3) +αi (4) -αi (5) +αi (6) ) =0 (6) wL=w-i=1lαi (1) xi+i=1lαi (2) xi-i=1lαi (3) (xi+Δxi) +i=1lαi (4) (xi+Δxi) -i=1lαi (5) (xi-Δxi) +i=1lαi (6) (xi-Δxi) =0 (7) ξ (k) L=C-αi (k) -ηi (k) =0 (8)

将式 (6) 、式 (7) 、式 (8) 代入式 (4) 并求极大即可得到对偶问题:

minα (k) R6l-12 (i=1lαi (1) xi-i=1lαi (2) xi+i=1lαi (3) (xi+Δxi) -i=1lαi (4) (xi+Δxi) +i=1lαi (5) (xi-Δxi) -i=1lαi (6) (xi-Δxi) ) (i=1lαi (1) xi-i=1lαi (2) xi+i=1lαi (3) (xi+Δxi) -i=1lαi (4) (xi+Δxi) +i=1lαi (5) (xi-Δxi) -i=1lαi (6) (xi-Δxi) ) +εi=1l (αi (1) +αi (2) +αi (3) +αi (4) +αi (5) +αi (6) ) -i=1lyi (αi (1) -αi (2) +αi (3) -αi (4) +αi (5) -αi (6) ) -i=1ldiΔxi (αi (3) -αi (4) -αi (5) +αi (6) ) (9) s.t.i=1l (αi (1) -αi (2) +αi (3) -αi (4) +αi (5) -αi (6) ) =0, 0αi (k) C, k=1, , 6;i=1, , l

对式 (9) 写成矩阵的形式并引入核函数, 则式 (9) 可化为:

minαR6l-12αΗα+zα (10)

对上式中的向量, 分几个层次加以说明。

首先, 对于α,

α=[α (1) ;α (2) ;α (3) ;α (4) ;α (5) ;α (6) ],

α (k) =[α (k) 1, …, α (k) l]T, k=1, …, 6;

其次, 对于z,

z=[ε-y;ε+y;ε-y+DΔx;ε+y-DΔx;ε-y-DΔx;ε+y+DΔx]T

y=[y1, …yl]T, DΔx=[d1Δx1, …, dlΔxl]T;

最后, 对于矩阵H, 由于H是一个墩称矩阵, 只对其上三角部分进行说明:

Η=[Η1-Η1Η2-Η2Η3-Η3Η1-Η2Η2-Η3Η3Η4-Η4Η5-Η5Η4-Η5Η5Η6-Η6Η6]

其中,

Η1=[Κ (x1, x1) Κ (x1, xl) Κ (xl, x1) Κ (xl, xl) ]Η2=[Κ (x1, x1+Δx1) Κ (x1, xl+Δxl) Κ (xl, x1+Δx1) Κ (xl, xl+Δxl) ]Η3=[Κ (x1, x1-Δx1) Κ (x1, xl-Δxl) Κ (xl, x1-Δx1) Κ (xl, xl-Δxl) ]Η4=[Κ (x1+Δx1, x1+Δx1) Κ (x1+Δx1, xl+Δxl) Κ (xl+Δxl, x1+Δx1) (xl+Δxl, xl+Δxl) ]Η5=[Κ (x1+Δx1, x1-Δx1) Κ (x1+Δx1, xl-Δxl) Κ (xl+Δxl, x1-Δx1) Κ (xl+Δxl, xl-Δxl) ]Η6=[Κ (x1-Δx1, x1-Δx1) Κ (x1-Δx1, xl-Δxl) Κ (xl-Δxl, x1-Δx1) Κ (xl-Δxl, xl-Δxl) ]

如此, 就可以利用MATLAB中的优化工具包中的二次规划函数quadprog进行求解。有一点需要说明的是, 式 (4) 中的Δxi可根据样本点来调节, 本文取Δxi为固定的数值, 即Δxi=Δx.

综上所述, 可以得出以下构建GE-SVR的算法:

基于梯度信息的SVR (GE-SVR) 算法

第一步:给定训练集T={ (x1, y1) , …, (xl, yl) }∈ (χ×γ) l, 其中, xiχ=Rn, yiγ=R, i=1, …, l;

第二步:选择适当的参数εCΔx, 及核函数K (xi, xj ) ;

第三步:构造并求解最优化问题 (8) , 得到最优解α*=[α (1) *;α (2) *;α (3) *;α (4) *;α (5) *;α (6) *];

第四步:构造决策函数

f (x) =i=1l (αi (1) *-αi (2) *) Κ (xi, x) +i=1l (αi (3) *-αi (4) *) Κ (xi+Δx, x) +i=1l (αi (5) *-αi (6) *) Κ (xi-Δx, x) +b*

其中, b*按下列方式计算: b*=mean (y-[H1 -H1H2 -H2H3 -H3]α*) 。

算法第四步中的mean代表取向量元素的平均值, 这样做的目的是为了减少误差。

3 试验仿真

3.1 试验目的

验证本文提出的基于梯度信息的SVR (GE-SVR) 算法的可行性。由于充分利用样本点处的梯度信息, 本文提出的建模方法较于传统的SVR在相同少量样本的情况下达到更为理想的回归精度, 说明本文算法的有效性。

3.2 试验设计

试验1:取函数f (x) =sin (x) , x∈[-10, 10] (以下简称:函数1) 为基准函数, 等间隔产生6个训练样本点, 再用得到的样本分别对GE-SVR与SVR进行训练;然后每隔0.2产生验证样本, 并用所得样本点进行验证。

试验2:取函数f (x) =sin (x) x, x[-10, 10] (以下简称:函数2) 为基准函数, 等间隔产生6个训练样本点, 再用得到的样本分别对GE-SVR与SVR进行训练;然后每隔0.2产生验证样本, 并用所得样本点进行验证。

在以上两个试验中, 核函数取Gauss径向基核函数exp (-s-t22σ2) ;Δx的取值通过交叉验证的方法进行确定, 验证实验表明, Δx的取值过大或过小对回归的结果都有较大的影响。由于篇幅的限制, 本文并未对确定Δx的交叉验证实验给出具体过程, 而只给出验证得到的最优Δx.

3.3 试验结果与分析

实验1中, GE-SVR的参数设置为C=10, ε=0.001, Δx=0.1, Gauss径向基核函数的宽度参数取为:σ=1.2。有关参数的选择方法参见文献[18]和文献[19]。SVR的参数同样设置为C=10, ε=0.001, σ=1.2。回归的结果见图2和图3, 图中符号“*”为样本点, 实线为真实函数, 虚线为回归线。

同时, 本试验和下一个实验还从以下三个常用的度量准则对试验的回归结果进行定量比较 (本试验定量比较结果见表1) :

①最大绝对误差

MAE (Max AbsoluteError) =max|yi-y^|, i=1, , n

其中, n为样本容量。

②平均绝对误差

AAE (Average AbsoluteError) =i=1nerror|yi-y^|nerror

③均方根误差

RMSE (Root Mean SquareError) =i=1nerror (yi-y^) 2nerror

从图2、图3及表1可以看出, 在MAEAAERMSE三方面, 用GE-SVR回归都要优于用SVR回归。

实验2中, GE-SVR的参数设置为C=10, ε=0.001, σ=1.5, Δx=0.12。SVR的参数同样取为C=10, ε=0.001, σ=1.5。回归的结果见图4和图5, 图中符号“*”为样本点, 实线为真实函数, 虚线为回归线。定量比较见表2。

通过比较图4和图5可以明显地看出, 由于考虑了梯度信息, GE-SVR逼近程度大大高于传统SVR。另外, 通过表2的定量比较也可以看出在MAEAAERMSE三方面, GE-SVR的回归精度强于传统SVR的回归精度。这说明了在小样本的情况下, 可以加入梯度信息来增加回归的精度, 从而说明加入梯度信息的必要性以及本文算法的有效性。

4 结束语

在实际应用中, 要在得到样本点x处的响应 (或称f (x) ) 有时是很难操作的, 或者能够得到但费用却是巨大的。 本文提出的基于梯度信息的支持向量回归机 (GE-SVR) , 能在少量样本的情况下能达到较为理想的回归精度, 这对代价高昂的计算机试验设计来说无疑是非常有意义的。尽管本文提出的GE-SVR能够较大地改善回归精度, 但以下两个问题值得进一步研究:①除了利用梯度信息来改进回归精度, 是否还能找到其他更好的方法来补充或替代现有的方法。②除了引言中所提到的获取梯度信息的方法外, 寻求更多更好的求取梯度的办法仍然是一个值得研究的课题。

支持向量回归机的参数择优算法 篇5

支持向量机 (SVM) 是在20世纪90年代由Vapnik等人研究并迅速发展起来的一种基于统计学习理论的机器学习算法。支持向量回归机 (SVR) 则是基于SVM以解决回归问题的新型算法。但是其理论优势得以实现的前提是要选取到合适的回归参数惩罚系数C、核函数g。因此参数择优法的合理选择对回归模型的预测精度、计算时间以及泛化能力有着决定性的作用, 但至今在参数择优方法的选择上, 学界还没有形成有效通用的理论指导原则和方法。本文介绍了使用网格搜索法、遗传算法以及粒子群算法这三种算法确定SVR模型最优参数对 (C, g) 的原理, 并通过仿真实验分析讨论了其作为SVR参数择优算法式算法的可行性, 比较了三种算法优化下的SVR模型在学习能力、预测能力以及计算时间上的优劣。

支持向量机回归算法概述

支持向量机 (SVM) 是基于结构风险最小化原理的新型学习机器, 能根据有限样本数据在模型复杂性和学习能力之间达到最优平衡, 具有较强的泛化能力。支持向量回归机 (SVR) 则是建立在SVM思想上, 可用于解决回归问题的新型算法。SVR不但具有SVM的优点, 而且其通过将数据映射到高维空间进行线性拟合, 较传统非线性拟合方法具有更低的过拟合风险, 但是SVR的理论优势取决于其关键参数惩罚系数C和核参数g是否合适。

基本原理

支持向量机回归算法通过非线性映射将数据集x映射到高维特征空间, 然后用数据集x在该空间中建立线性模型以估计回归函数。回归函数形式如下:

式中, w为权向量;b为阈值。

对于给定的校正集 (其中l为样本总数) , 若以ε为不敏感损失函数, 则对应的ε-支持向量机的约束优化问题可表示为

式中, C为惩罚系数;n为支持向量的个数;为不敏感损失系数;ξi, ξi*为支持向量超出不敏感区域的上限误差和下限误差。

引入拉格朗日函数, 则可将式 (2) 的优化问题转化为对偶问题, 并求解得式 (1) 的解如下:

式中, 为拉格朗日乘子, 其对应样本即为支持向量;为核函数。本文采用径向基核函数作为核函数:

式中, g为核参数。

由式 (2) ~ (4) 可知, C、g控制着支持向量机的在实际问题中的学习及预测能力。如何快速合理地确定这三个参数, 决定了其泛化能力及应用效果。

支持向量机回归参数

惩罚系数C是支持向量机对超出ε管道的样本数据的惩罚程度, 改变其值可调节模型的复杂程度和经验风险。若C过小, 则导致训练误差过大;若C过大, 虽然训练精度提高, 但模型的可推广性大大降低。另外, 合理设置惩罚系数, 能避免样本中异常数据的影响, 从而提高模型的稳定性。

核参数g反映了支持向量之间的相关程度。若g过小, 则支持向量间的联系松弛, 模型复杂化, 泛化能力下降;若g过大, 支持向量间的联系过于紧密, 精度难以达到要求。

综上分析, 若要使SVR算法在精度和泛化能力上达到最佳折中, 则需合理设置参数 (C, g) 。

SVR参数优选法

这三种参数优选法的实现, 都基于将SVR的模型结构及其预测算法嵌入到对应的算法步骤中。粒子群算法、遗传算法和网格算法作为成熟的优化算法, 在理论上有较高的计算精度和可靠性, 且耗时较短, 而且这三种优化算法优化的SVR已经在各个领域内得到了广泛的发展和应用。

网格搜索算法 (GRID) 按照给定步长, 搜索某一矩形范围内所有的参数组合, 对网格中所有参数组合采用留一法对样本集进行交叉验证, 最后将各组 (C, g) 值对应的均方差MSE用等高线绘出, 据此确定最佳 (C, g) 值。

用遗传算法 (GA) 进行参数寻优时, 采用二进制编码方式。遗传算法无需计算所有参数点, 通过选择、交叉和变异等操作, 即可确定全局最优解。

在利用粒子群算法 (PSO) 进行参数寻优时, 每个粒子由二维参数 (C, g) 决定其位置和速度。PSO算法除了和GA算法一样计算量较少, 而且在训练集较少的情况下依旧表现出优秀的预测能力。

仿真测试结果

本文使用美国赛默飞世尔科技公司的NicoletNexus870型傅里叶变换红外光谱仪对混合气体样本进行数据采样。用优化所得的C和g参数对校正集各维进行训练建立SVR校正模型, 利用原始数据对建立的模型进行回归验证, 校正集输出各维的参数及最终各组分的回归结果如表1所示 (仿真实验均在戴尔Pentium, CPU2.7GHZ, 512 MB内存机上调试通过) 。其中, C、g为参数寻优算法得到的惩罚系数和核参数;MSE为回归均方差, R为相关系数, 用于判断使用对应参数对的SVR的回归性能优劣。MSE越小, 则回归精度越高;R越接近于1, 则说明算法稳定性越好。

通过上表可以看出, 三种算法优化得到的重要参数对 (C, g) 差异较大, 但是拟合所得MSE均小于10-4, 且相关系数R都接近于1, 表现出较好的稳定性。综上所述, 这三种优化算法的学习性都比较优异, 其中GA-SVR和PSO-SVR算法在拟合精度上明显优于GRID-SVR算法, 但不能排除前两者存在过拟合的情况, 故要对其预测能力进行比较。

由表二可得, 三种算法优化算法对测试集的预测精度的数量级为10-2或10-3, 且相关系数R均在70%以上, 且计算时间在1min左右, 故可认为这三种优化算法对样本数据的预测能力均在接受范围之内。其中PSO-SVR算法在预测精度和模型复杂度之间达到了最佳的均衡, 在拟合精度上明显优于GA-SVR算法, 且计算时间远小于GRID-SVR, 是综合性能最优的优化算法。

结束语

本文通过对支持向量回归机的简要介绍, 提出了重要参数对惩罚系数C和核参数g的选择对算法的精度和耗时的影响, 并介绍了网格搜索、遗传算法以及粒子群算法作为SVR参数优选的原理。通过实际样本的分析与比较, 证明了这三种算法是优化SVR模型的可行方式, 并且得出结论, 认为粒子群算法能使SVR模型在计算量和计算精度之间能达到最佳平衡, 是较为值得推广的SVR优化算法。

支持向量机解决回归问题性能分析 篇6

一、机器学习算法SVM概述

支持向量机实现的是如下思想:它通过某种事先选择的非线性映射 (核函数) 将输入向量映射到一个高维特征空间, 在这个空间中构造最优分类超平面。支持向量机回归是通过转化为分类问题来解决的, 其思路和求解分类问题基本相同。

考虑用线性函数f (x) =w⋅x+b来拟合下列数据:

将给定的样本点同时加上+ε和-ε, 得到两类样本, 分别将其赋予标签+1和-1, 从而将回归问题转化为二分类问题。求解回归中的拟合函数等同于寻找转化后的分类问题的最优分类器过程。对回归来说, 控制模型复杂度就是使回归曲线更为平坦。

三、实验结果及分析

(一) 最小二乘回归与SVM回归比较

在Matlab 6.1中有一个choles.all文件, 其中包含有264个病人血样值样本及对应的三种血浆脂蛋白 (HDL, LDL和VLDL) 的胆固醇含量, 每个血样值是由电泳谱带上包括21种波长的谱线的数据组成的, 即每个病人的血样值样本为21×1列向量。通过主要成份分析, 我们将输入向量从21个减少到了4个, 可见原始数据有很大的冗余。

随机取数据样本的三分之一进行训练, 测试时使用全部数据样本。利用回归估计出的血样值样本对应的每种血浆脂蛋白的胆固醇含量与相应的实际含量之间的相关系数R来反映回归估计性能的优劣, 即评价标准:

其中, f (x) 为回归估计出的血样值样本对应的每种血浆脂蛋白的胆固醇含量 (264×1列向量) , y为响应的实际含量 (264×1列向量) 。如果存在一种理想的回归估计过程, 也就是说回归估计值和相应的实际值恰好完全相同, 此时R的值为1, 即R越接近于1, 回归估计的精度就越高。

(二) BP网络回归与SVM回归比较

为了比较不同方法的效果, 首先采用BP网络方法来解上述回归估计问题。实验中发现BP网络对隐含层神经元数目相当敏感, 此外BP网络存在网络的学习, 记忆不稳定的缺点。实验证实用BP网络的方法进行回归估计, 在各项条件均不变的情况下每次得到的结果都不相同。经过多次实验, 发现隐含层神经元数为2时, 回归估计效果最好而且网络基本稳定。在支持向量机的方法中不会出现上述问题。在参数不变的前提下回归估计的结果一直稳定不变, SVM的推广性也比BP网络要好。取ε=0.1, C=∞, 试验中先选用多项式函数K (xi, xj) =xi⋅xj作为核函数;然后选用RBF函数作为核函数, 即, 取σ2=.018.上述两种方法进行回归估计的结果比较如表4所示。

从表4中可以看出:选用多项式核函数的SVM对HDL和LDL进行回归估计效果较好, 并与BP网络回归估计效果相当, 而选用RBF核函数的SVM对VLDL的回归估计效果明显比BP网络回归估计效果好。

至于这两种方法的训练时间, BP网络比SVM要快一些。以表4中的试验为例, BP网络仅需4秒就完成了训练, SVM的方法则需要9秒左右。

表5是采用SVM方法中RBF核函数时取不同σ2参数值进行回归估计的效果的比较。可以看出σ2=0.18.时对VLDL的回归效果最好;σ2=8时对HDL和LDL的回归效果最好, 但是仍然不及选用多项式核函数回归的效果。

四、结论

融合先验知识的支持向量机回归方法 篇7

支持向量回归机(support vector regression)是解决回归问题的有力工具。由Vapnik[1]等人提出的支持向量机理论是处理非线性问题的有效方法。它建立在统计学习理论的基础上,克服了传统方法的诸多不足,具有很好的推广能力。作为统计学习理论中结构风险最小化准则(structural minimize reorganization)的具体实现,支持向量机(support vector machine)具有结构简单、全局最优、泛化能力较好的优点,近几年得到了广泛的研究。SVM方法最早是针对模式识别问题提出来的,随着ε不敏感损失函数的引入,SVM已推广到非线性系统的回归函数估计,并展现了较好的学习性能。标准支持向量机回归学习算法的基本思路是通过有限个样本数据,建立起反映输出和输入之间联系的函数关系,目的在于构造一个回归估计函数f(x)。

近年来,标准支持向量机回归已经成功应用于很多应用领域。然而对先验知识的利用却很少受到重视,在各个应用领域数据样本都有特定的先验知识,所谓先验知识[2]是指包括训练样本在内的,关于问题的一切可以获得的信息。将先验知识融合到SVM中,已成为提高SVM性能的关键因素[3],先验知识的利用在很大程度上会影响支持向量机的性能。但是目前基于先验知识的支持向量机主要用于分类,Schölkopf等人[2]给出了通过核函数结合先验知识的方法。2001年,Fung[4]给出了通过多面体集重构SVM,从而引入先验知识的方法。2004年,Wu[3]在给定数据集属于某类的置信度的基础上,提出了可以融合先验知识的加权间隔SVM(weighted margined svm简称WMS-VM),该方法可以获得更合理的分类面。在此基础上,本文从回归的角度将先验知识加入到标准SVR中,给出了一种新的融合先验知识的支持向量机回归方法(incorporation of prior knowledge of the support vector regression)。

1 标准支持向量机回归方法

给定一个有标记的训练样本集D={(xi,yi|xi∈Rd,yi∈R,i=1,2,L,n)},其中xi∈Rd为d维输入变量的值,yi∈R为相应的输出值,n为训练样本数。定义ε不敏感损失函数为:

其中f(x)为通过对样本集的学习而构造的回归估计函数,y为与x对应的目标输出值,ε>0为误差参数,规定了估计函数在样本数据上的误差要求。该ε不敏感损失函数形象地比喻为ε通道。ε越小,估计函数与样本数据的误差越小,对训练样本的估计精度越高,在采用支持向量机研究非线性样本集时,通过非线性函数ϕ(x)将训练集数据映射到一个具有高维线性的特征空间,在这个维数可能为无穷大的特征空间中构造估计函数。假定f(x)为如下形式:

其中w⋅ϕ(x)表示向量w与ϕ(x)的内积。w的维数为特征空间维数(可能为无穷维),b∈R。根据统计学习理论,回归函数的估计转换成如下的最优化问题:

其中C为惩罚系数,C越大表示对训练误差|f(xi)-yi|(i=1,2,⋯,n)大于ε的样本的惩罚越大。在式(3)的最优化问题中,通过约束条件及对不满足约束条件的惩罚使得到的估计函数在训练样本上尽可能满足误差要求,同时最小化与置信范围值相关的‖w‖2/2。因此,该最优化问题体现了SRM的思想。对式(3)的最优化问题,一般采用拉格朗日乘子法转换成对偶最优化问题,然后进行最优化计算,得到回归函数式(2)的解:

其中,ai,αi*(i=1,2,⋯,n)为拉格朗日乘子,ai,αi*只有一小部分不为0,它们对应的样本就是支持向量(Support Vector)。K(xi,x)为核函数[5],通常采用径向基核函数:K(xi,x)=exp(-λ‖x-xi‖2),λ为核参数。

在实际的样本数据中,通常都隐含着目标问题预先未知的信息。标准SVR中并没有很好地利于这些信息,如果在学习的过程中,考虑数据样本蕴涵的先验知识,可提高分类与回归的质量,改善模型的性能[6]。本文在此基础上给出了一种融合先验知识的方法,用于解决回归问题。

2 融合先验知识的支持向量机回归方法

先验知识一般分两种:类不变性和数据知识[4]。所谓类不变性是指对于发生了某些变换的输入变量,分类器的分类结果应当保持不变,如对于即使发生了旋转的图像,也要能给出原来的分类结果;所谓数据的知识是关于特定应用领域的信息,如样本分布信息、领域专家知识等。对于给定样本集:D={(xi,yi|xi∈Rd,yi∈R,i=1,2,⋯,n)},对于得到的先验知识本文采用线性不等式进行表示,即回归的理想输出满足如下线性不等式:

其中

式中Pk和qk可由问题领域先验知识确定。从不等式(5)容易推广到如下情况:(a)l≤y(xi)≤u;(b)y(xi)-y(xi)0.根据(b)甚至可以推出点或者函数的对称性,比如关于原点对称有:y(xi)-y(xj)=0,xi+xj=0等。受Mangasarian的方法[6]启发,把具有不等式(5)约束的先验知识加入到标准SVR的算法式(2)中,可以得到如下最优化问题:

引入Lagrange乘子,结合式(6),最优化问题(7)的Lagrange函数为

其中,α,α*,β,β*,γ≥0为Lagrange乘子。根据最优化条件,令Lagrange函数L关于变量w,b,ξi,ξi*的偏导数为0,可以得到

将式(9)代入式(8),相应的对偶最优化问题是

若存在核函数K,使得K(xi,xj)=ϕ(xi)⋅ϕ(xj),并令,则最优化问题(10)可表示为

类似于标准的SVR算法[7],通过求解最优化问题式(11),可以得到如下融合先验知识的SVR函数表达式

由上述推导可以看出,基于先验知识的SVR同样用了结构风险最小化原则,因此也具有良好的推广性

3 实验分析

数据集D={(xi,yi|xi∈Rd,yi∈R,i=1,2,⋯,n)}来自一维非线性函数f(x)=sin c(x)=sinπx/πx+noise,其中noise服从标准正态分布。在实验中,支持向量机的初始核函数采用高斯RBF核函数,x在[-15,15]上每隔步长0.1取一个点,共取301个点。加入先验知识:(a)x1+x2=0⇒y(x)1-y(x)2=0;(b)-1/2≤x≤-1/2⇒f(x)≥sinπ/2/π/2。对标准SVR与融合先验知识PSVR进行函数回归对比实验,如图1所示。

从图1中可以看出,由于加入对称性与值域方面先验知识,使得融合先验知识的PSVR算法具有比较好的对称性特点,能得到比标准的SVR算法更好的逼近效果。这说明本文提出的融合先验知识的支持向量机回归算法是有效的。表1给出两种方法的均方差和相对误差对比。

4 结束语

对先验知识的利用在很大程度上会影响支持向量机的性能,但是目前基于先验知识的支持向量机回归并没有理论指导。本文从先验知识的角度研究支持向量机回归算法,给出了一种融合先验知识的方法用于提高SVR的机器性能,人工数据集实验的例子表明了方法的可行性,这为如何充分利用先验知识提供了一条有效途径。但先验知识的选取与使用需进一步在理论和实践方面进行探索。

参考文献

[1]Vapnik V N.The nature of statistical learning theory2nd[M].N ew York:Springer,2000

[2]Sch lkopf B,Smola A Learning with Kernels:Support vectorm achines,regularization,optimization and beyond[M].Cam b ridge:MIT Press,2001

[3]Wu X,Srihari R.Incorporating prior knowledge with weightedm argin support vector machines[C]//.In Proceedings of the10th ACM SIGKDD International Conference on KnowledgeD iscovery and Data Mining.Seattle,WA,USA:ACM Press,2004:326-333

[4]Fung G,Mangasarian O L,Shavlik J.Knowledge-based sup p ort vector machine classifiers[R].In Data Mining InstituteT echnical Report01-09,2001

[5]Amari S,Wu S.Improving support vector machine classifiersb y modifying kernel functions[J].Neural Networks,1999,12(6):783~789

[6]Lauer F,Bloch G.Incorporating prior knowledge in support vec t or machines for classification:A review[J].Neurecomputing,2008,71(7/9):1578—1594

v支持向量回归 篇8

改革开放以来,我国的航空运输业发展很快,从运输总量上来看,我国民航业已经成为全球仅次于美国的第二大航空运输系统。航油供应对航空运输业的发展密切相关,航空运输的持续快速发展,使航油需求不断增加。改革开放三十多年来,民航运输总周转量年均增长17%以上,远高于其他交通运输方式[1],如此高的快速发展,带来航油消耗也不断增加,航油的总消耗量也在以年均14.8%的速度增长。随着西部经济的不断发展,也带来西部民航运输的发展,从而进一步带动航油的快速消耗。2013年西北18个机场总加油量86.4万吨,较2012年增长18.88%[2],高于全国加油量增长率49.84%[3]。

近几年来,国际航油价格大幅度变化, 2013年航油的年平均价格比2009年增长了55%,从2009年到2013年,航油每吨价格的方差是均值的200倍[4]。如何在频繁的油价变动环境下降低存储和运营成本,对于航油公司来说是个亟待解决的重要任务。通常的策略是当航油价格较高时,航油公司仅购入满足下月飞行需求且尽量少的航油,以减少运营成本,当航油价格较低时,可适当多储备一些,以备油价较高时使用。这一决策的前提条件就需要对短期(未来几个月)的加油量有较为精确的预测,目前一般采用的方法还是靠经验和历年数据简单估算所得,并没有很精确的数学模型。

加油量和航油消耗量是两个不同的概念,本文主要是站在航油公司的角度去分析各机场加油量,而不是站在航空公司的角度去分析航油消耗量,尽管两者有一点的相关性,但出发点不同,分析的结果也是不同的。本文以西北航油公司的月度加油量数据为依据,深入分析,建立符合实际的数学模型,获取未来短期的预测数据,进而可帮助航油公司确定采购量和库存量,从而达到减少成本的目的。

目前,关于加油量预测的文献还比较少见,研究部队油料消耗预测的研究较多,见[5][6],国外的文献大都是从飞机自身的工程结构上分析影响油耗的因素,而从大环境去考虑对油耗的预测则较少,Vedant Singh和Somesh K. Sharma利用结构方程模型对燃油消耗做了全方位的预测,从航空器运行、飞机技术与设计、社会经济政治、航空基础设施等方面考虑油耗优化问题,算是分析较全面的文献资料[7]。

由于民用机场主要是进行客运,呈比较明显的季节性,所以机场加油量数据是较典型的周期型数据,对于有周期的时间序列数据预测,比较成熟的方法是ARIMA模型[8],它将非平稳时间序列转化为平稳时间序列,然后进行回归所建立的模型,还有一种方法是简单线性回归[9],其思想是将周期因素作为自变量,加入到原有自变量中,然后进行线性回归。

上述方法都是针对线性数据的,它们描述时间序列的非线性关系的能力较差。在非线性回归模型中,Vapnik等人提出支持向量机(SVM)理论[10]表现出比较优秀的性能,能较好地解决以往很多学习方法的小样本、非线性、高维数、局部极小点等实际问题,被广泛应用。但支持向量回归并没有考虑周期性。

本文针对机场加油量时间序列的特点, 提出了一种基于周期的支持向量机回归算法用于机场加油量时间序列的预测。

2.影响机场加油量的因素分析

要对机场加油量进行预测,尤其是月度预测,需要比较细致的模型,因此除了获取历年加油量数据以外,还应分析影响加油量的其他因素,抽丝剥茧,才能进行深层次的预测。

(1)首先考虑到不同的机场规模,加油量的变化也是不一样的,因此,本文将机场进行归纳总结,分为三类:

1干线机场,如西安、兰州机场,运作多年,客流量大,季节性突出,加油量较为稳定地同比增长。

2支线机场,如敦煌、延安机场,多是旅游城市,旅游季节客流较大,其他季节变化无常,有时还有停运现象。

3新接收机场,如中卫、金昌等机场,刚开始发展,历史数据少,没有自己的储油设备,客流非常不稳定,季节性因素少,有些航班自带回油,不在这些小机场加油。

针对上面三种不同的机场,其影响加油量的因素也各不相同,因此一定要区别对待。尤其是支线机场的加油量,对新接收机场的发展具有很重要的参考价值。本文对不同规模大小的机场分别建模,采用的预测参数设定是不一样的。

(2)影响加油量的一个非常重要的因素就是季节性。民用机场主要进行的是客运,不同季节的旅游人数会给客运带来不同的吞吐量,在旅游(春运)旺季,每个航空公司的航班都会比淡季有所增加,随之带来的加油量也有所不同。

(3)同(2)中所述,每月的旅客吞吐量直接影响到加油量的多少。但每月的吞吐量数据都是月末统计出来的,并不能够提前获取,对未来几个月的吞吐量的值只能是预测,因此并不精确,为了避免误差累积,因此在后续的建模中,将使用航班架次代替吞吐量。

(4)航班架次虽不能完全替代旅客吞吐量,但国内的机型差别不大,满员率差别也不大,因此两者的变化趋势还是非常相似的。以西安机场为例,2009年到2013年,旅客吞吐量与航班架次的相关系数为99.8%[11],因此可以用航班架次作为影响加油量的因素之一。另外航空公司通常都会提前几个月公布其航班计划,因此相对精确的航班架次是可以通过各航空公司公布的数据得到。

(5)由于每个航班的飞行距离是不同的,而不同的飞行距离,加油量也随之不同,因此航班飞行距离是必须考虑的因素。本文首先通过航班架次知道每个航班的起飞地点和降落地点,然后根据两地的经纬度计算出两地距离。

(6)另外不同的机型,其载客人数不同,带来的加油量也不同。目前西部地区主要飞行的客机是波音系列和空客系列,受跑道长度限制,一般没有超大型飞机。本文考虑以737机型作为基准,将其他机型与737飞机进行比较,给出不同的权重。当然飞机的新旧程度也会影响到加油量,不过这个引起的变化较小,于是忽略不计。

(7)其他影响因素。由于给飞机加油时是由人主观控制,因此加油量的多少还会受一些人为因素的影响,另外天气变化、少量军用机加油等,这些因素在整个加油量里面所占的比重非常少,因此可以综合用一个扰动随机变量表示。

综合上面所述,飞行距离是综合了旅客吞吐、航班架次的复合指标,笔者将月度的加权飞行总距离作为最主要的影响因素。获取步骤如下:

Step 1获取各航空公司月度的所有航班信息

Step 2通过各机场的经纬度计算各机场间的距离dij,表示i机场到j机场的飞行距离。

Step 3计算每个航班的机型权重,alpha=航班机型满员数/737飞机满员数。

Step 4将每个航班的飞行距离乘以机型权重,再进行累加,得到月度所有航班的加权飞行距离之和distance。

3.考虑周期变动的支持向量回归

3.1传统的支持向量回归

支持向量回归是在分类算法上演化来的,实质上是采用支持向量机对原因变量衍生出的两类点X, X*分类,得到的分类超平面即为所求的回归超平面。求解支持向量机回归问题,首先将每个样本点的y值分别减少和增加ε,得到包含两类样本 的训练集D。利用支 持向量机 求解分类 问题 , 假设存在超 平面在精 度下无误 差地完全 将两类点 分开 , 即yi+ε>(w?xi)+b>yi-ε,称该ε-带超平面为训练样本的线性回归函数。

同时为增强泛化能力我们把线性硬ε-带软化,并引进松弛变量 和惩罚参数C,在描述非线性问题时,用一个非线性映射x→Φ(x) 把数据映射到一个高维空间,得到ε-带支持向量回归机的原始问题。

将其转化为对偶问题,并令 此为核函数,只要知道核函数的表达式,就可以对上述问题进行求解,解决了非线性回归问题。

常用的核函数有:多项式核,高斯核,Sigmoid核等。

3.2考虑周期变动的支持向量回归

上述模型是普通的支持向量回归模型,并没有考虑到周期因素,本文在此基础上,引入周期自变量,设时间变量为t,周期长度为T,对于一般的周期函数可以表示为:

于是将 以及时间t都作为自变量,和加权飞行距离总和distance一起,确定因变量加油量y的预测,于是,x有4个分量:(t,,,distance)。

4.西部地区机场加油量预测

本文使用西部地区民用机场的月加油量数据进行预测,主要包括敦煌机场、嘉峪关机场、兰州中川机场、西安咸阳国际机场、西宁曹家堡机场、延安机场、银川河东机场、榆林西沙机场等8个机场,按照第2节中的机场分类,西安咸阳国际机场、兰州中川机场、西宁曹家堡机场、银川河东机场为干线机场,敦煌机场、嘉峪关机场、延安机场、榆林机场为支线机场,本文分别对这8个机场建模。考虑到数据纲量的统一,对各项数据(包括自变量)进行了z-score标准化处理。

本文选取了2011年1月到2013年12月的加油量数据,并求出每个月的各机场航班的飞行距离。使用ARIMA模型、简单线性回归模型、传统的支持向量机模型(不带周期自变量,只有distance为自变量)、带周期变动的支持向量机模型分别对8组数据进行拟合。ARIMA模型使用SPSS软件,其中的各项参数由软件经优化后自动选取,简单线性回归模型也使用了SPSS软件,支持向量机模型使用的是matlab工具包,并在此基础上修改而成,其中核函数为高斯核函数 其余各项参数,由网格法自动寻优确定。各基本模型参数如表1所示。

在线性回归里,飞行距离的系数都比较高,说明飞行距离同加油量是非常相关的,这与我们之前的分析相吻合。

以敦煌为例,可以得到各个算法的拟合曲线。

利用R方来计算各模型的拟合效果,得到表2。

可以看出带周期变动的支持向量机的拟合度是比较高的。

我们用上面的模型对2014年1月和2月的数据进行预测,将之与实际值进行比较,计算两个月的平均误差,如表3所示。

从上表可以看出,传统支持向量机和带周期的支持向量机模型的预测能力都表现不错,基本预测误差都能控制在5%以内,尤其是对支线机场(敦煌、嘉峪关、延安、榆林)的预测,在其波动比较大的情况下,ARIMA模型以及简单线性回归模型就会出现比较大的误差。当然支持向量机也会存在部分过拟合现象,因预测的月数较少,问题还不是很明显。

5.结论

粒子群算法支持向量机的半监督回归 篇9

粒子群算法 (Particle Swarm Optimization, PSO) 是近年来发展起来的一种新型进化算法, 该算法基于信息共享机制, 通过粒子的自我学习和向最佳个体学习的方法来实现对解空间的快速搜索[3]。PSO具有简单、快速收敛、易于实现和精度高等优点。

支持向量机 (Support Vector Machine, SVM) 是基于统计学习理论的VC维理论和结构风险最小化原则的机器学习技术, 根据样本复杂性和学习能力寻求最佳推广能力。SVM在解决小样本、非线性及高维模式识别等问题上都具有显著优势。利用支持向量机解决回归问题, 具有泛化能力强、全局最优等明显优势[4]。

本文利用基于粒子群算法支持的向量机建立半监督回归模型。该模型拥有粒子群算法及支持向量机在解决小样本、非线性回归问题上的优势, 又集合了半监督学习的优点, 适用于解决标记样本不足的情形, 有力提高了回归模型的估计精度及模型的泛化能力。

1 遗传算法的支持向量机模型

1.1 支持向量机模型

支持向量机应用于回归问题的数学描述为[5]:给定样本数据 (xi, yi) , i=1, 2, …, N, 其中xi为输入向量;yi为相对应的输出变量;y=f (x) 为估计输出量。则被估计函数可表示为

其中, Φ (x) 为从输入空间到高维空间的非线性映射;ωT为权向量;b为偏置。回归的目标是为了求系数ωT和b, 使回归风险函数最小化。回归风险函数为

其中, Γ (·) 是损失函数;常数C>0, 表示对估计偏差的惩罚度。最常用的损失函数是Vapnik提出的ε不敏感损失函数, 形式如下

其中, ε不敏感损失函数表示如果预测值与实际值之间的差别<ε, 则损失等于0。

支持向量机在解决回归问题时, 是在n维特征空间中, 使用ε不敏感度损失函数来求解一个线性回归问题。同时, 它要通过最小化‖ω‖2来减小模型容量, 以保证更好地拟合一般性。于是支持向量机回归, 可转化为求解这样一个优化问题[6]

其中, φ为非线性映射函数;ξ和ξ*分别代表在误差ε约束下目标值上下限的松弛变量;C是一个常数, 控制对错分样本的惩罚程度。通过拉格郎日优化方法推导可得到其对偶优化问题[7]

其中, ai, ai*分别为松弛变量ξi, ξi*对应的拉格朗日乘子。在解出上述二次优化问题后, 一般公式可改写为

根据Hilbert-Schmidt原理, 点积运算可以用满足Mercer条件的核函数K (xi, x) 代替。核函数能在不知道变换Φ具体函数的情况下, 使用低维空间的数据输入来计算高维特征空间中的点积[2]。

在支持向量机回归模型中, 包含两个重要的模型参数, 即惩罚系数C和核函数的参数, 不敏感损失函数ε。其中, C用于控制模型复杂度和逼近误差的折中, C越大, 对训练样本数据的拟合程度越高;不敏感损失函数ε的大小决定了支持向量的个数。因此, 需要选用适当的智能优化算法来选取合适模型的参数。遗传算法 (GA) 就是最常见的智能优化算法之一。

1.2 遗传算法的支持向量机模型

遗传算法 (Genetic Algorithm, GA) [8], 是一种通过模拟自然进化过程搜索最优解的方法。借鉴了生物遗传学的理论, 结合了适者生存和随机信息交换的思想, 借助遗传学的遗传算子进行交叉、变异, 进而实现种群进化。遗传算法在找寻最优解的过程中, 首先在解空间随机产生多个起始点, 并同时展开搜索, 通过适应度函数来指导搜索的方向, 是解决搜索问题的一种通用算法。将遗传算法应用于支持向量机的参数选择, 基本步骤如下:

begin

(1) t=0; (2) 随机选择初始种群P (t) ; (3) 计算个体适应度函数值F (t) ; (4) 若种群中最优个体所对应的适应度函数值足够大或者算法已连续运行多代, 且个体的最佳适应度无明显改进则转到第 (8) 步; (5) t=t+1; (6) 应用选择算子法从P (t-1) 中选择P (t) ; (7) 对P (t) 进行交叉、变异操作, 之后转到第 (3) 步; (8) 给出最佳的核函数参数和惩罚因子C, 并用其训练数据集以获得全局最优分类面。

end

其中, 适应度函数通常为

式中, σ2和C是支持向量机中的两个重要参数, 核参数和惩罚因子;F (σ2, C) 为遗传算法中的适应度函数;Error是SVM在训练样本集上的错分率, 可见当SVM在测试样本集上的分类错误率越低时, 对应于该组参数的染色体适应度值越大。

2 支持向量机的半监督回归模型

粒子群算法作为一种进化算法, 与遗传算法类似, 也是从随机解出发, 通过不断迭代寻找最优解。但遗传算法并没有采用复杂的交叉、变异过程, 而是基于信息共享机制, 通过追随当前学习的最优值来寻找全局最优解, 实现对解空间的快速搜索[9]。利用粒子群算法选择支持向量机参数, 相比基于遗传算法的支持向量机, 具有实现简单、快速收敛、调节参数少、精度高等优点。

粒子群算法支持向量机的半监督回归模型 (PSO-Semi) , 以基于粒子群算法的支持向量机回归模型 (PSO-SVM) 为基础, 将未标记样本数据, 引入粒子优化过程, 回归结果有明显改进。利用粒子群算法支持向量机的半监督模型 (PSO-Semi) 回归的步骤如下[10]:

(1) 读入样本集, 并对样本集进行预处理。

(2) 粒子群初始化:初始化粒子初始位置Xi0及速度Vi0, 将每个粒子的pbest设置为当前位置, 将gbest设置为群体中最好粒子的当前位置。在PSO-Semi中, 粒子位置Xi包含了SVM的两个参数, 即惩罚系数C和径向基核函数参数σ2。

(3) 计算每个粒子的适应度。利用已标记样本集 (XL, YL) 训练SVM模型, 并对未标记样本数据 (x∈Xu) 做回归, 得到未标记样本集的标记结果集Yu, 将未标记样本集Xu及其回归结果集Yu分别加入已标记样本集 (XL, YL) 。此时, 重新训练SVM模型, 而后对测试样本做回归, 计算每个粒子的适应度, 取适应度函数为

其中, yi为第i个样本的实测值;y为第i个样本的预测值;i=1, 2, …, N, N为测试样本个数。

(4) 比较适应度, 确定每个粒子的个体极值点

其中, S (x) 为适应度函数;Pi为第i个粒子的个体最优值;gi为全局最优值。

(5) 更新每个粒子的位置和速度。根据公式

式中, Xi= (Xi1, Xi2, …, Xid) 表示第i个粒子在d维空间的位置;Vi= (Vi1, Vi2, …, Vid) 表示第i个粒子的速度, 它决定粒子在搜索空间单位迭代次数的位移;d为实际解决问题中的自变量个数;ω表示惯性权重;C1和C2是加速常数;R1和R2表示在[0, 1]区间的随机数。其中, 惯性权重ω对优化性能有明显作用, ω较大, 有利于避免局部最小, 相反则有利于算法收敛。而加速常数C1和C2代表粒子群之间的信息交流, 选择合适的加速常数, 既可以加快收敛, 又保证了算法不易出现局部最优。根据Shi和Eberhartl对平衡随机因素的研究[11], 可以将加速常数取为2, 惯性权重ω设置为0.9~0.4的线性下降。分别更新粒子的速度和位置, 并且考虑更新后的速度和位置是否在限定的范围内。

(6) 比较次数是否达到最大迭代次数, 若满足则停止迭代, 得到测试样本的回归结果;否则返回步骤 (3) , 算法继续迭代。

3 实验方法及结果分析

文中采用均方误差值 (Mean Squared Error, MSE) 以及可决系数R2来评价实验的回归结果, 其中MSE的计算公式为

可决系数计算公式为

其中, y1, y2, …, yn是测试数据的真实值;y1*, y2*, …, yn*是回归模型对测试数据的估计值。MSE反映了估计值与真实值之间差异程度。可决系数R2反映了模型的拟合程度, R2在 (0, 1) 区间取值, 越接近1, 拟合度越高。实验中, 针对实验数据集, 分别使用基于遗传算法支持向量机回归模型 (GA-SVM) , 基于粒子群算法的支持向量机回归模型 (PSO-SVM) , 以及粒子群算法支持向量机的半监督回归模型 (PSO-Semi) 等3种模型, 求得实验数据的均方误差值MSE和可决系数R2, 并对实验结果进行了分析比较。

3.1 实验数据集

实验采用5组常见回归测试数据集[12], 如表1所示。

针对半监督学习适用于缺少或难以获得已标记样本的情况, 实验中, 只采用10个在取值范围内均匀分布的已标记样本, 30个未标记样本和20个测试样本。并对样本值及目标值进行了归一化处理。利用上述3种模型对测试数据集的测试结果的均方误差值MSE和可决系数R2, 分别如表2和表3所示。

3.2 结果分析

根据表2和表3所示的实验结果, 将3种模型分别应用于2-d Mexican Hat, 3-d Mexican Hat, Friendman#1, Friendman#2, Friendman#3等5组数据集上, 可以看出, 粒子群算法支持向量机的半监督协同回归模型PSO-Semi的均方误差值和可决系数R2两种实验结果都优于其他两种支持向量机模型, 切实改善了回归结果, 提高了模型拟合度。实验证明, 采用半监督学习的回归模型发挥了半监督学习中未标记样本的作用, 同时提高了模型的泛化能力, 改善了模型的回归精度。另外, 由于PSO算法本身具有收敛速度快的特点, PSO-Semi模型的收敛速度与GA-SVM模型相比也具有明显的优势。

4 结束语

上一篇:模具变形下一篇:工程数学