多类支持向量机

2024-06-30

多类支持向量机(精选十篇)

多类支持向量机 篇1

关键词:玉米,品种识别,外观特征,支持向量机 (SVM) ,人工神经网络 (ANN)

0 引言

种子是玉米最重要的经济器官, 其表现的外观特征性状在一定程度上还能反映籽粒内部的生理生化特征, 在品种培育、种质资源评价与利用、品种识别、籽粒品质评价中起着非常重要的作用, 是玉米品种的重要农艺性状之一。玉米品种真实性识别是一项具有较大实用价值的关键技术, 在育种、加工、贸易方面有着广阔的应用前景。

前人对种子识别外观特征的研究一般着重于粒重、容重、长与宽与厚、体积与密度等数量性状[1]。对其它难以量化的特征如颜色、形状等往往采用人工定性描述方法, 效率低下。基于计算机数字图像处理的机器视觉检测是一种检测速度快、鉴别能力强、重复性高、可大批量检测、无疲劳的新方法。该方法用于作物种子品种鉴定, 在玉米[2,3]、花生[4,5]、水稻[6]、小麦[7]和扁豆[8]上都获得了良好的效果。但是, 上述在玉米科学中的应用, 受研究目标或者其它方面的限制, 选择样本小、获取特征少、品种有限, 对识别结果和引起的原因缺乏分析, 品种鉴定结论缺乏普遍性。目前常用图像识别技术有贝叶斯方法、决策树、神经网络等, 但是在解决品种分类问题时往往存在算法复杂、效率较低、泛化能力不强等缺点[9]。目前, 建立在统计学习理论基础之上的基于结构风险最小化原理的支持向量机 (SVM) , 已表现出来很多优于已有机器学习方法的性能。SVM最初是为两类分类问题而设计的, 而品种识别是一个多类分类问题, 因此如何将SVM推广到多类分类问题, 具有普遍意义, 是一项有实际意义的研究课题。

由此, 本研究拟做如下工作:①拟采集足够大的样本集, 足够多的品种, 获取足够多的特征, 以增加种子图像识别的普适性;②拟依据主分量分析对尽量多的特征进行特征优化, 并对识别效果的影响特征进行因素分析, 寻找区别玉米品种的关键特征 (集) ;③将二分类SVM扩展到多分类问题, 探讨在不同特征集上的分类性能;④比较多种传统识别方法并进行识别效果评价。

1 材料与方法

1.1 试验材料与图像采集

供试的普通玉米品种共有11个, 主体色调均为黄色, 全部为来自我国东北和华北区玉米新品种区域试验的参试品种, 每个品种挑选具有品种固有特征的50粒种子, 样本容量为550个。

按固定次序与方向将种子摆放于扫描仪, 扫描时已摆正了种子的位置。为了使扫描背景为黑色, 扫描仪盖板完全打开, 扫描得到50粒种子的正面 (有胚面) 的数字化图像, 篇幅所限, 只列出了其中一个品种的扫描图像。图像采集系统示意图如图1所示, 扫描仪型号为佳能Cano Scan 8800F平板式扫描仪, 图形工作站型号为联想idea Centre Kx 8160。

1.2 特征获取与外观特征

在特征提取之前, 对所获得的图像进行必要的预处理, 包括图像颜色空间转换、灰度化、二值化、边缘检测、阈值分割、空洞填充和开闭合运算等。种子大小与形状特征直接从最终二值图上获取, 种子的颜色特征从不同空间的彩色图获取。纹理特征基于灰度图像获取。

采集的种子特征共33个, 其中形态特征8个:面积、长轴与短轴长度、等面圆直径、最小外接凸多边形、矩形度 (面积/外接矩形面积) 、椭圆度 (焦点间距/长轴长) 、凹凸比 (面积/最小外接凸多边形面积) ;颜色特征12个:分别为RGB和HSI色彩空间的红色R、绿色G、蓝色B、色调H、饱和度S、亮度I6个分量的均值和方差;纹理特征13个, 分别为:均值、方差、平滑度、三阶矩、一致性、熵以及7个统计不变矩组成。品种的扫描图像如图2所示。

种子的全部特征采用作者自编的MATLAT程序自动提取如表1所示, 可以求出品种不同特征均值的变异系数, 数据的分析基于Spss13软件实现。

1.3 支持向量机及其扩展

支持向量机基于统计学习理论和结构风险最小化原则, 其基本思想是把输入空间的样本通过非线性变换映射到高维特征空间, 然后在特征空间中求取把样本线性分开的最优分类面。不同的核函数即变换到不同的特征空间。

SVM方法是从两类模式识别时线性可分情况下的最优分类面提出的。假设线性可分的样本集为 (xi, yi) , i=1, …, n, x∈Rd, y∈{+1, -1}是类别标号。则分类面方程为

此时, 分类间隔就等于2/||w||, 使分类间隔最大就是在式 (2) 约束下, 求函数 的极小值。对于线性不可分样本, 通过引入一个松驰项ξi≥0, 使约束条件式 (2) 变为

为了限制样本错误划分, 引入错误惩罚因子C, 这样问题转化为在式 (3) 约束下, 求

采用拉格朗日 (Lagrange) 乘子法, 上述优化问题可转化为其对偶问题, 即

其中, ai为每个样本对应的Lagrange乘子, 这是一个不等式约束下二次函数寻优问题, 存在唯一解。解中仅有一部分ai不为零, 对应的样本xi就是支持向量 (Support Vector, 简称SV) 。解 (5) 求得各系数对应得最优解ai*, w*, b*则支持向量机得判决函数为

对于非线性问题, SVM通过非线性变换将其转化为某个高维空间中的线性问题, 在变换空间中求最优分类面。常用的核函数K (xi, xj) 有3类, 分别为多项式、RBF (径向基) 、Sigmoid (感知器) 。这些核函数已被证明适合绝大部分非线性分类问题, 当然也可定义自己的核函数。本文中识别是基于径向基核函数进行的, 径向基核函数定义为

算法最初是为二值分类问题设计的, 当处理多类问题时, 就需要构造合适的多类分类器, 主要是通过组合多个二分类器来实现多分类器的构造。其做法是在任意两类样本之间设计1个SVM, 因此k个类别的样本就需要设计k (k-1) /2个SVM。当对一个未知样本进行分类时, 得票最多的类别即为该未知样本的类别。Libsvm中的多类分类就是根据此方法实现的。

1.4 特征选择与品种识别

原始特征共33个, 11类品种每类品种50粒, 特征数据量为18 150条, 通过主成分分析可以进行特征优化, 将特征的主成分得分进行排序 (如图3所示) , 可计算累计贡献率。

在识别时按照主成分得分从大到小不断加入特征库, 当然也可以将原始特征 (如表1所示) 按照从上到下的顺序不断增加到特征库, 利用此构建的特征库的分别实现了多类径向基SVM和BP神经网络训练和品种模型, 其中神经网络隐含层为两层, 节点数分别为23和8。两种识别模型的输入维数为特征条数, 输出维数为11 (11个品种) 。

利用上边的识别模型分别实现了增加主分量情况的SVM和ANN识别结果。增加原始特征情况的SVM识别结果和单个原始特征情况下的识别结果, 汇总结果如图4所示。

鉴于累积主分量得分程指数上升趋势, 表2单独列出了在累计主分量或特征数目分别为2的整数次幂的情况下对应情况的识别率。

为讨论不同类型特征及其组合对识别效果的影响, 分别讨论了大小类、颜色类、纹理类特征及其组合的识别情况, 如表3所示。

其中, 品种识别率由下式定义:品种识别率=正确识别的品种数目/品种总数目×100%。

2 结果与分析

2.1 种子外观特征分析的基本描述

通过统计3大类33个特征的玉米种子品种间变异系数 (如表1所示) 可以发现, 特征变异程度有较大的差异;以纹理特征的三阶矩变异系数最大, 达到了0.374 3, 三阶矩表示灰度直方图的偏斜程度, 说明不同品种的灰度直方图偏差最为明显;其次, 衡量面积的两个变异系数也较大, 为种子面积和最小外接图多边形面积, 分别为0.195 0和0.240 6, 反映不同品种的面积差别较大;而平滑度特征的变异系数最小为0.000 1, 它在一定程度上表示图像的粗糙程度, 说明统计上来看, 不同品种表面纹理粗糙程度相当。

2.2 特征的主分量分析

对标准化后的数据进行主分量分析 (如图3所示) 可以发现:特征之间的某种组合 (主分量) , 得分情况不同, 主分量分析的目的就是去除特征间的相关性;前面几个主分量得分较大, 说明特征相关程度较大, 可以用较少的特征组合来进行一定程度的特征降维。其中, 第1主分量得分达到了30.04, 前16个主分量的累积贡献率已达到了99%;相对应的SVM品种识别率已经达到了98.9%, 说明前面主分量的累加识别贡献率大。

2.3 单个特征的识别

采用单个特征进行识别 (识别结果参见表1和图3) , 发现总体上单个品种的识别能力在10%~20%左右, 平均为13.9%。也就是说在很大程度上区分两个品种, 不同的特征的品种区分能力不同, 对应变异系数可以发现, 变异系数大的特征总体上单个特征的识别率也较高, 也就是品种区分能力强。

2.4 SVM品种识别

通过不断加入主分量的方式进行利用SVM进行识别, 每次增加1个, 可以发现识别效果从总体上看与主分量累积贡献率相同, 呈反指数曲线增加:开始增加的速度快, 8个主成分时, 累积贡献率达到91.3, SVM识别率达到了72.5% (如表2所示) , 但是上升的速度比累积贡献率缓慢。由图3和图4可以看出, 曲线整体上升较累积贡献率平缓。与通过原始特征累加的方式, 进行识别可以发现, 采用主分量累加的方式识别率上升较快。所以, 在提高识别效率方面, 采用主分量累加的方式效率更高。

2.5 SVM与ANN品种效果比较

比较同等情况下的识别效果 (如图4所示) 可以发现, 基于SVM的识别效果较基于ANN的识别效果有明显提高。特别在分量数目不断增加的情况下尤为明显, 总体识别效果高10个百分点左右, 但在主分量的数目较少 (小于3个) 的情况下ANN的识别效果较好。究其原因是神经网络在每加入一个特征就修改网络权值, 而后面加入的主分量特征在一定程度上修改了原来已经训练好的权值, 使得在高维空间, 神经网络的泛化能力下降。另外也可以发现, 神经网络的识别结果较为不稳定, 其原因是神经网络的初始权值随机生成, 在一定程度上影响了识别效果。

2.6 不同类特征及其组合识别

通过表3不难发现, 不同类特征识别性能不同, 识别效果纹理类>颜色类>形态类。原因是玉米籽粒和其他生物一样存在多样性, 在形态上表现特别突出。3类特征两两组合识别效果相当, 说明只要在使得品种的原始特征足够多, 就可以达到较高的识别效果 (达到90%以上) 。

3 讨论与结论

3.1 讨论

本研究表明, 玉米大小、形状和颜色在不同品种之间有很大的差异, 是籽粒外观质量的重要特征, 机器对这些外观特征的分辨能力远超过人类, 并且能够定量描述, 具有客观性、重复性与可靠性好的特点, 提升了外观特征品种识别的应用价值。

有更多研究同时使用籽粒等农产品的大小、形状、纹理及颜色特征中的两种或者更多种, 而以色泽为主, 以大小与形状为辅, 增加重复或者训练样本和图像特征的数目, 应用效果会更好。事实上, 样品的代表性对结果的普适性有更直接的影响, 本研究样品由11个玉米品种组成, 具有一定的代表性。由此建立种子外观质量评价指标体系, 或者品种识别模型, 或者种子分级等应用模型, 则鲁棒性可能会更好。

像许多生物器官一样, 玉米种子缺乏工业零部件的刚性, 其形状具有多变性, 因此人工测量时经常会遇到无法确定长宽厚测定的统一位置问题。利用本文的图像处理方法在一定程度上解决了这一问题, 但要求事先将种子摆正。

3.2 结论

本文建立了11个普通黄玉米品种、各50粒典型种子有胚面扫描图像的数据库, 合计有550幅籽粒图像。获取特征数据量为18 150条, 全部3大类33个玉米粒形态性状系统地反映了种子的外观特征, 不同特征之间的变异程度有一定差异。与识别率相关系数为0.221, 相关度较小采用主分量累加的方式实现的SVM和ANN识别效果表明, SVM识别能力较强, 采用一般的主分量已能使得识别率达到90%以上, 前21个主分量已经使得识别率达到了100%;而神经网络在同等情况下识别效率低, 网络的泛化能力差。采用原始特征累加方式识别效果较用主分量累加的方式识别效果差, 说明在建立识别模型之前进行必要的数据相关处理, 也就是进行主分量分析是必要的, 它能在一定程度上提高品种的识别效果。本文基于数字图像处理技术获得的籽粒形态数据与认识, 为玉米粒形态的进一步深入研究与应用奠定了基础, 图像处理的测定方法具有准确、快速、适合大批量的优势, 将在作物科学的理论与实践领域发挥日益重要的作用。

参考文献

[1]Nelson S O.Dimensional and density data for seeds of cerealgrain and other crops[J].Transactions of the ASAE, 2002, 45 (1) :165-170.

[2]郝建平, 杨锦忠, 杜天庆, 等.基于图像处理的玉米品种的种子形态分布及其分类研究[J].中国农业科学, 2008, 41 (4) :994-1002.

[3]杨锦忠, 郝建平, 杜天庆, 等.基于种子图像处理的大数目玉米品种形态识别[J].作物学报, 2008, 34 (6) :1069-1073.

[4]韩仲志, 匡桂娟, 刘元永, 等.基于形态和颜色特征的花生品质检测方法[J].花生学报, 2007, 36 (4) :18-21.

[5]韩仲志, 赵友刚.基于外观特征识别的花生品质与品种检测方法[J].中国粮油学报, 2009, 24 (5) :123-126.

[6]Sakai N, Yonekawa S, Matsuzaki A.Two-dimensional im-age analysis of the shape of rice and its application to separa-ting varieties[J].J Food Eng., 1996, 27:397-407.

[7]Dubey B P, Bhagwat S G, Shouche S P, et al.Potential of artificial neural networks in varietal identification using mor-phometry of wheat grains[J].Biosyst Eng, 2006, 95 (1) :61-67.

[8]Venora G, Grillo O, Shahin M A, et al.Identification of Si-cilian landraces and Canadian cultivars of lentil using an im-age analysis system[J].Food Res Intl, 2007, 40:161-166.

多类支持向量机 篇2

支持向量机(Support Vector Machines)是近年来热门的一种有监督学习的.方法,它广泛的应用于统计分类以及回归分析中.通过SVM模型,考察分析一系列影响因素对高速公路路面质量指标的影响,并对提高高速公路路面质量提出建议.

作 者:陶甄 吴元 梁晓辉 TAO Zhen WU Yuan LIANG Xiao-hui 作者单位:陶甄,TAO Zhen(上海交通大学,金融系,上海,30)

吴元,梁晓辉,WU Yuan,LIANG Xiao-hui(上海交通大学,计算机科学与工程系,上海,40)

基于光滑支持向量机的经济预测模型 篇3

关键词:经济预测模型;支持向量机;加函数;光滑函数;Newton-Armijo算法

1.引言

多类支持向量机 篇4

近年来, 随着电力部门的优化重组, 智能电网的相关研究越来越成熟, 可再生能源得到了快速发展。由于光伏发电系统的输出功率具有波动性与间歇性, 其相对于大电网是一个不可控源, 因此必须对发电功率进行准确的预测。随着预测方法的不断成熟, 根据实现方式的不同预测方法主要分为两种.直接预测与分步预测。

本文提出一种基于SVM支持向量机的单日多类型天气短期光伏功率预测方法, 定义四类广义天气类型, 打破单日笮类型天气模型, 利用SVM向量机具体识别单日天气中的每一个时间点的天气类型, 增加相应阈值防止过度分类。结合传统的间接预测方法, 分时段预测单日天气因子值, 同时优化天气转换点处的预测结果, 最终利用光伏预测关联数据模型的相关理论, 对功率值进行预测。利用国内某电站全年的实际数据, 对所提出的模型进行了验证, 并与传统的气象因子与关联数据模型进行了对比, 结果表明该模型具有更高的预测精度。

1单日多类型识别处理

1.1广义天气类型

天气状态一般指在24小时到几天时间范围内大气运动的变化, 在本文研究中, 天气类型特指光伏电站所在地理区域24小时之内的大气运动状态。实际研究中, 一般将天气按照其类型分为4类, A类天气以晴天为主, B类天气以多云与阴天为主, C类天气以小雨, 小雪.雷阵雨等各类较为恶劣天气为主, D类天气以大雨, 暴雨, 大雪, 沙尘暴等极端恶劣天气为主^

1.2气象类型模式识别

天气识别模型通常耑要考虑以下儿种参数.辐照度, 温度, 湿度, 组件温度, 风速。使用SVM进行天气识别, 对实验的样本点每4个时间点进行筛选, 随机选取-点。进行模型训练。天气因子SVM模式识别的输入特征向量, 如式 (1) 所示

式中, Lrr一地面辐照度, TE—环境温度, Hum—相对湿度, TM—组件温度, WS—风速。

由于输入特征参数, 数量级与值范围均存在较大差异, 为消除其对模型学习训练的影响, 对所有特征输入量进行归一化处理, 如式 (2) 所示。

支持向量机核函数选择高斯核, 通过k折交叉验证, 采用随机的方式对将样本集以0.8: 0.2, 分为两组, 即80%作为训练样本集, 20%作为测试样本集, 建立模型, 在模型得到充分训练后, 对所有数据信息进行重新分类识别, 获得新的天气识别结果

1.3 临近相似阈值修正夭气识别

在实际条件下, 单日天气剧烈变化的次数应是有限的, 因此应加入临近相似阈值, 对预测结果进行修正。天气变化程度, 在此使用临近变化率描述, 如式 (3) 所示

式中, t为时间序列号, n为特征要素序号, k为时间变化率总数, 为临近变化率, 々为在t时刻时第n个特征要素归一化后的值。

分别对所有天气识别结果, 发生变化的时间点, 分类统计, 共分为六类, 如下

(A-B) , ?A-C) , (A-D) , (B-C) , (B-D) , (CD) ;

对每一分类.计算其临近变化率的算术均值, 如式 (4) 所示

式中为单点临近变化率, 为第n类天气变化的个数, G为第n类天气变化率的算术均值。

其即为每类天气变化的临近相似阈值, 对于天气识别中ft之体T的, 我们认为该天气判别是可接受的, 否则, 该天气;判别不可接受, 将后一时间点的天气类型改为前一时间点的天气类型.其后对所有更改后的时间点, 之前的最邻近未修改类型点与其之后一个时间点计算临近变化率, 使用临近相似阈值, 再次进行判别, 直至所有天气判别均可接受。

2分类天气模型与功率预测算法

2.1支持向量回归辐照度因子值预测

在单日多类型天气识别中, 已将历史信息分为四类, 因此可将历史气象数据, 根据广义天气类型将其聚类为四类历史数据子集。将四类子集, 分别建立预测模型, 可以实现对预测模型输入输出之间映射关系更为细致和准确地描述, 在此使用支持向量回归进行建模。

辐照度与地外辐照度值具有高度相关性。同时辐照度还受到环境温度, 相对湿度, 风速的影响因此支持向量回归的输入特征向量, 如式 (5) 所示

式中, —地外辐照度, TE—环境温度, Hum—相对湿度, WS—风速。

分别选取预测时间点同类型天气前100个数据点, 与预测时间点前两年同类型天气同时间点前50个数据点与后50个数据点, 组成共计300个数据点建模训练。使用高斯核与K折交叉验证。釆用随机的方式对将样本集以0.7: 0.3, 分为两组建立模型。最终将预测点信息代入模型, 获得预测值。

2.2天气转换点修正

气象因子变化具有时间连续性, 天气转换点处气象因子不应发生过于剧烈的变化, 因此结合转换点前后相关点列信息, 比较转换点前后气象类型的时长, 气象类型持续时间越长, 其预测出的气象值, 对下一个时间点的影响应更大。因此可使用式 (6) 修正

2.3 时间连续性与历史相似性修正

在较好的天气条件下, 气象因子值相同类型下历史同期和临近时间的数值一般都非常接近, 而且也有类似的变化规律。预测值修正一般可使用下式 (7) 修正, 将历史预测值与实际预测值进行加权平均

式中, 最终预测值;A为归一化的历史预测值权重系数, 为历史预测值?, ^为归一化的实际预测值权重系数, 为实际预测值。

2.4功率预测

光伏功率在实际电站中, 其实际为气象因子组合形成的一个气象因子状态空间, 状态空间中的点将与电站功率值对应。可以使用以下信息作为气象因子状态空间的特征参数辐照度LIT, 环境温度TE, 组件温度TM?相对湿度Hum, 风速WSo预测功率值实际为五维气象因子状态空间F到发电功率P的一个非线性单值映射关系。

专家数据库对数据的自学习方法如下, 对于状态空间F?现产生一条新的数据记录, 如果其与原数据集中任何一条数据集完全相同, 则舍去该条数据;如果其与原数据集中任何一条数据均不相同, 则将该条数据直接加入专家数据库:如其与原数据除P外均相同, 则说明应对该条数据进行修正, 具体公式如下:

其中P为更新后功率值, 为旧数据集权重系数, 为旧功率值, ?为新数据权重系数, &为新数据权重系数。在本文中权重系数为0.8, 0.2;

功率预测方法如下, 现设预测获得的天气因子值分别为 (Lr^?Wg’Hum^> WSs?P—, 其分别代表预测辐照度, 环境温度, 组件温度, 相对湿风速。具体映射方法如下:

(1) 如果状态空间中?Lrr?’Hi, TM, timn, WS) 部分存在一条完全相同的数据集, 则直接查找到该条数据, 使用P作为功率值, 即IV-P, 如果不存在则转入下一步,

(2) 如果状态空间中?LIT, TE, TK, Hum, WS) 部分不存在一条数据与预测数据部分完全相同, 则计算所有数据的欧式距离L

式中, ?LlTp TES, mB, K?1V?mB) 为预测气象要素值, (Lrrit TEC, TM^, W5f) 为z专家数据库中实际气象要素值, k为第〖条数据气象要素欧式距离

(3) 比较欧式距离最小的前K条数据, 得到其相应的功率值/^?, 加权平均获得实际的功率值PF?即如下

3预测结果分析

利用内蒙古某电站2012年1-12月全年366天的气象因子数据, 时间分辨率为15min, 生成关联数据模型, 编写MATLAB程序进行仿真。对于天气识别模型, 去除无功率时间数据, 对数据天气类型进行重新划分, 单日单天气识别模型以天为单位, 新的天气模型以时间点为单位, 其天气分布与比例如下:

由表1可见, 对于A, B类天气, 比例有所增加, 而C, D类天气均有所减少, 可见在实际天气条件下, 特别是恶劣天气中, 全天均为该天气类型, 并不常见, 天气实际表现为一个气象变化过程。因此以天为单位进行预测对恶劣天气类型预测必然会有极大的误差。

利用分类天气模型, 使用支持向量回归分析, 进行气象要素预测, 最终利用专家数据库映射功率值。为了对比预测结果, 分别选取了全A类天气某日, 与存在B, C类天气变化过程的某曰, 在单日单天气模型中该天气将使用C类模型进行训练, 导致B类天气部分的实际功率受到极大影响。而B类天气属于日照条件较好的天气, 在改进模型中, B类天气部分正确使用B类天气预测模型, 预测获得了很好的改善, 使最终预测结果较为理想。

4结束语

本文对较为经典的分步预测模型进行了改进, 改善了单曰单类型天气模型中因对气象识别单一, 导致使用的预测模型不准确的问题。该模型将单日气象有效分离为气象转变过程, 并利用临近相似阈值修正天气识别, 防止过分离。在获得有效气象类型后, 按预测气象要素值, 再利用气象要素状态空间映射功率数据, 进行分步预测。仿真结果表明, 该方法有效提高了短期光伏电站功率预测的准确性。而C, D类天气, 由于本身气象变化的复杂性, 该模型已无法满足预测要求, 如何改善该类气象类型的预测效果, 将是下一步研究工作的重点。

摘要:提出一种基于支持向量机的单日多类型天气短期光伏功率预测方法, 对每个气象天气点气象类型进行判别分析, 细化分类天气模型, 利用分类天气模型训练数据并预测未来气象要素值, 并对天气转换点修正, 利用时间连续性与历史连续性修正结果。最后利用专家数据库映射数据进行气象功率预测。实验结果表明, 改进后的模型可以有效改善预测效果。

关键词:光伏功率预测,支持向量机,分类气象模型

参考文献

[1]陈昌松, 段善旭, 殷进军.基于神经网络的光伏阵列发电预测模型的设计[J].电工技术学报, 2009, 24 (9) :153-158.

[2]丁明, 王磊, 毕锐.基于改进BP神经网络的光伏发电系统输出功率短期预测模型[J].电力系统保护与控制, 2012, 40 (11) :93-99.

[3]张艳霞, 赵杰.基于反馈型神经网络的光伏系统发电功率预测[J].电力系统保护与控制, 2011, 39 (15) :96-101.

[4]王飞, 米增强, 杨奇逊, 等.基于神经网络与关联数据的光伏电站发电功率预测方法[J].太阳能学报, 2012, 33 (7) :1172-1177.

多类支持向量机 篇5

基于支持向量机的航空发动机故障诊断

支持向量机学习方法以结构风险最小化原则取代传统机器学习方法中的经验风险最小化原则,在有限样本的学习中显示出优异的.性能.本文将这一新的统计学习方法应用到航空发动机故障诊断的研究中,并通过某型航空发动机故障诊断的实验结果表明了本文方法的有效性.

作 者:杨俊 谢寿生 于东军 作者单位:空军工程大学工程学院,西安,710038刊 名:机械科学与技术 ISTIC PKU英文刊名:MECHANICAL SCIENCE AND TECHNOLOGY年,卷(期):24(1)分类号:V23关键词:支持向量机 航空发动机 故障诊断

支持向量机算法在学生评价中的应用 篇6

关键词:学生评价;支持向量机算法;聚类策略

中图分类号:G647 文献标识码:A 文章编号:1671-864X(2015)10-0088-02

引言

高校的学生评价不仅仅是评定学生,另外还具有引导和有助于学生的发展。在今天素质教育的倡导下,学生的发展应当是全面综合的发展,包括专业知识与技能、道德修养、身体素质等各方面在内的发展。传统的学生评价模式泰勒模式[1]以及CIPP模式[2]不是存在评价目标单一的缺陷就是过于注重结果评价,这样的评价模式皆不能适应现在的素质教育要求。因此特别需要一种更加恰当的评价方法对上述学生评价中存在的问题加以解决。

本文针对学生样本数据的特点,利用支持向量机分类算法对其进行分类研究。支持向量机(Support Vector Machine),简称SVM[3],是建立在统计学习理论的结构风险最小化原理上的一种分类技术,对于解决小样本、非线性、高维数问题,比其他分类算法具有更好的泛化性。它避免了神经网络中的局部最优解的问题,并有效地克服了“维数灾难”和“过学习”等传统困难[4]。

一、支持向量机理论

支持向量机的最初应用是线性可分的二分类问题,最优分类面也是由此而来的。基本思想如图1所示,其中,H是分类线,实心方块和实心圆分别代表样本的正负两类,H1和H2分别是过各类样本中离分类线最近且平行于H的分类间隔。支持向量机要求,H能将训练样本完全分开,并且保证分类间隔最大。

在实际应用中遇到的很多情况都是多分类问题,比如本文中根据学生信息对学生进行的分类。构造多分类的方法目前主要有“一对多”SVM分类、“一对一”SVM分类、“有向无环图”[5]SVM分类等。

二、支持向量机的学生评价实例

利用山东省某高校计算机学院学生专业课信息,包括学生的基本信息,学生的行为特征(包括出勤率,学习态度,作业提交情况,素质得分)和学生成绩(笔试成绩,上机成绩)。取200个同学的信息作为训练集样本,那么对每一个同学来说,其数据规模是16维,如果所有样本维数都参与计算,其数据规模高达3200个多,而这仅仅是对于同一所学校某年级来说,如果对一个地区高校学生进行分析呢,计算量更是相当之大。利用自组织特征映射网络聚类方法对200个学生样本进行聚类。

首先,根据同一个班中的学生基本情况大体都是类似的,我们暂且忽略掉,只考虑学生的行为特征和学生的成绩,根据学生行为特征将该样本集聚为3类(90<优<100,70<良<90,60<中<70),据学生成绩将学生聚为4类(90<优<100分,80<良<90,60<中<70,0<差<60),那么这200个样本就被聚为34=12类。聚类结果如表1所示:

表中的两位数字中,首位代表学生行为特征,次位代表学生成绩。比如类别号00,代表学生行为得分是优,成绩得分也是优。通过表1可以看出各子类聚集的样本数差别比较大,具体说明如下:

(1)样本数为0或者很少。如03类型,出现的概率为0,说明学生行为特征得分在90分以上而学生成绩不及格的同学不存在;

(2)样本数多。如11类型出现的概率大,说明学生行为特征得分在80分以上90分以下的同学,其学习成绩也不会太低。

样本数多的子类客观上反映了学生的行为特征和学生成绩有一定的联系,应作为典型的子类模式。而又考虑到训练样本集的等级全面性,因此我们将类别号23也作为一个子类模式,由此从12类聚类结果中筛选出6个子类模式如表1所示(类别1到类别6)。

三、实例分析验证

为分析上述6个子类模式之间的显著性差异,利用160个学生样本(6个子模式涉及的样本数)使用SPSS软件进行方差检验,表2为方差检验结果(取默认值0.05)。

检验结果表明6个子类模式间具有显著性差异。这说明具有200个数据的样本用7维特征描述之后,子类间的差异被显著性的体现出来,每个子类都具有鉴别度,进一步验证了前面聚类策略及聚类结果的合理性。

以下给出了采用不同算法得到的预测分类准确率和训练时间比较结果:

实验结果显示,利用聚类之后的训练样本建训练模型,对未知样本训练精度有所提高,并且训练时间也相对提高,这说明本文提出的方法是可行的。

四、总结

在当今素质教育体制下要求学生德智体全面发展,对学生的评价如果单纯考虑考试成绩,那就是片面的,并不能真正起到帮助学生的目的。因此要想使学生的能力得到有效的提高,教师除了要教好书本知识之外,更不能忽视对学生心理活动的指导,只有这样才能达到双赢的效果。而对于学生数据比较多的情况,如果所有的数据都一一分析势必会费时费力,效率也不高。本文提出的这种基于聚类策略的支持向量机分类方法,不仅能对学生评价做到合理的分类,更能简化数据样本,提高效率提高分类预测率,对日后学校的教学工作将会起到很大的帮助作用。

参考文献:

[1]李倩.美国大学教师教学评价研究—以MIT为例[J].大连理工大学,2008:3-5.

[2]肖远军.CIPP教育评价模式探析[J].教育科学,2003,03:42-45.

[3]中译本,李国正等译.《支持向量机导论》[M].北京电子工业出版社,2003:1-139.

[4]邓乃扬,田英杰.数据挖掘中的新方法-支持向量机[M].北京:科学出版社,2004.

[5]Platt J.C.,Cristianini N.,and Shawe-Taylor J.,”Large margin DAGs for multiclass classification,”in Advance in Neurua Information Processing Systems.Cambridge,MA:MIT Press,2000,vol.12,PP.547-553.

支持向量机原理及展望 篇7

支持向量机(Support Vector Machine,SVM)是由Vapnik领导的AT&TBell实验室研究小组在1963年提出的一种新的非常有潜力的分类技术,SVM是一种基于统计学习理论的模式识别方法,主要应用于模式识别领域。由于当时这些研究尚不十分完善,在解决模式识别问题中往往趋于保守,且数学上比较艰涩,这些研究一直没有得到充分的重视。直到90年代,统计学习理论(Statistical Learning Theory,SLT)的实现和由于神经网络等较新兴的机器学习方法的研究遇到一些重要的困难,比如如何确定网络结构的问题、过学习与欠学习问题、局部极小点问题等,使得SVM迅速发展和完善,在解决小样本、非线性及高维模式识别问题中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中,从此迅速的发展起来,现在已经在许多领域取得了成功的应用。

1 基本原理

假设如图1这些数据点是n维实空间中的点。我们希望能够把这些点通过一个n-1维的超平面分开。通常这个被称为线性分类器。有很多分类器都符合这个要求。但是我们还希望找到分类最佳的平面,即使得属于两个不同类的数据点间隔最大的那个面,该面亦称为最大间隔超平面。如果我们能够找到这个面,那么这个分类器就称为最大间隔分类器。

如图1有很多个分类器(超平面)可以把数据分开,但是只有一个能够达到最大分割。

支持向量机将向量映射到一个更高维的空间里,在这个空间里建立有一个最大间隔超平面。在分开数据的超平面的两边建有两个互相平行的超平面。建立方向合适的分隔超平面使两个与之平行的超平面间的距离最大化。假定平行超平面间的距离或差距越大,分类器的总误差越小。

支持向量机属于一般化线性分类器。他们也可以认为是提克洛夫规则化(Tikhonov Regularization)方法的一个特例。这种分类器的特点是他们能够同时最小化经验误差与最大化几何边缘区。因此支持向量机也被称为最大边缘区分类器。

所谓支持向量是指那些在间隔区边缘的训练样本点。这里的“机(machine,机器)”实际上是一个算法。在机器学习领域,常把一些算法看做是一个机器。

如图2设样本属于两个类,用该样本训练svm得到的最大间隔超平面。在超平面上的样本点也称为支持向量,支持向量机方法是建立在统计学习理论的VC维理论和结构风险最小原理基础上的,根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度)和学习能力(即无错误地识别任意样本的能力)之间寻求最佳折衷,以期获得最好的推广能力。

支持向量机(Support vector machines,SVM)与神经网络类似,都是学习型的机制,但与神经网络不同的是SVM使用的是数学方法和优化技术。

2 支持向量机的算法

SVM的支持向量机的主要思想可以概括为两点:

1)它是针对线性可分情况进行分析,对于线性不可分的情况,通过使用非线性映射算法将低维输入空间线性不可分的样本转化为高维特征空间使其线性可分,从而使得高维特征空间采用线性算法对样本的非线性特征进行线性分析成为可能;

2)它基于结构风险最小化理论之上在特征空间中建构最优分割超平面,使得学习器得到全局最优化,并且在整个样本空间的期望风险以某个概率满足一定上界。

支持向量机的目标就是要根据结构风险最小化原理,构造一个目标函数将两类模式尽可能地区分开来,通常分为两类情况来讨论:线性可分与线性不可分。

2.1 线性可分情况

在线性可分的情况下,就会存在一个超平面使得训练样本完全分开,该超平面可描述为:

其中,“·”是点积,w是n维向量,b为偏移量。

最优超平面是使得每一类数据与超平面距离最近的向量与超平面之间的距离最大的这样的平面,最优超平面可以通过解下面的二次优化问题来获得:

满足约束条件:

在特征数目特别大的情况,可以将此二次规划问题转化为其对偶问题:

满足约束条件:

这里α=(α1,...,αn)是Lagrange乘子,b*是最优超平面的法向量,是最优超平面的偏移量,在这类优化问题的求解与分析中,KKT条件将起到很重要的作用,在(7)式中,其解必须满足:

从式(5)可知,那些aι=0的样本对分类没有任何作用,只有那些aι>0的样本才对分类起作用,这些样本称为支持向量,故最终的分类函数为:

根据f(x)的符号来确定X的归属。

2.2 线性不可分的情况

对于线性不可分的情况,可以把样本X映射到一个高维特征空间H,并在此空间中运用原空间的函数来实现内积运算,这样将非线性问题转换成另一空间的线性问题来获得一个样本的归属,根据泛函的有关理论,只要一种核函数满足Mercer条件,它就对应某一空间中的内积,因此只要在最优分类面上采用适当的内积函数就可以实现这种线性不可分的分类问题。此时的目标函数为:

其相应的分类函数为:

2.3 内积核函数

SVM的关键在于核函数。低维空间向量集通常难于划分,解决的方法是将它们映射到高维空间。但这个办法带来的困难就是计算复杂度的增加,而核函数正好巧妙地解决了这个问题。也就是说,只要选用适当的核函数,就可以得到高维空间的分类函数。在SVM理论中,采用不同的核函数将导致不同的SVM算法。目前有三类用的较多的内积核函数:第一类是

我们所能得到的是p阶多项式分类器,第二类是径向基函数(RBF),也称作高斯核函数:

第三类是Sigmoid函数:

这时SVM实现的就是包含一个隐层感知器,隐层结点数是由算法自动确定的。究竟用哪一种核函数比较好,这还是取决你对数据处理的要求,不过建议可以使用径向基函数。

3 支持向量机的特点

1)它是专门针对有限样本情况的,其目标是得到现有信息下的最优解而不仅仅是样本数趋于无穷大时的最优值;

2)算法最终将转化成为一个二次型寻优问题,从理论上说,得到的将是全局最优点,解决了在神经网络方法中无法避免的局部极值问题;

3)算法将实际问题通过非线性变换转换到高维的特征空间(Feature Space),在高维空间中构造线性判别函数来实现原空间中的非线性判别函数,特殊性质能保证机器有较好的推广能力,同时它巧妙地解决了维数问题,其算法复杂度与样本维数无关;

4)在SVM方法中,只要定义不同的内积函数,就可以实现多项式逼近、贝叶斯分类器、径向基函数(Radial Basic Function或RBF)方法、多层感知器网络等许多现有学习算法。

5)该方法不但算法简单,而且具有较好的“鲁棒”性。

4 结束语

支持向量机算法是一个凸二次优化问题,能够保证找到的极值解就是全局最优解,是神经网络领域取得的一项重大突破。与神经网络相比,它的优点是训练算法中不存在局部极小值问题,可以自动设计模型复杂度(例如隐层节点数),不存在维数灾难问题,泛化能力强,SVM已初步表现出很多优于已有方法的性能。SVM正在成为继神经网络研究之后新的研究热点,并将推动机器学习理论和技术有重大的发展。

支持向量机能非常成功地处理回归问题(时间序列分析)、模式识别(分类问题、判别分析)、概率密度函数估计等诸多问题,并可推广于预测和综合评价等领域,例如,在模式识别方面,对于手写数字识别、语音识别、人脸图像识别、文章分类等问题,SVM算法在精度上已经超过传统的学习算法或与之不相上下。目前国际上支持向量机理论研究和实际应用两方面都正处于飞速发展阶段。

摘要:支持向量机(SVM)是90年代中期发展起来的基于统计学习理论的一种机器学习方法,通过寻求结构化风险最小来提高学习机泛化能力,实现经验风险和置信范围的最小化,从而达到在统计样本量较少的情况下,亦能获得良好统计规律的目的。该方法不但算法简单,而且具有较好的“鲁棒”性,与神经网络相比,它的优点是训练算法中不存在局部极小值问题,在解决小样本、非线性及高维模式识别问题中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中,现在已经在许多领域取得了成功的应用。

关键词:支持向量机,神经网络,分类器,核函数

参考文献

[1]B.E.Boser,I.M.Guyon,and V.N.Vapnik.A training algorithmfor optimal margin classifiers.In D.Haussler,editor,5th Annual ACM Workshop on COLT,pages 144-152,Pittsburgh,PA,1992.ACM Press.

[2]Corinna Cortes and V.Vapnik,"Support-Vector Networks,Machine Learning,20,1995,1.

[3]张艳.一类基于支持向量机的软件故障预测方法[J].小型微型计算机系统,2010.31(7):1380-1383.

[4]杜树新,吴铁军.模式识别中的支持向量机方法[J].浙江大学学报(工学版),2003,9,37(5):521-526.

[5]刘渤海.基于ANN和SVM的质量预测方法研究[J].制造业自动化,2010.32(5):152-155.

支持向量机的应用研究 篇8

上个世纪90年代,人们开始将组块识别应用到自然语言处理中。最初应用到英语和日语中,随后应用到汉语等各类自然语言中作用越来越突出。

组块分析也叫做浅层分析[1]。组块识别的目的就是简化句子结构,降低句法分析的复杂性。同时支持向量机还可以广泛的应用于机器翻译、信息检索等领域。

1 支持向量机介绍

1.1 SVM的基本思想

支持向量机最早应用于二维线性可分的情况。图1就是支持向量机的基本思想。

图1中的实心点和空心点分别代表不同类的两类数据样本。H1和H2上的训练样本点称作支持向量机。

1.2 核函数

常见的三种核函数:

(1)多项式核函数

(2)径向基核函数

(3)Sigmoid Kernel函数

1.3 多分类问题

支持向量机的多分类问题主要有一对一(one against one)和一对多(one against all)两种方法[4]。

2 组块的定义和标注方法

2.1 组块的定义和类型

定义2.1[2]组块是句子中相邻的、非嵌套的、内部不包含其它类别组块的词语序列。每个组块都围绕一个核心词展开,以核心词作为组块的开始或结束。各种类型的组块内部是不可以包含其他类型类型的组块,但可以包含与其自身同一类别的组块。

例:原文:将军有自己独到的见解。

组块:NP[将军]VP[有]NP[自己]

ADJP[独到]NP[见解]

定义2.2将组块划分为以下十一种类型:非组块成分(out of chunk),连词组块(CONJP),动词组块(VP),名词组块(NP),感叹词组块(INTJP),形容词组块(ADJP),数量词组块(MP),介词组块(PP),连词组块(CONJP),副词组块(ADVP),方位词组块(SP),时间词组块(TP)。

2.2 组块的标注方法

Inside/Outside和Start/End表示方法是组块的两种标注类型。语义相关的词语序列是组块识别的最基本标准[3]。该文采用IOB2的标注集合{B,O,I}来标记组块。若用X表示组块的类型,则B-X、I-X和O分别表示组块开始、组块内部和组块外部。每一个词汇被标记为同一类别B和I的词,构成一个组块,该组块直到遇到下一个标记为B或者O的词为止[1]。

3 基于SVM算法的组块识别

本节将支持向量机应用到汉语组块识别中,将组块识别问题转化为一个序列标注问题。

3.1 模型特征选择与实验数据说明

3.1.1 特征选取

根据组块的上下文信息、词、词长和词性标注好语料。以下面已标注的句子为例分析支持向量机模型的分析过程和特征选取。

例:“人/n/B-NP要/v/B-VP领/v/I-VP着/u/I-VP命运/n/B-NP走/v/B-VP”。

该文的模型特征信息为当前待标记单词和其前后两词及其词性,词长和当前待标记单词的前两个字的IOB2标记。

以表1为例,选取表1中的位置,词长和上下文信息为上下文的特征信息。用(位置,特征类型,特征值)这样的三元组的形式表示每个样本的特征信息,三元组一共有3×5=17个。其中,当前单词的位置为0,前一个词为-1,后一个词为+1,前两个词为-2,后两个词为+2.以此类推。以“实行”这个单词为例:{(-2,词,将),(-1,词,开始),(0,词,实行),(+1,词,单一),(+2,词,货币),(-2,词性,d),(-1,词性,v),(0,词性,v),(+1,词性,a),(+2,词性,a),(-2,词长,2),(-1,词长,4),(0,词长,4),(+1,词长,4),(+2,词长,4),(-2,IOB2标注,B-VP),(-1,IOB2标注,I-VP)}。

3.1.2 评价指标:

3.2 基于SVM的组块识别

该文在构建SVM模型时,首先对训练集进行了处理,包括核函数,多分类算法和特征信息的选择。

该文采用的核函数是径向基核函数,对于径向基核函数中的参数g选择0.5,2,4。

该文共有10种组块类型,21种组块标记,采用one against one方法构造2k(k-1)个分类器。

SVM模型的特征信息有动态特征和静态特征两部分[4]。该文所选取的特征信息如表1和表2所示。

文本使用的训练算法是LibSVM软件包中的C-SVM算法。

3.2.1 实验结果

该文根据前面给出的特征信息,分别选取不同的核函数参数构建了14个SVM模型。表3给出了它们的开放测试结果。

从表3可以看出,在模型中核函数选取不同的的g值和惩罚因子C的值,实验结果是不同的。从模型1到模型14可以看出可以当g=2,C=128时F值最高,达到82.87%,g值和惩罚因子C的值并非随着它们本身的增大而增大,不成正比。模型8与模型14选取相同的的g值和惩罚因子C时,但模型8较模型14加入了中词长这一信息,结果显示模型8的F值高于模型14的的F值。因此可以判定词长信息可以提高组块识别结果。

实验结果表明,综合评价F值的提高不仅仅于核函数的参数g值有关,还与惩罚因子C的选取有关。如何正确的选取g值和惩罚因子C的值,目前还没有规范的方法,大多是靠经验选择的。

4 结束语

该文利用支持向量机完成了组块识别任务。先利用IBO2标注将组块识别转化成分类问题。然后利用支持向量机进行分类。在实验过程中通过选择径向基核函数的的g值和惩罚因子C的值,构建不同的组块分类模型,并比较分析这些分类模型的结果。实验表明支持向量机算法是一种较好的组块分类方法。

该文的研究结果可以广泛的应用于各类自然语言处理领域中。

摘要:该文将支持向量机应用到组块识别中,并利用支持向量机算法完成了组块识别任务。实验结果表明支持向量机算法在组块识别中有较好的应用。该文的研究结果可以广泛的应用到自然语言处理领域中。

关键词:支持向量机,核函数,组块识别

参考文献

[1]高红.基于统计语言模型的汉语浅层分析研究[D].大连:大连理工大学,2007.

[2]王莹莹.汉语组块识别的研究[D].大连:大连理工大学,2006.

[3]李巍.基于NN-LSVM的日语依存关系解析的中文文本中地名识别[D].大连:大连理工大学,2005.

[4]毛勇.基于支持向量机的特征选择方法的研究与应用[D].杭州:浙江大学,2006.

[5]Abney S.Parsing by chunk In:Berwick R,Abney S,Tenny C,et al.Principle-Based Parsing Dordrecht[M].Kluwer Academic Publishers,1991:257-278.

[6]谭咏梅.基于机器学习的汉语浅层分析研究[D].沈阳:东北大学,2005.

基于支持向量机音乐类型分类方法 篇9

音乐类型分类是多媒体应用中的重要组成部分。随着数据存储、压缩技术和互联网技术的飞速发展, 音乐类型数据急剧增加。在实际应用中, 所有的商业音乐数据库和mp3音乐下载站点首要的任务是将这些音乐收藏到不同音乐类型的数据库中。传统的人工检索方法已经不能满足对海量信息的检索分类。分类音乐类型的目的就是为了解决上述问题, 它可利用音乐本身的声学特征对其进行自动分类, 取代手工的方法。同时, 确定背景音乐类型也是检索视频场景的一种有效方法。

从本质上讲, 音乐类型分类是一个模式识别的问题, 主要包括两个方面内容:特征提取和分类。很多研究者在这个领域做了大量的工作, 采用了不同的音频特征和分类方法。文献[1]采用混合高斯模型, 对MPEG-7格式的13种类型音乐分类。文献[2]使用KNN和GMM分类器和小波特征分类音乐类型, 错误率分别为38%和36%。

传统参数虽然在实际中取得了较好的效果, 但这些方法的鲁棒性、适应性和推广能力有限, 特别是特征参数大都采用短时平稳信号的分析方法取得的。小波理论是一种非平稳信号的分析方法, 采用多分辨分析的思想, 非均匀划分时-频空间, 是时频域分析中非常有效的工具, 并有广泛应用[3,4,5]。SVM是在统计学理论基础上发展起来的一种新的机器学习方法, 它在小样本的条件下依然保持很好的推广能力, 在结构风险最小化原则基础上, 在特征空间建立最优的分类超平面, 克服传统基于规则的分类算法的缺点。近年来SVM已广泛被应用于各领域[6,7], 并在语音识别上也取得了很好的实验效果[8]。

因此, 本文提出了一种基于小波特征和SVM的分类音乐类型的方法。

1连续小波变换

f (t) 是平方可积函数[记作f (t) ∈L2 (R) ], ψ (t) 是基本小波或母小波函数, 则:

[Wψf] (a, τ) =x (t) 1aψ (t-τa) dt (1)

成为f (t) 的小波变换。式中a是尺度因子, 其值大于零;τ是时间位移, 其值可正负。计算机要求在有限的离散数据下工作, 因此离散的小波变换公式如下:

[WDψf] (a, τ) =n=-+x[n]1aψ (n-τa) (2)

1.1数据预处理

直接实现小波变换要求很大的计算量, 这可能导致算法消耗大量内存。因此, 对数据进行预处理, 在不改变计算过程和精度的前提下实现数据计算量实质性的压缩。

可以预先设定不同尺度小波, 需完成以下几步:

(1) 选择小波最大和最小尺度;

(2) 计算所有的小波尺度;

(3) 计算相应尺度下基小波离散点值。

小波尺度与频率成反比。选择对数规律改变尺度。尺度计算如下:

scalek[1, num]=ΜaxWvLngexp[-knumlog (ΜaxWvLngΜinWvLng) ] (3)

scalek是第k个尺度;MaxWvLng是小波尺度最大值;MinWvLng是小波尺度最小值;num是尺度总数目 (256) 。

选择B样条小波作为基小波。对于不同尺度下的B样条小波函数如图1所示。

1.2计算连续小波变换

计算连续小波变换如下:

CWΤ (pos, k) =rscale[k]i=0ΜaxWvLng (wave[pos-ΜaxWvLng2+i]wvlt[k][i]) (4)

pos是时间轴采样点的位置;k是小波编号;rscale[k]是系数, 与小波尺度成反比;wave[]是采样信号数据集;wvlt[k][i]是第k个小波的第i点采样值;

由公式 (4) 计算得到二维时频域的小波系数。小波变换后某时刻的小波系数如图2所示。图中横、纵坐标分别是尺度和小波的归一化系数。

不同类型音乐的连续小波变换如图3、图4所示。将语音信号延频率轴分割成不同的子带, 从图中可以看出, 摇摆音乐的高频分量高于古典音乐, 且基频分布较均匀 (图中白色部分为基频) 。

1.3提取特征向量

在时频域内沿着时间轴分割成子段, 沿着频率轴分割成子带, 如图5所示。提取特征方法1:将每个分割块单元中小波系数取平均值, 按列将这些平均值排成序列作为特征向量ave (b1) 、ave (b2) 、…、ave (b16) 。方法2:取平均值时每个块的子段起始位置由零开始, 特征向量依次为ave (b1) 、ave (b2) 、ave (b3) 、ave (b4) 、ave (b1+b5) 、ave (b2+b6) 、ave (b3+b7) 、ave (b4+b8) 、ave (b1+b5+b9) 、…、ave (b4+b8+b12+b16) 。bn表示第n块内所有小波系数之和, ave表示求平均值。

2支持向量机分类

支持向量机训练分类器的目的就是找到最优分类超平面H, H要最大化两类凸包到分类超平面的垂直距离, 并使训练的错误最小。

12ω2+Ci=1nξ (5)

其中ξ是松弛变量, 作为对误分的修正。C是错误惩罚力度因子。引入拉格朗日乘子αi≥0, βi≥0, 式 (5) 优化问题由拉格朗日函数对偶式 (6) 给出。

Ld=i=1nαi-12i=1nj=1nαiαjyiyj (xixj) (6)

约束条件为i=1nαiyi=0;0≤αiC;i=1, …, n。二次规划问题的解为α*= (α10, α20, …, αn0) 。αi0>0所对应的训练样本, 称之为支持向量。

对于实际中难以线性分类的情况, SVM通过选择合适的非线性变换将输入向量映射到高维特征空间, 在高维空间建立线性超平面。设存在映射ψ:XZ, XRd, ZRk, kd, 它可以把输入样本xiX映射到k维特征空间Z。若函数K (xi, xj) =ψ (xi) ·ψ (xj) , 则称K为内核函数。代入式 (6) 得:

Ld=i=1nαi-12i=1nj=1nαiαjyiyjΚ (xi, xj) (7)

在高维空间Z中, 最终的分类决策函数是:

f (x) =sgn (αi0yik (xixi) -b) (8)

常用的内核函数有多项式内核函数, 高斯径向基函数RBF, 指数径向基函数ERBF。实验采用指数径向基函数, 其函数如下:

Κ (x, y) =exp (-x-y2δ2) (9)

SVM训练算法采用序列最小优化SMO (Sequential Minimal Optimization) 算法。该算法的优点是针对2个样本的二次规划问题可以有解析解的形式, 从而避免了多样本情况下的数据解不稳定及耗时问题, 同时也不需要大的矩阵存储空间。其工作集的选择采用启发式, 通过两个嵌套的循环来寻找待优化的样本变量, 循环优化, 直到全部样本都满足最优条件。

3实验结果

研究选用4种音乐类型:古典、爵士、流行和摇摆。实验数据库包含400首音乐录音, 16位PCM格式, 采样速率22.050KHz, 每首截取30秒长度片断。400首录音出自不同作品。每种音乐类型100首录音。数据库录音来自CD、mp3、数据库和无线电广播。

每类50个样本作为训练集, 50个样本作为测试集。由于小波系数值较大, 提取特征时需要作归一化处理, 提高识别精度。训练测试SVM, 循环迭代参数Cδ, 从实验中得到精度最高的Cδ。当存在多个相同的最高测试率时, 取支持向量少的那组参数作为最优参数。窗口长度4096个采样点。对每种音乐类型提取特征向量, 使用不同的子带和子段的数目进行测试。实验中使用6种组合形式用SVM分类。实验结果见表1。整个实验在Visual C++ 6.0平台下开发完成。

4结论

音乐类型分类在多媒体应用中有重要的应用价值。本文采用B样条小波变换作为音乐特征, SVM分类音乐类型, 分类正确率可达86%, 尤其对古典/摇摆这对类型分类表现最好。表明该方法合理、有效。

参考文献

[1]Burred J, Lerch A, Hierarchical A.approach to automatic musical genreclassification[C]//Int.Conf.on Digital Audio Effects (DAFx-03) , London, UK, 2003:308-311.

[2]Li T, Oginara M, Li Q.A comparative study on content-based musicgenre classification.in Proc.Of the 26thannual int.ACMSIGIR conf.on Research and development in information retrieval, ACM, ACMPress, 2003:282-289.

[3]Mallat S G.A Theory for Multiresolution Signal Decomposition:theWavelet Representation[J].IEEE Trans Pattern Analysis and MachineIntelligence, 1989, 11 (7) :674-693.

[4]Downie T R, Silverman B W.The discrete multiple wavelet transformand thresholding methods[J].IEEE Transon Signal Processing, 1998, 46 (9) :2558-2561.

[5]Tzanetakis J, Cook P.Musical genre classification of audio signals[J].IEEE Trans.on Speech and Audio Processing, 2002, 5 (10) :293-302.

[6]Moreno Pedro J, Clarkson Philip.On the use of support vector machinesfor phonetic classification[C]//Proceedings of1999 IEEE Internation-al Conference on Acoustics, Speech and Signal Processing, 1999.

[7]Fine S, Navratil J, Gopinath R A.A hybrid GMM/SVM approach tospeaker identification[C]//Proceedings of 2001 IEEE InternationalConference on Acoustics, Speech and Signal Processing, 2001.

基于梯度信息的支持向量回归机 篇10

在许多工程分析中都要求运行复杂的且计算代价很高的分析和模拟代码, 如有限元分析和计算流体力学。尽管计算机的处理速度及处理能力在不断地提高, 但是运行复杂的工程代码所花费的巨大时间和计算代价也在同步的增加。解决这一问题的一个有效途径就是对那些能够足够精确描述处理过程的复杂分析代码用一个近似模型去替代, 这一近似模型虽然在精度方面有所牺牲, 但它却能大幅度地降低成本。这一近似模型可以叫“元模型”或者叫做“模型的模型” (Kleijnen等, 1987) [1]。从数学的角度来说, 如果输入向量是x, 输出向量是y, 那么它们之间真实的函数关系可以表示为y=f (x) , 其中f (x) 是复杂的工程分析函数。对于易于计算的“元模型”可以表示为y^=g (x) 使得y^=y+ε, 其中ε包括近似误差和随机误差。现有的替代模型主要有:多项式模型 (如:响应曲面模型RSM) 、多元自适应回归 (MARS) 模型、径向基函数 (BRF) 模型、空间相关 (Kriging) 模型、人工神经网络 (ANN) 模型等, 对于以上的几种模型的比较可参见文献[2]。以上所有的模型都有函数近似的功能, 但它们在精度、鲁棒性、计算效率和模型透明性方面却各有千秋。例如, 虽然人工神经网络在近似复杂的模型方面做得不错, 但它却有两个不足之处:①整个过程被当作是一个“黑箱”;②整个过程的计算代价也很大。“黑箱”意味着对整个模型知之甚少, 因为它并不产生一个确切的模型, 只是由一个用于训练的“箱”来接收输入变量和返回输出变量。

支持向量机 (SVM) 最早可追溯到20世纪70年代[3], 并在20世纪末由AT&T贝尔实验室的Vapnic及其同事将SVM进一步发展[4]; 并由文献[5]将其用于回归, 即支持向量回归机 (SVR) 。它被认为是一种“非常强大的方法, 自从它产生的近几年里, 这一方法已经在非常宽广的领域里超过其他的系统”[6]。支持向量回归机 (SVR) 保留了支持向量机 (SVM) 的诸多优点, 并将其能够对线性和非线性函数进行良好近似的能力加入其中, 而最早将SVR引入到计算机试验设计中是文献[7]。有关SVR在计算机试验设计中的应用在综述[8]、[9]都要简要地论述。

传统的替代模型没有考虑到样本点处的梯度信息, 它有一个明显的好处就是使构建的模型更为简单, 但它却使得在小样本情况下拟合精度并不理想。要想提高替代模型的精度, 就不得不通过采集更多的样本点并计算对应的函数值来得到更精确的替代模型, 而很多情形下, 计算对应样本点的函数值是非常耗费财力、 物力及大量的时间的。基于以上原因, 不少学者针对加入梯度信息以期提高小样本情况下的拟合精度进行了一些有意义的探索:文献[10]、文献[11]给出了基于梯度信息的ANN构建方法。针对响应曲面 (RS) 模型, 文献[12]提出了“加权最小二乘” (Weight Least Squares, WLS) 方法, 文献[13]提出了“移动最小二乘” (Moving Least Squares, MLS) 方法。文献[14]和文献[15]利用样本点邻域内的信息构建了基于梯度信息的Cokriging模型, 文献[9]给出了基于梯度 (一阶导数) 及基于海赛矩阵 (二阶导数) 的Kriging模型的构建过程。而对梯度信息的获取, 可以采用自动微分法 (Automatic Differentiation, AD) [16]或伴随法 (Adjoint Approach) [17]。

SVR在计算机试验设计中作为一种新型的建模手段, 其性能还研究得不够充分。通过作者查阅大量的文献, 目前尚未见有关基于梯度信息SVR建模的研究, 而本文正是试图对此进行初步地探讨。

本文第1节给出传统SVR的基本形式。第2节阐述其于梯度信息的SVR (GE-SVR) 的构建过程。第3节利用本文提出的算法进行GE-SVR回归试验并与传统SVR进行了比较, 以验证本文提出的GE-SVR算法的有效性。第4节进行简要的讨论和说明。

1 传统SVR的基本形式

给定数据集{ (x1, y1) , …, (xl, yl) } (其中l代表样本数目) , 若SVR的损失函数取ε不敏感函数

Lε (f (x) -y) ={0, |f (x) -y|<ε|f (x) -y|-ε, (1)

则构成ε-支持向量回归机 (ε-SVR) , 本文中称εε-SVR的参数, 其模型如下:

minΦ (w, ξ (*) ) =12w2+Ci=1l (ξi+ξi (*) ) (2) s.t.{yi- (wxi+b) ε+ξi (wxi+b) -yiε+ξi*ξi, ξi*0i=1, 2, , l

其中, ξi , ξ*i为松弛变量, C为惩罚参数。

该模型的解可由以下二次规划问题求得:

min12i, j=1l (αi-αi*) (αj-αj*) Κ (xi, xj) -i=1l (αi-αi*) yi+εi=1l (αi+αi*) (3) s.t.{0αi, αi*C, i=1, , li=1l (αi-αi*) =0

其中, K (·, ·) 是核函数。在求出上式中的参数α, α*后, 即可求得回归函数f (x) 。使用ε-不敏感函数, 在利用矩阵方法求解式 (3) 时, 矩阵具有稀疏性。

以上模型只考虑了样本点处的函数值, 并未考虑样本点处的梯度信息。当梯度信息容易得到时, 则可以考虑构建其于梯度信息的SVR (GE-SVR) , 下一节将给出具体的构建过程。

2 其于梯度信息的SVR (GE-SVR)

对于传统的SVR, 要求所有的样本点都在超平面的ε-带内 (如图1所示) , 因此得到式 (2) 中的约束条件。当样本点处的梯度信息已知时, 就可以利用样本点处的梯度信息, 不仅要求要样本点xi包含在ε-带内, 而且要求xi的邻域内的点也包含在ε-带内。我们可以在样本点xi处对真实函数进行一阶泰勒展开, 这样也就要求点 (xi+Δxi, yi+di·Δxi ) 和点 (xi-Δxi, yi-di·Δxi ) 都包含在ε-带内, 如图1所示。

因此, 可以对式 (2) 进行变形为:

minΦ (w, ξ (*) ) =12w2+Ci=1lk=16ξi (k) (4) s.t.{yi- (wxi+b) ε+ξi (1) (wxi+b) -yiε+ξi (2) yi+diΔxi- (w (xi+Δxi) +b) ε+ξi (3) (w (xi+Δxi) +b) - (yi+diΔxi) ε+ξi (4) yi-diΔxi- (w (xi-Δxi) +b) ε+ξi (5) (w (xi-Δxi) +b) - (yi-diΔxi) ε+ξi (6) ξi (k) 0i=1, , l;k=1, 2, , 6

接下来求式 (4) 的Lagrange对偶模型。

首先, 引入Lagrange函数:

L (w, b, ξ, α) =12wΤw+Ci=1lk=16ξi (k) -i=1lαi (1) (ε-yi+ (wxi+b) +ξi (1) ) -i=1lαi (2) (ε+yi- (wxi+b) +ξi (1) ) -i=1lαi (3) (ε- (yi+diΔxi) + (w (xi+Δxi) +b) +ξi (3) ) -i=1lαi (4) (ε+ (yi+diΔxi) - (w (xi+Δxi) +b) +ξi (4) ) -i=1lαi (5) (ε- (yi-diΔxi) + (w (xi-Δxi) +b) +ξi (5) ) -i=1lαi (6) (ε+ (yi+diΔxi) - (w (xi+Δxi) +b) +ξi (6) ) -i=1lk=16 (ηi (k) ξi (k) ) (5)

其中, α (k) i, η (k) i (k=1, 2, …, 6) 是Lagrange乘子, 满足α (k) i, η (k) i≥0 (k=1, 2, …, 6) 。分别对b, w, ξ (k) (k=1, 2, …, 6) 求偏导并令它们为0, 可得:

bL=i=1l (-αi (1) +αi (2) -αi (3) +αi (4) -αi (5) +αi (6) ) =0 (6) wL=w-i=1lαi (1) xi+i=1lαi (2) xi-i=1lαi (3) (xi+Δxi) +i=1lαi (4) (xi+Δxi) -i=1lαi (5) (xi-Δxi) +i=1lαi (6) (xi-Δxi) =0 (7) ξ (k) L=C-αi (k) -ηi (k) =0 (8)

将式 (6) 、式 (7) 、式 (8) 代入式 (4) 并求极大即可得到对偶问题:

minα (k) R6l-12 (i=1lαi (1) xi-i=1lαi (2) xi+i=1lαi (3) (xi+Δxi) -i=1lαi (4) (xi+Δxi) +i=1lαi (5) (xi-Δxi) -i=1lαi (6) (xi-Δxi) ) (i=1lαi (1) xi-i=1lαi (2) xi+i=1lαi (3) (xi+Δxi) -i=1lαi (4) (xi+Δxi) +i=1lαi (5) (xi-Δxi) -i=1lαi (6) (xi-Δxi) ) +εi=1l (αi (1) +αi (2) +αi (3) +αi (4) +αi (5) +αi (6) ) -i=1lyi (αi (1) -αi (2) +αi (3) -αi (4) +αi (5) -αi (6) ) -i=1ldiΔxi (αi (3) -αi (4) -αi (5) +αi (6) ) (9) s.t.i=1l (αi (1) -αi (2) +αi (3) -αi (4) +αi (5) -αi (6) ) =0, 0αi (k) C, k=1, , 6;i=1, , l

对式 (9) 写成矩阵的形式并引入核函数, 则式 (9) 可化为:

minαR6l-12αΗα+zα (10)

对上式中的向量, 分几个层次加以说明。

首先, 对于α,

α=[α (1) ;α (2) ;α (3) ;α (4) ;α (5) ;α (6) ],

α (k) =[α (k) 1, …, α (k) l]T, k=1, …, 6;

其次, 对于z,

z=[ε-y;ε+y;ε-y+DΔx;ε+y-DΔx;ε-y-DΔx;ε+y+DΔx]T

y=[y1, …yl]T, DΔx=[d1Δx1, …, dlΔxl]T;

最后, 对于矩阵H, 由于H是一个墩称矩阵, 只对其上三角部分进行说明:

Η=[Η1-Η1Η2-Η2Η3-Η3Η1-Η2Η2-Η3Η3Η4-Η4Η5-Η5Η4-Η5Η5Η6-Η6Η6]

其中,

Η1=[Κ (x1, x1) Κ (x1, xl) Κ (xl, x1) Κ (xl, xl) ]Η2=[Κ (x1, x1+Δx1) Κ (x1, xl+Δxl) Κ (xl, x1+Δx1) Κ (xl, xl+Δxl) ]Η3=[Κ (x1, x1-Δx1) Κ (x1, xl-Δxl) Κ (xl, x1-Δx1) Κ (xl, xl-Δxl) ]Η4=[Κ (x1+Δx1, x1+Δx1) Κ (x1+Δx1, xl+Δxl) Κ (xl+Δxl, x1+Δx1) (xl+Δxl, xl+Δxl) ]Η5=[Κ (x1+Δx1, x1-Δx1) Κ (x1+Δx1, xl-Δxl) Κ (xl+Δxl, x1-Δx1) Κ (xl+Δxl, xl-Δxl) ]Η6=[Κ (x1-Δx1, x1-Δx1) Κ (x1-Δx1, xl-Δxl) Κ (xl-Δxl, x1-Δx1) Κ (xl-Δxl, xl-Δxl) ]

如此, 就可以利用MATLAB中的优化工具包中的二次规划函数quadprog进行求解。有一点需要说明的是, 式 (4) 中的Δxi可根据样本点来调节, 本文取Δxi为固定的数值, 即Δxi=Δx.

综上所述, 可以得出以下构建GE-SVR的算法:

基于梯度信息的SVR (GE-SVR) 算法

第一步:给定训练集T={ (x1, y1) , …, (xl, yl) }∈ (χ×γ) l, 其中, xiχ=Rn, yiγ=R, i=1, …, l;

第二步:选择适当的参数εCΔx, 及核函数K (xi, xj ) ;

第三步:构造并求解最优化问题 (8) , 得到最优解α*=[α (1) *;α (2) *;α (3) *;α (4) *;α (5) *;α (6) *];

第四步:构造决策函数

f (x) =i=1l (αi (1) *-αi (2) *) Κ (xi, x) +i=1l (αi (3) *-αi (4) *) Κ (xi+Δx, x) +i=1l (αi (5) *-αi (6) *) Κ (xi-Δx, x) +b*

其中, b*按下列方式计算: b*=mean (y-[H1 -H1H2 -H2H3 -H3]α*) 。

算法第四步中的mean代表取向量元素的平均值, 这样做的目的是为了减少误差。

3 试验仿真

3.1 试验目的

验证本文提出的基于梯度信息的SVR (GE-SVR) 算法的可行性。由于充分利用样本点处的梯度信息, 本文提出的建模方法较于传统的SVR在相同少量样本的情况下达到更为理想的回归精度, 说明本文算法的有效性。

3.2 试验设计

试验1:取函数f (x) =sin (x) , x∈[-10, 10] (以下简称:函数1) 为基准函数, 等间隔产生6个训练样本点, 再用得到的样本分别对GE-SVR与SVR进行训练;然后每隔0.2产生验证样本, 并用所得样本点进行验证。

试验2:取函数f (x) =sin (x) x, x[-10, 10] (以下简称:函数2) 为基准函数, 等间隔产生6个训练样本点, 再用得到的样本分别对GE-SVR与SVR进行训练;然后每隔0.2产生验证样本, 并用所得样本点进行验证。

在以上两个试验中, 核函数取Gauss径向基核函数exp (-s-t22σ2) ;Δx的取值通过交叉验证的方法进行确定, 验证实验表明, Δx的取值过大或过小对回归的结果都有较大的影响。由于篇幅的限制, 本文并未对确定Δx的交叉验证实验给出具体过程, 而只给出验证得到的最优Δx.

3.3 试验结果与分析

实验1中, GE-SVR的参数设置为C=10, ε=0.001, Δx=0.1, Gauss径向基核函数的宽度参数取为:σ=1.2。有关参数的选择方法参见文献[18]和文献[19]。SVR的参数同样设置为C=10, ε=0.001, σ=1.2。回归的结果见图2和图3, 图中符号“*”为样本点, 实线为真实函数, 虚线为回归线。

同时, 本试验和下一个实验还从以下三个常用的度量准则对试验的回归结果进行定量比较 (本试验定量比较结果见表1) :

①最大绝对误差

MAE (Max AbsoluteError) =max|yi-y^|, i=1, , n

其中, n为样本容量。

②平均绝对误差

AAE (Average AbsoluteError) =i=1nerror|yi-y^|nerror

③均方根误差

RMSE (Root Mean SquareError) =i=1nerror (yi-y^) 2nerror

从图2、图3及表1可以看出, 在MAEAAERMSE三方面, 用GE-SVR回归都要优于用SVR回归。

实验2中, GE-SVR的参数设置为C=10, ε=0.001, σ=1.5, Δx=0.12。SVR的参数同样取为C=10, ε=0.001, σ=1.5。回归的结果见图4和图5, 图中符号“*”为样本点, 实线为真实函数, 虚线为回归线。定量比较见表2。

通过比较图4和图5可以明显地看出, 由于考虑了梯度信息, GE-SVR逼近程度大大高于传统SVR。另外, 通过表2的定量比较也可以看出在MAEAAERMSE三方面, GE-SVR的回归精度强于传统SVR的回归精度。这说明了在小样本的情况下, 可以加入梯度信息来增加回归的精度, 从而说明加入梯度信息的必要性以及本文算法的有效性。

4 结束语

在实际应用中, 要在得到样本点x处的响应 (或称f (x) ) 有时是很难操作的, 或者能够得到但费用却是巨大的。 本文提出的基于梯度信息的支持向量回归机 (GE-SVR) , 能在少量样本的情况下能达到较为理想的回归精度, 这对代价高昂的计算机试验设计来说无疑是非常有意义的。尽管本文提出的GE-SVR能够较大地改善回归精度, 但以下两个问题值得进一步研究:①除了利用梯度信息来改进回归精度, 是否还能找到其他更好的方法来补充或替代现有的方法。②除了引言中所提到的获取梯度信息的方法外, 寻求更多更好的求取梯度的办法仍然是一个值得研究的课题。

上一篇:合作组织下一篇:电影题材