估计预测

2024-06-26

估计预测(精选八篇)

估计预测 篇1

关键词:城乡收入差距,ARIMA,Auto-Regressive

1978年中国实行经济体制改革至今, 中国经济取得了举世瞩目的成绩。连续三十年经济增长的成绩是骄人的, 但城乡居民从整个经济增长中获得的收益严重不均等, 即城乡收入差距在扩大的问题也在激化。虽然中国农村实行家庭联产承包责任制的经济体制改革使农民的收入有了很大的提高, 但随着时间的推移, 其功效好像已发挥殆尽。随着“三农”问题的日益被关注和建设社会主义新农村构想的提出, 提高农民收入以缩小城乡收入差距成了建设和谐社会必须首先解决的问题。因此, 对中国城乡收入差距做出合理的预测很有必要的。

目前已有相关文献更多是分析收入差距与经济增长的关系、收入差距的影响因素等。但由于城乡差距的影响因素繁多, 并且因素之间也存在错综复杂的关系, 因此, 运用结构比例关系或因果模型预测收入差距的研究结果会有较大差异, 不具有说服力。如果选择模型的标准是追求预测精度的极大化, 最好选择时间序列模型, 因此, 本文试图通过城乡收入差距的时间序列模型做精度较高的短期预测。

一、模型的选取

1. 非平稳序列的确定性分析

1938年, H.Wold在他的博士论文“A Study in the Analysis of Stationary Time Series”中提出了著名的Wold分解定理, 即对于任何一个离散平稳过程{xt}, 它都可以分解为两个不相关的平稳序列之和, 其中一个为确定型的, 另一个为随机型的。随后, Cramer于1961年证明了这种分解思路同样可以用于非平稳序列, 即Cramer分解定理, 他说明任何一个时间序列{xt}都可以分解为确定性趋势成分和平稳的零均值误差成分。非平稳序列确定性因素分解通常包括长期趋势波动、季节性变化和随机波动。综合分析常用的模型有:加法模型、乘法模型、混合模型, 其中, Tt、St和It分别代表长期趋势波动、季节性变化和随机波动。对于季节变量经常采用这一方法进行分析, 但确定性分解方法只能提取强劲的确定性信息, 对随机信息浪费严重, 拟合的精度有时会不够理性。

2. ARIMA模型的基本原理

ARIMA模型是Box和Jenkins在1970提出的以随机理论为分析基础的时间序列分析方法。时间序列是以来时间t的一组随机变量, 构成该序列的数据虽然具有不确定性, 但整体观察却又有一定的规律性, 可以用模型近似描述。他有三种基本类型:自回归模型A R (p) 、移动平均模型M A (q) 和自回归移动平均模型ARMA (p, q) 。

P阶自回归AR (p) 形式 是, 其中εt为误差项。q阶移动平均MA (q) 模型形式为:, 两者结合是ARIMA (p, q) 。该模 型表明一个随机时间序列可以通过一个自回归和移动平均生成, 如果该序列是平稳的, 即它的行为不会随着时间的推移而变化, 那么我们就可通过该序列过去的行为预测未来, 这也正是随机时间序列模型的优势。该模型能很好的提取 确定性信息, 但是差分变换使模型缺乏直观的解释, 并且有时还会出现差分过度的情况而使拟合效果欠佳。

3. Auto-Regressive模型

该模型的思想是先通过确定性因素分解方法提取确定性信息, 考虑到确定性信息的提取可能不够充分, 再进一步检验残差的自相关性。如果检验结果显示残差序列自相关不显著, 说明确定性因素信息提取充分, 分析停止。如残差序列为高度自相关, 可以考虑对残差序列构造自回归模型。模型为:, 且。该模型从理论上避免了确定性因素分析 对随机因素浪费严重的问题和ARIMA模型能有效提取确定性和随机性因素但缺乏直观解释并且可能出现差分过度的缺点, 因而是一种有效的分析不平稳序列的方法。

本文下面的实证分析过程将采用三种方法分别进行分析, 并根据信息准则确定最优的模型, 然后再做出短期预测。

二、数据的搜集、模型构建与分析

本文采用中国城乡收入差距数据进行分析。该数据为1985~2007年中国城乡居民的人均纯收入之差, 用dinc表示。城乡居民人均纯收入来自于《新中国五十年统计资料汇编》和《中国统计年鉴2008》。

1. 城乡收入差距时间序列

通过观察中国城乡收入差距的时间序列我们发现:中国城乡收入差距在1985年到1990年一直保持在相对稳定的水平, 这是因为十一届三中全会以后随着中国经济体制改革的深入, 家庭联产承包责任制逐步在全国推开, 到1983年初全国农村已有93%的生产队实行了这种责任制。这种基于产权制度的农村经济体制改革极大的调动了农民的积极性, 适应了当时的生产力发展水平。所以城乡收入差距在城市和农村经济体制改革齐头并进的情况下能保持不变。但是随家庭联产承包责任制的功效日益发挥殆尽, 而城市经济体制改革仍然势头猛进, 从1991年开始城乡收入绝对差距开始逐年增大, 虽然期中有短暂的回落, 但趋势上一直是增大的。时序图给我们提供的信息非常明确, 中国城乡收入差距在1990年以前相对稳定, 但之后有明显的递增趋势, 所以它一定不是平稳序列。

2. 平稳化处理

为了使该不平稳序列更容易变换成平稳序列, 我们先对dinc序列取对数, 对数变换后的序列记作lndinc。对非平稳序列进行分析时可采用确定性分析和随机分析, 确定型分析相对比较简便但只能提取强劲的确定性信息, 并对随机信息浪费严重, 因此, 本文选用随机时序分析方法对这一非平稳序列进行分析。分析的第一步仍是通过有效手段提取序列中所蕴含的确定性信息, 确定性信息的提取方法如长期趋势模型、移动平均、指数平滑等诸多方法对确定性信息的提取都不够充分, Cox和Jenkins在Time Series Analysis Forecasting and Control一书中特别强调差分方法是一种简便、有效的确定性信息提取方法。而Cramer分解定理在理论上也保证了适当阶数的差分一定可以充分提取确定性信息。

前面已经观察其时序图确定其不平稳了。下面通过单位根ADF检验确定lndinc单整阶数从而确定适当的差分阶数。

从山东省农村居民人均收入时序图可以看出该序列具有明显的递增趋势, 可初步判断是非平稳时间序列。下面对该序列进行ADF检验, 用统计的方法判断其平稳性, 并判断其单整阶数, 检验结果见表1。

从以上的ADF检验结果可知lndinc的一阶差分序列检验类型为 (c, 0, 0) 时拒绝存在单位根的假设, 说明序列在一阶差分后平稳。从ADF检验结果可知lndinc的一阶差分序列检验类型为 (c, 0, 0) 时拒绝存在单位根的假设, 说明序列在一阶差分后平稳。

注:检验类型 (c, t, n) 中, c代表常数项, t代表趋势相, n代表滞后阶数, 滞后阶数由EVIEWS根据信息准则自动确定。

3. 模型识别

由于本文采用的是年数据, 通过序列的时间趋势图发现序列仅有时间趋势, 不存在季节因素, 因此放弃确定性因素分析方法, 直接转为第二中分析方法模型的拟合。

(1) 选择AR模型、MA模型还是ARMA模型。ARIMA模型拟合步骤:一是平稳性检验。先通过观察时序图初步判断是否平稳;二是观察序列自相关和偏自相关图进一步确定平稳性;三是检验平稳序列是否为白噪声, 如果为白噪声, 说明序列是随机没有规律的, 数据就没有分析的意义了;四是如果序列不是白噪声, 估计模型的阶数并根据信息准则 (AIC、SIC) 确定最终的模型形式;五是检验模型的有效性并进行预测。

前面我们已经根据趋势图和ADF单位根检验过程判断lndinc为一阶单整过程了。下面我们根据lndinc的一阶差分序列的自相关和偏自相关函数判断其模型的阶数。由于lndinc的自相关函数和偏自相关函数都在二倍标准差之内, 并且检验白噪声的Q统计量滞后6阶以后的P值都大于10%, 可以基本判定城乡收入差距对数的一阶差分序列为白噪声序列, 从而没有建立ARIMA模型的必要。分析原因可能是差分变换过分的提取了序列的确定性因素导致的。因此, 下面将转为用自回归模型 (Auto-Regression) 进行分析。

(2) Auto-Regressive自回归模型。自回归模型确定性因素的提取方法有两种:用时间趋势提取确定性因素;用变量的一阶滞后提取确定性因素。

模型一:用时间趋势提取确定性因素的回归结果如下:

调整的R2=0.918 DW=0.194, 括号中给出的为t值。

从t值看模型参数显著有效, 序列相关性检验如下, 检验结果显示残差序列高度自相关。为了充分提取信息, 我们需要对参差序列εt进行再次拟合。根据残差的自相关和偏自相关图判断εt为MA (2) , 所以模型的估计结果为:

AIC=14.88 SC=15.08, 式中为零均值白噪声序列。

模型二:用变量的滞后项提取确定性信息

调整的R2=0.996 DW=0.865

因为DW值很小, 同样可以判断存在高度自相关, 需要对其残差序列进行进一步拟合, 根据自相关和偏自相关图可以判定为ARMA (2, 1)

模型的最后结果为:

AIC=12.83 SC=13.03, 式中{αi}为零均值白噪声序列

根据信息准则可以判断模型二拟合的较好, 因此模型二为最优模型。Eviews3.0检验模型二的残差序列白噪声, 这说明模型二对数据的拟合是充分的, 残差序列中不再有任何可提取的信息了。

4. 预测

比较城乡收入差距实际值与通过模型二而得到的拟合值, 可以发现模型二对数据的拟合效果很好。因此, 可以用该模型对未来城乡收入差距数值进行预测。

从表3预测的数据可以发现城乡收入差距仍然在扩大, 但增加的速度维持在14.64%不变。说明促进农民增收, 缩小城乡收入差距仍是新农村建设的首要任务。

三、结论和政策建议

从上面的分析可以看出, 城乡收入差距在中国是很严重的, 对未来5年的预测值也表明城乡收入差距还将会继续扩大, 前提是在没有其他因素影响的情况下。因此, 本文研究给出的政策建议是国家应从对农业的财政支出、科技和农村金融等各方面对农村的经济发展给予支持, 以避免这种城乡收入差距进一步扩的现象发生;农民也要根据各地特色因地制宜的搞好农业生产, 通过走生态农业、有机农业和发展农业深加工、大力发展乡镇企业来实现增收, 从而缩小城乡收入差距以实现构建和谐的目标。

参考文献

[1]王燕:《应用时间序列分析》.北京:中国人民大学出版社, 2005

[2]李子奈潘文卿:《计量经济学》.北京:高等教育出版社, 2000

[3]姚耀军.《金融发展与城乡收入差距关系的经验分析》.《统计研究》, 2005.2

估计预测 篇2

利用预测滤波法估计小卫星姿态角速度

预测滤波法具有可直接处理线性或非线性模型、实时预测模型误差的`优点。结合小 卫星姿态运动学方程和预测滤波法,建立了简单的线性估计模型,实时估计姿态角速度,并 保证了估计的最优性。仿真结果表明,对姿态角速度的估计精度较高,鲁棒性好。

作 者:廖晖 周凤岐 周军 Liao Hui Zhou Fengqi Zhou Jun  作者单位:西北工业大学 航天工程学院, 刊 名:西北工业大学学报  ISTIC EI PKU英文刊名:JOURNAL OF NORTHWESTERN POLYTECHNICAL UNIVERSITY 年,卷(期):2001 19(1) 分类号:V448.2 关键词:预测滤波法   模型误差   姿态角速度估计  

估计预测 篇3

(上海海事大学物流工程学院,上海 201306)

0 引言

随着统计学理论的发展和计算机的出现,商业预测在企业战略决策中的作用越来越明显.本文通过对德国大陆汽车信息收集和业务开拓(Business Development and Marketing,BD&M)的预测业务进行分析后,发现其对中国汽车市场的短期预测不够准确.究其原因,该部门采用的汽车产量数据来自GI(Global Insight)数据库,结果适用于长期预测,在短期预测方面具有滞后性,缺乏一定的适应性.

支持向量机(Support Vector Machine,SVM)是基于统计学习理论发展起来的新兴的机器学习方法.基于结构风险最小化原则,SVM将最大化分类间隔的思想与基于核的方法结合在一起,表现出很好的泛化能力.SVM具有坚实的数学基础,并且可以很好地克服“维数灾难”和“过拟合”等传统算法所不可规避的问题,已被广泛应用在数据挖掘[1]、需求预测[2]等领域.鉴于SVM的原理和特征特别适合小样本,本文提出一种中国汽车月产量的优化核函数参数的改进SVM预测模型,并应用在德国大陆汽车公司轻型汽车电子市场价值估计中.

1 统计学习理论与SVM

1.1 统计学习理论

统计学习理论就是研究小样本统计估计和预测的理论,主要包括4个方面[3]:(1)经验风险最小化准则下统计学习一致性的条件;(2)在这些条件下关于统计学习方法推广性的界的结论;(3)在这些界的基础上建立的小样本归纳推理准则;(4)实现新准则的实际算法.其中,最有指导性的理论结果是推广性的界,与此相关的一个核心概念是VC维.VC维是为了研究学习过程一致收敛的速度和推广性而定义的有关函数集学习性能的指标.VC维反映函数集的学习能力,VC维越大则学习机器越复杂.统计学习理论系统地研究各种类型的函数集、经验风险与实际风险之间的关系,即推广性的界.关于两类分类问题,结论是:对指示函数集中的所有函数(包括使经验风险最小的函数),经验风险Remp(ω)和实际风险R(w)之间以至少1-η的概率满足

式中:h是函数集的VC维,l是训练样本数.这一结论从理论上说明学习机器的实际风险由经验风险和置信范围两部分组成,其中置信范围与学习机器的VC维及训练样本数有关.因此,在有限训练样本下,学习机器的VC维越高则置信范围越大,从而真实风险与经验风险之间可能的差别就越大.这就是出现过学习现象的原因.机器学习过程不但要使经验风险最小,还要控制学习机器的VC维以缩小置信范围,才能把实际风险控制在一个较低的水平,使学习模型对未知样本具有较好的推广性.

1.2 SVM回归

假定训练样本集为{(xi,yi),i=1,2,…,l},其中输入值xi∈Rn,yi∈R为对应的目标值,l为样本数.定义ε不敏感损失函数为

学习的目的是构造f(x),使其与目标值之间的距离小于ε,同时函数的VC维最小.这样对于未知样本x,可最优地估计出对应的目标值.因此,回归的最优化问题[3]为

式中:C为惩罚因子,C越大表示对超出ε的惩罚越大.根据最优化的充要条件可知,拉格朗日乘子与约束的乘积在最优点为零,由此最优化计算得到的αi和,取值必然是以下5种情形之一:(1)αi=0,=0;(2)0 < αi<C=0;(3)αi=0,0 <<C;(4)αi=C=0;(5)αi=0,=C.以上5种情形中,称(2)~(5)对应的xi为支持向量.非支持向量对ω没有贡献,只有支持向量对ω有贡献,即对估计函数f(x)有贡献,由此称对应的学习方法为SVM.在支持向量中,称(4)和(5)对应的xi为边界支持向量,是超出ε之外的数据点,称(2)和(3)对应的xi为标准支持向量,是落在ε上的数据点.因此,ε越大,支持向量数越少,但函数估计精度越低.

2 改进SVM预测模型

本文采用的数据从国务院发展研究中心信息网和国家统计局网站收集整理而得.中国汽车月产量包括乘用车和商用车两部分,国内生产和CKD(全散装件)都包括在内.具体数据见图1.

世界银行的报告显示,汽车产量与GDP密切相关.根据“GDP=总消费+总投资+净出口”这个公式,本文初步选定固定资产投资完成额、社会消费品零售总额、进出口总值和净出口额等4个因素作为自变量,所选数据为2005—2010年的月数据.

图1 2005—2010年中国汽车产量

2.1 数据处理

在对中国汽车月产量进行预测的4个自变量中,社会固定资产投资完成额与社会消费品零售总额有较大的相关性,去除前者,对剩下的数据进行回归预测.因数据结构的特殊,首先使用Excel中的Format Data To Libsvm宏将数据转换成可识别的形式,将预处理的文件保存为data.txt,然后使用线性函数转换对数据进行归一化处理,将归一化的数据分为训练数据train.txt和预测数据forcast.txt.

2.2 回归方法和核函数的选择

将SVM应用于回归方面,主要有VAPNIK提出的 ε-SVR 和 SCHOLKOPF 等提出的 v-SVR.ε-SVR通过事先确定ε来控制算法希望达到的精度,具有良好的可控性,相对于v-SVR而言模型也较简单,在有较好的参数选择方法时适宜选择ε-SVR方法.根据本文的数据及计算的实际要求,选择ε-SVR回归方法较好.由于RBF核函数具有一定的代表性,这里选用RBF核函数作为SVM的核函数.

2.3 核参数最优化方法

训练SVM时首先需要考虑两种参数:核参数γ和惩罚参数C.参数的选择并没有通用的先验知识,需要在一定范围内进行搜索以找到好的参数组合.目前,选取SVM参数最常用的方法是网格搜索法结合交叉验证法[4].

SVM机器学习方法就是根据分类规则

对下列优化问题

应用Lagrange乘子法得到的Wolfe对偶优化问题的最优解

训练一个SVM,求解

的最大化解α和b.通过最小化推广能力的估计值(通常采用测试错误率表示推广能力的估计),得到常数C和核函数固有参数.

参数选择可以归结为最小最大化问题:最大化式(7)并在解的基础上最小化推广能力的估计值,由此可以得到选择SVM参数的最优化方法.[5]

最优化方法选择参数的步骤:(1)为常数C和核函数固有参数赋初值;(2)最大化式Q(α),得到α和b;(3)更新常数C和核函数,最小化推广能力的估计值;(4)如果估计值满足要求结束运算,否则重复步骤(2).其中,步骤(3)中的推广能力是指学习机测试未知数据的分类性能,主要有留一法(利用错分类率评估分类性能)和支持向量计算法(利用支持向量数与训练样本总数之比评估分类性能).

从式(5)可知,惩罚因子C控制的是训练错误率与模型复杂度间的折中;从式(6)可知,惩罚因子C并没有出现在式(5)的Wolfe对偶式中,而是改变Lagrange系数的取值范围.因此,对于一个SVM,如果无限增大惩罚因子C,当SVM中没有边界支持向量时,C的改变不再影响分类性能.[6]

从式 K(xi,xj)=exp(-γ‖xi- xj‖2)可以看出,核参数γ相当于对样本间欧氏距离的归一化,判定特定空间中向量间的距离.另一方面,根据KKT互补条件的一个重要结果:对于j∈SV,

综上,选用支持向量与样本数的比例估计推广能力时,根据式(9)调整γ是合理的.并且该式对γ求导有

由此可得γ的调整规则为

2.4 训练集训练

将第2.3节生成的3个参数用于训练SVM模型.在得到训练模型后,用预测样本预测汽车月产量.汽车月产量预测结果分别为1 524 150,135 204,173 435,预测值与实际值的拟合曲线见图2.

图2 改进SVM预测结果与实际值拟合曲线

3 预测模型的应用

根据上述预测模型估计2010年3个月的中国轻型汽车电子市场容量,见图3.

首先通过与制造商和经销商沟通,结合网上查到的资料选出各车型的模型车及其所用的汽车电子产品,然后根据产品经理以及各事业部的报告获得各类电子产品的装车率,接着通过中国汽车产量预测模型计算出当月的汽车月产量;然后分别乘以各车型的比例,再乘上前两步的数据,得出总共需要的电子产品总量;最后通过战略分析、与各个事业部交流后得出每个电子产品的价格,乘以各自的总量后得到各车型的电子市场价值,最后求和得到中国轻型汽车电子市场的总价值.[7-9]

图3 中国轻型汽车电子市场容量计算

中国的轻型汽车主要包括乘用车和轻型商用车.乘用车根据汽车的轴距、排量、重量等参数可分为A,B,C和D型车,其中由于D型车属豪华型轿车,产量较少,这里不列入计算范围.首先,在确定好列入计算的车型后,对每种车型进行模型车的选择,A,B和C型车选取两种模型车,国内品牌和国外品牌的各一种,假设模型车的电子产品安装率和价格是其代表车型的平均水平,模型车的选择见图4.然后经过调查建立各模型车的电子产品类别和装车率表,同时根据市场分析和收集的数据得出各电子产品的价格,见表1.

图4 模型车的选择

再根据对2010年3个月汽车产量的预测,结合每类车型所占比例,参照每个电子产品的市场价格,计算出每个电子产品的容量,数据见表2.

最终估计结果见图5,其中每月编号1的数据为使用SVM预测的汽车月产量而得出的值,编号2的数据为使用GI数据库的汽车年产量除以12以后得到的值.对比结果可发现使用旧方法预测的值比新方法小,因为它的预测周期长(最新数据为2009年9月预测),没有充分考虑到中国汽车市场的迅速发展趋势,而且缺乏波动性.由此可见,在进行短期市场价值估计时,使用SVM回归方法获得汽车月产量数据的预测结果较好.

表1 各车型电子产品装车率及单位价格(部分)

表2 单个电子产品市场价值(部分)

图5 电子市场价值估计结果比较

4 结束语

以中国汽车月产量的预测作为研究对象,针对德国大陆汽车BD&M部门的业务流程中预测方法存在的缺陷,提出一种改进的SVM预测方法,对中国汽车月产量进行短期预测并应用于汽车电子市场的潜在价值估计,取得满意效果.然而,商业预测是一项复杂的系统工程,除了在预测方法上进行改进外,信息系统的构建、关键数据的定时收集也必不可少,除此之外还必须在组织机构上进行优化,使得各部门之间一些关键信息得到共享,减少不必要的沟通和协调工作.

[1]毛建洋.支持向量机在数据挖掘中的应用研究[D].上海:华东理工大学,2006.

[2]王颖,邵春福.基于支持向量机的公路货运量预测方法研究[J].物流技术与方法,2010(21):142-150.

[3]CRISTIANINI N.支持向量机导论[M].北京:机械工业出版社,2005.

[4]段凤娟,朱吉胜,王华建.支持向量机快速算法的实现技术[J].现代计算机:专业版,2008(09):57-58.

[5]邓乃扬,田英杰.数据挖掘中的新方法:支持向量机[M].北京:科学出版社,2004.

[6]王睿.关于支持向量机参数选择方法分析[J].重庆师范大学学报:自然科学版,2007,24(2):1-4.

[7]程远.我国分地区乘用车市场分析及预测[D].上海:上海交通大学,2007.

[8]赵海龙.中国汽车保有量预测建模及其应用研究[D].长沙:湖南大学,2009.

基于预测残差的配电网三相状态估计 篇4

近年来, 随着分布式电源 (Distributed Generation, DG) 在配电网中的大规模接入, 配电网的运行方式变得相对复杂化, 配电网实时运行与控制对基础数据的精确性提出了更高的要求。状态估计[1,2,3]能够为电力系统提供更为可靠的估计数据, 在输电网中取得了巨大成功。配电网状态估计[4,5]是对配电网进行进一步分析与控制[6,7]的基础, 是智能配电网态势感知的基础工具[8]。配电网与输电网相比有以下不同:网络呈辐射状, 且规模庞大;三相不平衡较为突出;量测中电流幅值量测和电压幅值量测偏多, 功率量测偏少;R/X比值较高。这些因素使得在输电网中已经应用成熟的状态估计算法不能完全适用于配电网, 并且配电网的上述特点也增加了状态估计的难度, 因此, 研究实用的配电网状态估计算法显得尤为必要。

目前很多学者对配电网状态估计已经进行了大量的研究, 取得了很好的效果。文献[9]最早研究了以节点电压为状态量, 利用各种量测的配电网三相状态估计, 但是计算量较大。鉴于配电网中电流幅值量测偏多和三相不平衡较为突出的特点, 以支路电流为状态量的配电网状态估计在计算规模和速度上相对于基于节点电压的方法有较好的优势。文献[10-16]都是以支路电流为状态量, 将各种量测转换为等效的电流量测进行状态估计, 从而使得雅可比矩阵恒定, 这种方法计算量小, 计算速度快, 但是等效电流转换要求有功无功成对出现, 并且也存在不可避免的转换误差。文献[16]提出了不经量测转换的基于支路电流的状态估计方法, 但是雅可比矩阵不再恒定, 计算量较大。以支路电流为状态量的方法有两个缺点, 一是当存在弱环时要考虑KVL约束, 增加了计算的复杂性, 二是对电压幅值的处理较为困难, 已有的处理方法[11,16]受限于根节点电压量测的精度。在状态估计器方面, 文献[17]研究了适用于配电网的状态估计器, 指出了WLS应用于配电网状态估计时较WLAV和SHGM法有一定的优势, 其实文献[9-16]都是采用的WLS估计器。随着分布式电源在配电网中的大量接入, 对配电网状态估计提出了新的要求, 文献[18-19]以负荷和分布式电源的有功功率为状态量, 设定一定的功率因数, 将潮流方程作为量测方程, 建立最小二乘模型, 利用混合粒子群优化算法求解状态变量。

本文以节点的电压幅值和相角为状态量, 能够直接利用功率量测和电压幅值量测, 利用迭代计算中的电流相角, 将电流幅值量测转换为等效电流实部量测和等效电流虚部量测后参与状态估计。通过对节点三相电压和支路三相电流的相位变换, 将节点三相电压和支路三相电流的相位转换到了同相的尺度上, 并基于配电网实际运行的特点, 实现了整个雅可比矩阵的常数化, 降低了计算量, 提高了计算速度。基于预测残差的信息设置抗差状态估计中量测的等价权, 避免了常规抗差算法对等价权不必要的多次迭代修正, 减少了迭代次数, 提高了计算速度。

1 配电网三相状态估计的模型

1.1 三相功率模型

以节点的电压幅值和相角为状态量时, 配电网支路型和注入型三相功率方程如下:

(1) 支路功率方程

(2) 节点功率方程

式中:i, j表示支路两端的节点号;p=a, b, c;k=a, b, c;Gipjk是i、j节点间p相和k相的互电导;Bijpk是i、j节点间p相和k相的互电纳;θijpk是i、j节点间p相和k相的相角差;Vi, p是节点i的p相电压幅值;Vj, k是节点j的k相电压幅值, j∈i表示与i直接相连的节点集合。

1.2 相位变换

令a=1/120o, A=diag (1, a, a2) , 将节点三相电压和支路电流作如下变换:

式中:Uia-o、Uib-o、Uci-o为配电网实际的节点三相电压;Iia-o、Iib-o、Iic-o为配电网实际的支路三相电流;Uia、Uib、Uic为变换后的节点三相电压, Iia、Iib、Iic为变换后的支路三相电流。变换后节点各相电压和支路各相电流不再相差120˚或-120˚, 但是式 (3) 的变换对三相功率没有影响。

电压、电流变换后配电网的三相节点导纳矩阵也相应作如下变换:

1.3 雅可比矩阵的常数化

配电网实际运行中支路功率不大, 节点各相电压均在额定值附近, 节点间同相相角差可以近似为0, 节点间与同节点的异相相角差在120º或-120º附近。经过式 (3) 变换后, 节点间、同节点的同相与异相间的相角差都近似为零, 所以有以下假设条件:

(1) 支路功率对应的雅可比矩阵元素

(2) 注入功率对应的雅可比矩阵元素

(3) 支路电流幅值对应的雅可比矩阵元素

由于电压幅值量测没有相角信息, 所以要利用迭代中的相角信息构造等效的电流实部和虚部量测。假定节点i与j间支路各相电流的方向为从节点i流向j, 经过转换的等效电流实部量测与电流虚部量测如下

式中:Iijpm为节点i与j间支路p相的实际电流幅值量测;ϕijpcal为上一次迭代后节点i与j间支路p相电流相角的计算值;Iijp, r为本次迭代采用的电流实部等效量测;Ipij, m为本次迭代采用的电流虚部等效量测。由于电流幅值量测没有相角信息, 所以状态估计经过若干次迭代后才利用等效的电流实部量测与电流虚部量测较为合适。

对应的雅可比矩阵元素如下:

(4) 电压幅值量测

2 抗差状态估计算法

2.1 M估计方法

经典的M估计方法[20]为

式中:m为量测量的个数;ri为残差的第i个分量;σi-1为量测的初始权重;li为量测方程的加权雅可比矩阵σi-1H的第i行。把量测量z构成的空间称为观测空间, li构成的空间称为结构空间。为了提高对结构空间的抗差能力, 改用以下M估计形式:

式 (12) 中v (li) 为结构信息, 在本文中v (li) 的取值为残差灵敏矩阵对应量测i的对角元。适当地选择ψ函数可使对状态变量的M估计具有较高的效率及较强的抗差能力。

2.2 用于M计算的等价权法

将式 (12) 变换为[21]

令称Q为等价权矩阵, 则式 (13) 可以整理成以下矩阵的形式:

电力系统的量测方程为

式中:z为量测向量;h (x) 为量测函数;在电力系统状态估计中为非线性函数, x为状态向量;v为量测误差向量。

令x (k) 为第k次迭代前系统的状态向量, Δx (k) 为第k次迭代后的状态变量修正向量, 则第k次迭代后系统的量测残差向量为

式中:r (k) 为量测残差向量;H (x (k) ) 为量测雅可比矩阵。考虑到状态变量修正前后雅可比矩阵的变化较小, 即

将式 (16) 、式 (17) 代入式 (14) 得

将式 (18) 整理成法方程的形式, 得到

由式 (19) 可见, 如果Q为单位矩阵, 那么式 (19) 就是普通的加权最小二乘状态估计。

3 基于预测残差的等价权函数设置

3.1 预测残差

预测残差[22]是针对某一个可疑数据集合, 先取一个最大残差者进行辨识, 即试验排除此不良数据, 预测整个残差的变化, 从而辨识出此数据是否是不良数据, 其优点是能够恢复受不良数据污染的正常量测数据。预测残差的公式为

式中:rw, j是量测j的加权残差;为删除量测i后量测j的加权残差;为量测i对应的残差灵敏矩阵的对角元;Ww, ji为残差灵敏矩阵j行i列的元素。

3.2 基于预测残差的等价权设置

首先根据一定的阈值, 将量测残差大于该阈值的量测设置为可疑量测集合, 那么可疑量测集合外的量测则认为是正常量测, 将等价权设置为1。对于可疑量测集合内的量测, 其等价权利用预测残差的信息进行设置, 这样就可以避免修改可疑量测集合内被坏量测污染的正常量测的等价权, 从而提高计算效率。针对可疑量测集合, 从以下三个步骤设置可疑量测的等价权。

第一步:删除可疑量测集合中的最大残差量测i, 预测可疑量测集合中其他量测残差的变化。

(1) 如果其余较多的可疑量测残差大幅度下降或者残差近似为0, 则认为量测i为坏数据, 将其等价权设置为0, 残差近似为0的量测认为是正常量测, 等价权设置为1, 对可疑量测重新排队。

(2) 如果其余较多的可疑量测残差下降但是下降幅度不明显, 则对其等价权不做处理, 由第三步的方法处理。

如果经过该步后可疑量测集合不为空, 则进行第二步。

第二步:对于可疑量测集合中的最大残差量测i, 在残差灵敏度矩阵第i行的非对角元中找出对其影响较大元素Ww, ik, 且对应Ww, ik的量测k残差较小, 按下式预测可疑量测集合中其余量测残差的变化:

(1) 如果较多的可疑量测残差大幅度下降或者恢复正常, 则量测k为坏数据, 设置权重为0;如果量测j的量测残差恢复正常, 则其权重为1。

(2) 如果较多的可疑量测残差下降但是下降幅度不明显, 则对其等价权不做处理, 由第三步的方法处理。

第三步:经过前两个步骤后, 如果可疑量测集合仍然不为空, 则按以下公式设置等价权。

式中:Ww, ii为残差灵敏矩阵中对应量测i的对角元;L为设定的阈值。

根据预测残差设置等价权避免了常规抗差状态估计算法通过迭代修改权重时不必要的计算, 兼顾了数值合理性和数值稳定性。其中第二步考虑了强相关量测、杠杆量测为坏数据时造成的残差淹没现象, 提高了抗差性能。

4 计算流程

本文提出的基于预测残差的抗差状态估计算法的计算流程如图1所示。

5 算例分析

为了检验本文提出的配电网状态估计算法的估计效果, 用IEEE36节点的配电系统数据进行测试, 系统结构如图2, 网络参数见文献[23]。表1、表2分别给出了量测配置情况和坏数据辨识情况, 表3给出了本文算法与常规抗差算法的比较情况。

注:Ww, i为残差灵敏矩阵的对角元。

在表2的算例中, 对节点5的C相有功、无功量测分别设置了较大的权重, 从而造成在残差灵敏度矩阵中其对角元接近于零, 在状态估计中成为了杠杆量测。对表2的结果进行分析可以看出, 本文算法的第二步的处理方法能够成功辨识出具有杠杆性质的坏量测。

对表3的结果进行分析可以看出, 当系统中存在坏数据时, 本文方法仍能够在迭代次数较少的情况下正确辨识出不良数据。

6 结论

估计预测 篇5

近年来, 风电作为可再生能源的重要组成部分和技术最成熟的新能源利用方式, 在电网中的渗透率急剧增长。由于风电出力固有的随机性和间歇性, 与传统负荷预测结果相比, 风电功率预测结果的误差较大, 这就必然会给电力系统调度与控制、安全与防御等各方面带来不利影响[1,2]。在目前国内外的研究中, 风电功率预测误差一般由历史上风电运行的实际数据与预测数据对比统计得到, 属于事后统计误差。实际上, 在事前 (如日前) 如果能估计出风电功率的预测误差, 将会有巨大的意义和作用。

近些年, 国内外在事前估计风电功率预测误差方面做了一些有价值的工作。文献[3]提出了一种基于风过程方法的风电功率预测误差估计方法。该方法根据风特性的不同, 对风进行分类, 估计风电功率预测误差。该方法需要对该地理区域的风过程特性进行详细的分析。文献[4]基于历史数据寻找日前预测数据的相似日, 通过聚类分析得到相似历史时段, 然后分析相似历史时段数据得到当前预测数据的偏差分布, 此方法需要大量的数据统计, 计算量较大。文献[5]认为预测误差与风速、风向和功率有关, 基于历史数据序列进行超短期风电功率预测, 建立了基于独立分量分析的条件概率模型, 用于计算预测结果的不确定性。文献[6]建立了量化风电出力预测不确定性的统计模型, 分别应用delta和bootstrap方法为神经网络预测建立了满足规定的置信水平的预测区间。文献[7]认为功率预测的不确定性与功率曲线的斜率和风速预测的历史平均误差成正相关, 对历史风速预测误差进行统计。该方法需要风电场的历史风速预测数据。文献[8]综合了基于多种预测方法的多个预测软件的预测结果, 通过分析不同预测软件的预测结果分布, 进行风电功率预测误差估计, 因此该方法要求有多种对应的预测软件。文献[9]针对每个风电场研究风电功率预测误差分布, 根据各个风电场之间的相关性建立风电功率预测误差的统计模型。该方法需要每个风电场的历史运行数据。文献[10-12]根据风电历史运行数据, 分别使用高斯分布模型、柯西分布模型、贝塔概率密度分布模型拟合风电功率历史预测误差, 然后估计未来预测结果的预测误差。但是他们忽略了风电运行的近期特性。

在影响风电功率预测误差的因素分析方面, 国内外也做了一些定性分析。文献[13]指出风电功率预测误差不仅与预测方法有关, 还与预测周期及预测地点的风速特性有关。文献[14]指出改善预测方法可以有效减小预测误差。文献[15]认为风电场出力预测误差大小随着预测周期和出力水平的不同存在较大的差异。文献[16]得出了预测模型和数值天气预报是风电功率预测误差的主要来源的结论。文献[17-20]指出风速预测误差不仅与预测方法有关, 还与预测周期、预测点风速和波动程度有关。文献[21]从物理角度进行分析, 认为风速主要受大气运动作用的影响, 预测周期越长, 大气运动变化越剧烈, 风速波动越大, 预测结果的准确度就会降低。

总体而言, 在估计风电功率预测误差方面, 现有方法大多集中在理论研究方面, 但将其应用于工程实践还存在一定的难度。本文提出一种基于数据特征提取的风电功率预测误差估计方法, 通过提取风电运行历史数据和风电预测数据的特征, 确定影响风电功率预测误差的各种因素并量化其权重系数, 建立风电功率预测误差的估计模型。与已有方法相比, 本文提出的方法所需数据来源可靠且容易获得, 具有较高的工程实用价值。

1 基于数据特征提取的风电功率预测误差估计整体思路

本文所提出的基于数据特征提取的风电功率预测误差估计方法, 主要通过分析风电运行历史数据和风电功率预测数据的具体特征, 估计其日前预测误差的范围。其流程图如图1所示, 具体分为如下几个步骤。

步骤1:分析影响风电功率预测误差的主要因素。对大量的风电运行历史数据进行统计分析, 通过各种因素与风电功率预测误差之间的相关性分析, 提炼出影响风电功率预测误差的主要因素, 包括:风电功率幅值、日前预测出力波动性、近期风电出力平稳性和预测方法。由于在实际工程系统中, 对于一组由风电功率预测系统提供的预测数据, 其预测周期一般是一个恒定值, 因此, 本文并没有分析风电功率预测周期对预测误差的影响, 当然也可以将其引入, 其分析思路可以在本文的基础上扩展。同时需要说明的是, 一些电网受限因素 (如弃风) 会使得实际风电功率数据与预测数据之间存在很大偏差, 从而影响本文的数据源, 即影响历史数据的统计误差。本文将这些受电网约束影响的数据源作为异常运行数据处理, 程序中会自动识别并尽量剔除。

步骤2:建立风电功率预测误差估计模型。通过统计风电历史运行数据, 提取风电功率数据特征, 量化步骤1中各个影响风电功率预测误差的主要因素, 其中, 日前预测出力的波动性用预测曲线的斜率表示, 近期风电出力平稳性用近期数据的标准方差表示, 同时, 用近期预测精度衡量预测方法对预测误差的影响, 并采用多元线性回归分析方法建立风电功率预测误差估计模型。

步骤3:在线和离线计算模块实现。为了减少程序的在线运行时间, 增加本方法的工程实用性, 将本方法解耦为离线计算和在线计算两个独立模块, 最终实现风电功率预测误差估计。

2 风电功率预测误差影响因素分析

本节利用具体数据, 对风电功率幅值、日前预测出力的波动性、近期风电出力平稳性和预测方法与风电功率预测误差的相关性进行了统计分析。数据来源为比利时电力运营商Elia公开的2013年9月的风电运行数据[22]。风电预测误差采用中国电力行业标准《风电功率预测功能规范》对风电功率预测误差计算方法的规定[23], 采用第j天的日前平均绝对误差EMAE, j衡量风电功率预测误差, 如式 (1) 所示。相关性程度采用皮尔逊相关系数定义, 用r表示, 如式 (2) 所示, -1≤r≤1, r=-1表示两者负线性相关, r=1表示两者正线性相关, r=0表示两者没有线性关系。

式中:PMi和分别为i时刻的实际风电功率及其平均值;PPi和分别为i时刻的预测风电功率及其平均值;Vcap为风电场的开机总容量;n为所有样本的个数。

2.1 预测出力波动性对预测误差的影响分析

风电功率日前预测出力的波动性反映的是预测日天气变化的波动程度, 日前预测出力的波动程度剧烈, 说明预测日天气变化多端, 此时的风电功率预测更加有难度, 风电功率预测误差就越大。本节的波动性用第j天的日前预测出力的标准方差Sj衡量, 如式 (3) 所示。

图2给出了预测出力波动值与平均绝对误差相关性统计图。可见, 风电功率平均绝对误差的变化趋势与波动值变化基本一致, 较大的风电功率标准方差对应较大的平均绝对误差, 两者的相关性系数为r=0.559 6, 表示两者具有一定正相关性。

2.2 近期风电出力波动性对预测误差的影响分析

近期风电出力波动性反映的是近几天风电功率变化的趋势, 近期风电出力的波动性越小, 说明近几天风速变化较缓和, 天气变化情况较为平稳。据此可推测, 次日风电功率也较为平缓, 因此预测难度相对较小, 风电功率预测误差就越小。第j天前的近R天风电出力的波动性用标准方差SRj衡量, 如式 (4) 所示。

式中:N=Rn, 为近R天的数据个数。

图3给出了近期风电出力波动性与平均绝对误差相关性统计图。统计结果表明, 两者的变化趋势基本吻合, 相关性系数为r=0.549 9, 说明两者具有一定的正相关性。

2.3 风电功率幅值对风电功率预测误差的影响分析

风电出力幅值与风电功率预测误差有关。风电出力幅值较大时, 任何因素的轻微波动都会引起风电功率较大的变化, 不确定性因素较多。因此, 当风电功率预测幅值较大时, 风电功率预测较为困难, 风电功率预测误差较大。风电功率幅值用样本的平均值表示, 如式 (5) 所示。

图4给出了平均幅值与平均绝对误差相关性统计图。统计结果表明, 两者的变化曲线基本一致, 较大的风电功率平均幅值对应较大的平均绝对误差, 两者的相关性系数为r=0.754 0, 说明两者具有较强的正相关性。

2.4 风电功率预测方法对风电功率预测误差的影响分析

预测方法对风电功率预测误差的影响是指该风电场风电预测方法本身的可靠性。通过分析统计近期风电功率预测精度, 可以得到该预测软件所使用的预测方法对近期风电预测的可靠性。如果近期风电功率预测精度较高, 说明该预测软件所使用的预测方法在近期表现良好, 预测的可靠性高, 则可以推断日前预测的可靠性也较高, 从而可知日前风电功率预测误差较小。风电功率近期预测精度用第j天前近R天的平均绝对误差表示, 如式 (6) 所示。

图5给出了风电功率近期预测精度与平均绝对误差相关性统计图。两者的相关性系数为r=0.436 2, 同样具有一定的正相关性。

3 建立风电功率预测误差估计模型

目前, 风电功率预测误差估计模型主要有3种:基于历史数据统计的预测误差估计模型[4,6,9]、基于数值天气预报的预测误差估计模型[3,5]、基于多种预测软件的预测误差估计模型[8]。

基于历史数据统计的预测误差估计模型计算量大, 在线程序耗时多, 而且忽略了风电近期特征对预测误差的影响。基于数值天气预报的预测误差估计模型需要详细的数值天气预报信息。基于多种预测软件的预测误差估计模型需要系统同时具有多种风电功率预测软件。这些估计模型虽具有一定的指导意义, 但在工程实践时却有一定的难度。本文在基于历史数据统计的预测误差估计模型的基础上, 考虑风电运行的近期特征, 建立基于数据特征提取的风电功率预测误差估计模型, 并解耦为离线计算和在线计算两大模块, 程序在线计算时间短, 数据源容易获得, 工程实用性相对较好。

3.1 离线计算模块

离线计算模块用于分析风电功率历史数据, 求解权重系数, 其流程图如图6所示。

统计风电运行历史数据 (例如, 一年) , 根据式 (1) 、式 (3) 至式 (6) 计算第j天日前预测出力的平均幅值、波动系数Sj、平均绝对误差EMAE, j及SRj, EMAE, Rj。

按照风电出力相近的原则, 对该地区数据按时间段进行划分, 并计算每个时间段上的平均绝对误差EMAE, k、平均幅值、波动系数Sk及SRj和EMAE, Rj。

利用多元二项式线性回归分析建立误差估计模型, 如式 (7) 所示。

令, 代入式 (1) 及式 (3) 至式 (6) 计算出统计数据, 利用MATLAB提供的函数[b, bint, r, rint, stats]=regress (Y, X, alpha) 计算β0, β1, β2, β3, β4及其置信区间, 并对回归模型做显著性检验。其中:alpha为给定的显著性水平, 本文中均取0.05, 即置信度为95%;b为回归系数的估计值;bint为各个回归系数的置信区间估计;[r, rint, stats]对回归模型做显著性检验。检验结果表明:在置信度95%下, 回归模型显著性成立。最终建立的误差估计模型如式 (8) 所示。

已知

则EMAE, k的置信区间[EminMAE, k, EmaxMAE, k]为:

3.2 在线计算模块

在线计算模块利用离线计算所求解的系数和建立的模型, 结合近期数据, 捕捉近期特征, 利用日前预测数据估计风电功率预测误差, 如图7所示。

已知预测日近R天的运行数据, 根据式 (4) 计算第j天前近R天波动系数SRj和近R天平均绝对预测误差EMAE, Rj。根据日前预测数据, 分析其各时段出力大小和波动程度, 出力大小相近、出力波动平稳的相邻时段划分为同一时段, 由于各时间段的数据较少, 不适合用标准方差衡量波动性, 此时更适合采用斜率形式计算每一时间段的波动性。第k个时间段的波动系数和平均幅值的计算公式为:

式中:PPk, max和PPk, min分别为第k个时间段预测风电功率的最大值和最小值, 其对应的时间分别为tPk, max和tPk, min。

将所计算出的代入误差估计模型, 即式 (8) , 可得第k个时间段的估计误差EMAE, k。根据估计出的平均绝对误差, 估计风电功率实际出力的上限值PMk, max和下限值PMk, min:

式中:PPk为第k个时间段的预测风电功率。

综上所述, 根据日前预测出力估计出风电功率日前预测误差, 然后估计风电功率实际出力的上下限, 最终得到了风电功率出力估计区间。

4 算例与应用分析

4.1 算例分析

为了验证所提方法的有效性, 本文以比利时电力运营商Elia公开的2013年的风电运行数据为研究对象[22]。根据式 (1) 及式 (3) 至式 (6) 计算的值。将置信度设为95%, 然后利用函数[b, bint, r, rint, stats]=regress (Y, X, alpha) 计算式 (8) 中β0至β4的值及其对应的置信区间, 如表1所示。

根据上述离线计算的参数值, 本文估计了8月27日到8月31日连续5天的风电功率预测误差。以8月30日的风电功率日前预测误差估计为例, 其每个时间段上相应量的详细计算结果见附录A表A1。

图8给出了8月27日到8月31日连续5天的风电功率预测误差估计结果, 包括风电功率预测出力、实际出力、实际出力估计区间的上限值和下限值。从图中可以看出, 大部分风电出力的实际值都分布在估计区间内。并且, 不同时间段的日前预测出力的幅值和波动值不同, 对应的估计误差也不同, 幅值和波动性大的时间段对应较大的估计误差, 风电出力估计区间也较大。例如, 与8月29日相比, 8月31日的平均幅值较大, 波动性较剧烈, 此时的误差估计区间范围增大。

4.2 应用分析

本文所提出的风电功率预测误差估计方法同样适用于中国。为此, 以中国西北部某省的风电运行数据为例, 做了大量的算例分析以验证本方法的可行性, 图9给出了其中某天的估计结果。

由图9可知, 该省的风电功率预测误差较大, 对应的风电出力估计区间也较大。另外, 本文将所提出的方法在中国西北部某省的智能电网调度技术支持系统上开发了有关功能, 进行了初步的验证性应用。该模型在试运行的23天里, 每天有96个时间点, 对这23天的估计结果进行了统计分析, 统计结果表明:大约有85%的时间点的预测误差在该模型的估计区间内, 即本文所建立的误差估计模型包含实际误差的概率为85%左右。这与本文设定的置信度95%有所降低, 可能原因是估计模型所使用的数据源含有少量难以彻底清除的弃风、调峰等因素。该模型在中国西北部某省的智能电网调度系统的试运行界面见附录A图A1和图A2。其中, 附录A图A1给出了日前预测数据的波动系数图, 附录A图A2给出了日前预测误差的估计结果图。该应用系统根据风电功率预测误差的估计结果, 进一步确定系统的备用容量需求。在试运行期间, 所提方法的有效性得到了充分的验证。

5 结语

本文研究了基于数据特征提取的风电功率预测误差估计方法。通过大量的数据统计, 验证了影响风电功率预测误差的主要因素有:风电功率幅值、波动性、预测方法和预测周期。利用线性多元回归分析建立了风电功率预测误差估计模型, 并使用公开的风电运行数据验证了本模型的有效性, 同时还将该模型在中国西北部某省的智能调度系统中进行了示范性验证。本文所提出的风电功率预测误差估计方法既延续了风电功率历史变化规律, 又考虑了风电出力的近期表现。另外, 该方法具有在线计算强度低、数据来源可靠且容易获得的特点, 具有较高的工程实用价值。

附录见本刊网络版 (http://www.aeps-info.com/aeps/ch/index.aspx) 。

摘要:估计风电功率预测误差对电力系统的调度与控制、安全与防御等方面具有重要意义。从风电历史数据和日前预测数据特征提取的角度, 研究了日前风电功率预测误差的估计方法。首先, 提取并分析影响风电功率预测误差的主要因素, 包括风电出力波动程度、风电功率幅值、预测方法等, 并通过数据统计分析其相关性。然后, 结合风电历史运行数据, 采用多元线性回归方法建立风电功率预测误差的估计模型。最后, 基于比利时电力运营商Elia公开的风电场实际运行数据, 进行了仿真算例分析。所述方法也在中国西北部某省调度系统上应用于备用需求分析, 并实现了试运行。

估计预测 篇6

利率作为一个重要的经济变量, 其变化趋势是资产定价、套利、套期保值、风险管理、金融产品设计等投资决策中的重要元素, 也是预测总产出、通货膨胀率、远期利率、汇率这些宏观经济变量及中央银行制定货币政策的有效分析工具。利率期限结构是指某个时点不同期限的利率所连成的一条曲线。作为衍生产品定价、风险管理、套期与投机、资产组合管理的基准, 利率期限结构一直是资产定价领域中一个重点研究的课题。

Mcculloch (1971, 1975) 提出了二次样条法和三次样条法。为了消除三次样条法远期利率出现震荡问题, Vasieek和Fong (1982) 提出三次指数样条的贴现函数形式。Steeley (1991) 提出了B样条函数法。

虽然样条估计法十分有效, 具有曲线平滑等优良特性, 但其缺乏经济内涵, 是一种纯粹的曲线拟合技术。参数法用各种包含参数的函数形式来直接拟合利率期限结构, 具有参数数量少, 而且每个参数都有经济含义等优点。Nelson和Siegel通过二阶微分方程推导出Nelson-Siegel模型, 用最小平方差法估计参数。Svensson对Nelson-Siegel模型进行扩展, 主要是在原有的远期利率模型上添加了一个指数函数项, 解决了Nelson-Siegel模型不能推导复杂的收益率曲线问题。

一、Nelson-Siegel模型和Nelson-Siegel-Svensson模型

Nelson-Siegel模型的瞬时远期利率公式为:

是即期计算的, 在未来时刻θ发生的瞬间远期利率。是根据方程需要的一个时间常数, 是待估计参数。

由即期利率与远期利率的关系:, 得到Nelson-Siegel模型的即期利率:

Svensson (1994) 在原模型的基础上引入一个新的参数β3:

由即期利率和远期利率的关系, 得到Svensson扩展模型的即期利率:

扩展后的模型在计算短期债券价格时灵活性显著增强, 拟合度也明显提高。Nelson-Siegel-Svensson扩展模型的优点在于:一是可以克服样条法的曲线尾部震荡等缺点;二是模型中的参数都有着明显的经济含义, 可以为利率趋势变化提供有用的信息;三是需要估计的参数相对较少, 在债券数量不多情况下这两种模型对利率曲线的拟合效果很好。

根据即期利率的表达式, 求得贴现因子:

从而对模型进行参数优化估计。实际上, 就是求以下目标函数的最小值:

Dur为债券的修正久期, 使得目标函数取最小值的参数组合就是所要求的参数估计值。

二、NS模型和NSS模型的实证研究及比较

本文以上海证券交易所2008年1月至2009年12月作为样本区间, 并以每周最后一个交易日作为研究对象, 共计102个交易日数据。实证分析需要对异常值进行判定和处理。根据2008—2009年我国活期存款利率为0.36%, 本文认为, 收盘到期收益率0.36%以下为异常值, 共38个点;剩余年限小于0.25年、收盘收益率大于3.5%明显高于邻近剩余年限到期收益率的国债也为异常点, 共25个点。剔除63个异常点后, 我们对其余的2499个交易国债样本进行实证分析。

本节采用2008年1月11日上海交易所上市交易的28只固定利率附息国债作为研究对象, 得出两种模型当天的利率期限结构图。

运算分别得出NS和NSS模型的参数和图形如图1。

从实证分析中, 可以得出NSS模型更加适合我国国债利率期限结构的拟合, 从图形效果上也可以看出NSS模型更具有优良拟合特性, NSS模型比NS模型更能反映曲线多峰形态。从图2可以看出, 国债利率期限结构都呈现出随着到期期限的增加而上升的趋势。本文拟合的利率期限结构曲线与流动性偏好假设理论是一致的。预期理论也可以对该利率曲线做出合理解释, 我国的目前经济环境使短期利率处于低位, 市场预期未来的短期利率将会上升, 从而使得利率期限结构曲线呈现上升趋势。利率期限结构曲线在远端趋向于稳定, 长期利率收敛的结果是与预期理论一致的。

对研究对象重复以上操作步骤, 获得NS和NSS模型参数数据, 绘制全样本三维图如图3、图4。

图3和图4是利用NS和NSS模型模拟102个样本点的利率期限结构三维图, 两个图形都有相似的拟合特征和形状, 但是NSS模型的三维图更能表现市场的实际情况。从图4中可以看出, 随着日期的增加, 国债即期利率总体呈现下降趋势, 这是和现实市场情况相符合的。由于2008年金融危机的爆发给全球经济带来极大的冲击, 使得我国实行宽松的货币政策和积极的财政政策刺激经济的复苏, 致使利率水平不断下降。在低利率水平的刺激下, 我国经济逐步复苏, 增加了各市场主体对货币资金的需求, 导致在样本区间的后期利率水平有小幅度的上升。不同期限的利率水平相关性较强, 大体呈现“同涨同跌”的现象。

本文通过六个方面指标的比较, 对不同模型在我国债券市场的实用情况进行比较分析, 以此得到适合我国国债市场的利率期限结构。这六个方面分别是:理论价格与实际交易价格的绝对误差、模型的目标函数最优值、均方根误差、均方根误差百分比、判定系数、模型的稳定性。得出NSS模型更加适合国债利率期限结构的估计。

因此, 无论是在理论上, 还是在实际拟合效果上, 现阶段NSS模型适合拟合国债利率期限结构曲线。

参考文献

[1]McCulloch.J.H.Measuring the Term Structure of Interest Rate[J].Journal of Business, 1971, (44) :19-31.

[2]McCulloch J.H.The Tax-Adjusted Yield Curve[J].Journal of Finance, 1975, (30) :811-830.

[3]Vasicek O.An Equilibrium Characterization of the Term Structure[J].Journal of Financial Economics, 1977, 5 (2) :177-188.

[4]Nelson.and Siegel.Parsimonious Modeling of Yield Curve[J].Journal of Business, 1987, (6) .

[5]Svensson, L.Estimating and Interpreting Forward Interest Rates[J].IMF Working paper.1994, (114) .

[6]朱世武, 陈健恒.交易所国债利率期限结构实证研究[J].金融研究, 2003, (10) :63-73.

估计预测 篇7

协方差阵在投资组合和风险管理中扮演着重要角色。随着计算技术的飞速发展与高频数据可获得性的提高,越来越多的学者对用实时交易数据(高频数据)估计组合协方差的方法进行了深入的研究。Andersen等(2003)[1]最早提出基于高频数据的“已实现协方差阵”(RCOV)估计量,该方法一经提出便得到广泛应用。但由于市场微观结构噪声或跳跃的影响,使得已实现协方差阵不再是资产协方差矩阵的无偏和一致估计量。为了剔除市场微观结构噪声的影响,Zhang(2011)[2]提出了双频已实现协方差阵(TSCOV),Barndorff-Nielsen等(2011)[3]提出了核光滑已实现协方差阵(KCOV),Christensen等(2010)[4]提出了预平均已实现协方差阵(PCOV)。为了剔除跳跃的影响,Barndorff-Nielsen和Shephard(2004)[5]提出了双幂次协方差阵(BPCOV),Boudt,Croux和Laurent(2011)[6]提出了加权已实现协方差阵(ROWCOV),Mancini和Reno(2009)[7]提出了门限协方差阵(thresholdCOV)。而Boudt和Zhang(2013)[8]提出的更为复杂的稳健双频已实现协方差阵(RTSCOV),则同时剔除了市场微观结构噪声和跳跃的影响。

对于高频协方差阵的预测,除了传统的GARCH模型外,越来越多的学者提出了不同的动态预测模型来提高预测精度。Chiriac和Voev(2011)[9]提出了基于矩阵的乔列斯基分解的ARFIMA(CF-ARFIMA)模型,Bonato等(2010)[10]提出了基于Wishart分布的自回归(WAR)模型,Lacroix(2011)[11]提出了基于矩阵对数变换的多元异质自回归(LOG-HAR)模型,Halbleib和Voev(2012)[12]将高频数据与低频数据相结合,提出了混合频率(MF)模型。

尽管对于高频协方差阵的估计和预测,都取得了一些成果,但对高频协方差阵的应用效果是否一定优于低频协方差阵?目前仍存在争议,Fleming等(2003)[13]、Hansen和Lunde(2006)[14]、Liu(2009)[15]、Patton(2011)[16]等对高频波动估计量的应用进行了研究,他们通过改进的波动估计方法和预测模型来估计和预测高频波动估计量,并将其与基于低频数据的GARCH类模型进行比较研究,发现包括高频数据信息的模型的预测效果更好,并且将其应用在投资组合时可以获得更多的收益。然而,上述研究都只是考虑了单一的高频波动估计量的应用。不同的高频协协方差阵估计方法在投资组合中的应用效果可能是不同的,在高频波动估计量日益被重视的情况下,相比统计特性较差的简单的协方差阵估计方法,更加复杂有效的高频协方差阵估计方法的应用效果是否更优,需要更加严谨的论证。

中国证券市场是新兴的指令驱动型证券市场,交易机制与国外成熟做市商市场存在较大差异,特别是离散报价,日内涨跌幅限制等制度使得高频价格序列与国外市场不同的特征。国内现有研究大部分是使用低频数据构造投资组合,高频数据在组合投资中的研究较少。在国内证券市场上,高频协方差阵是否优于低频协方差阵?而更加复杂、有效的高频协方差阵估计量是否优于简单的已实现协方差阵估计量?并且如何全面有效的评价改进的协方差阵估计量带给投资者的收益等?是值得深入研究的问题。

本文综合考虑协方差阵的估计以及预测模型的选择对协方差阵的预测和投资组合收益的影响。一方面从预测的角度,采用Hansen和Lunde等(2011)[17]提出的MCS检验法,来比较预测模型一定的情况下,不同的协方差阵估计方法的预测效果;以及高频协方差阵估计方法一定的情况下,不同预测模型的表现。另一方面从组合收益的角度,根据最优方差投资组合策略,采用MCS检验和年化效用函数来比较预测模型一定的情况下,协方差阵估计方法的选择对组合收益的影响;以及协方差阵一定的情况下,最优预测模型的选择对组合收益的影响。

2 高频协方差矩阵的估计和预测

为了全面考虑高频协方差阵的估计对协方差阵的预测和组合收益的影响,本节介绍四种不同的高频协方差阵估计方法和协方差阵预测模型。

2.1 高频协方差矩阵的估计

(1)已实现协方差阵

Andersen和Bollerslev最早提出了已实现协方差阵,当资产价格服从连续路径的It^o过程时,已实现协方差是组合协方差阵的一致估计,其基本形式为:

其中,Rj,t是第t日第j个交易时刻的收益向量。已有研究大多采用式(1)估计高频协方差矩阵,并用其计算组合权数。由于高频数据通常含有噪声和跳跃的成分,使RCOV是协方差的有偏且不一致估计量。

(2)核光滑已实现协方差阵

为消除市场微观结构噪声的影响,得到积分协方差阵的一致估计量,Barndorff-Nielsen和Hansen等提出一种多元核光滑协方差估计KCOV,第t日的多元核光滑协方差矩阵KCOVt的表达式为:

KCOV通过局部窗宽对协方差进行核光滑,减少了微观结构噪声的影响,得到协方差矩阵的一致估计。

(3)双幂次已实现协方差阵

金融资产的收益率在短期内可能会发生大幅度的波动,产生跳跃。为了剔除跳跃对高频协方差阵估计的影响,Barndorff-Nielsen和Shephard提出了双幂次协方差阵(RBPCOV)。令R(k),j,t、R(q),j,t分别为收益率向量Rj,t的第k和第q个元素,则双幂次已实现协方差阵的第k行q列的元素为:

当金融市场上只存在跳跃的影响时,RBPCOV估计量是积分协方差阵的一致估计量。

(4)稳健的双频已实现协方差阵

在现实的金融市场上,噪声和跳跃往往是同时存在的。Boudt和Zhang提出了稳健双频已实现协方差阵(RTSCOV)估计量对于RTSCOV估计量,其方差RTSRV和协方差RTSCV是分别估计的,具体如下:

RTSCOV估计量虽然计算起来较为复杂,但其同时考虑了噪声和跳跃的影响,提高了协方差阵的估计效率。

2.2 高频协方差矩阵的预测

(1)多元GARCH模型

多元GARCH模型是比较常用的协方差预测模型,Fleming和Kirby等(2003)[18]采用的指数加权GARCH模型,可以轻松的将高频数据的信息纳入到模型中。假定根据第t日的信息预测的第t+1日的高频协方差阵为预测的低频协方差阵为它们的表达式为:

其中,Yt是高频协方差阵,et=rt-ut.参数α控制着权重的衰减速度,我们期望αhf>αd,这是因为Yt确实比ete′t包含了更丰富的信息,应得到更高的权重。

(2)基于乔列斯基分解的CF-ARFIMA模型

Chiriac和Voev提出了长记忆ARFIMA模型,该模型首先对n维的协方差矩阵Yt进行乔列斯基分解,然后将其拉直得到向量Xt,即Xt=vech(Chol(Yt))。对Xt建立ARFIMA(1,d,1)模型,具体形式如下:

其中,D(L)=diag{(1-L)d1,…,(1-L)dm}(m=n(n+1)/2),d1,…,dm表示的是对m个元素的分整阶数。对高频协方差阵的乔列斯基因素建立ARFIMA模型,在没有参数限制的情况下,保证了预测结果的正定性。

(3)基于混合频率的MF模型

Halbleib和Voev提出了混合频率模型,该模型将高频数据与低频数据相结合,采用基于高频数据的模型来预测每日的已实现波动,采用基于低频数据的模型来预测资产间的相关性矩阵。模型的表达式如下:

其中,表示动态已实现波动,本文采用ARFIMA模型对其进行预测。表示的是动态相关性矩阵,采用DCC模型对其进行估计和预测,一方面充分考虑了前期信息的影响,另一方面有效降低了运算量,并保证了预测的协方差阵的正定性。该模型计算起来相对比较简便,尤其是当考虑的资产维度较高时,该模型的表现效果更优。

(4)基于矩阵的对数变换的LOG-HAR模型

Lacroix提出了多元异质自回归LOG-HAR模型。该模型首先对高频协方差阵Yt取对数,得到经过对数变换的矩阵At,然后将At的上三角矩阵拉直,得到一个m×1的向量Zt,m=n×(n+1)/2。则LOG-HAR模型的表达式为:

Z(1)t,Z(5)t,Z(22)t表示将基于每日、每周、每月的对数矩阵At的上三角矩阵拉直后得到的元素的平均,利用该模型便可预测元素Zt+1,进而得到At+1.则t+1时刻的高频协方差阵的预测值

3 比较标准

3.1 预测协方差阵的统计精度比较

为了考察估计方法及动态模型的选择对协方差阵预测效果的影响,本文以多元版本的均方根误差RMSE为损失函数,来对预测的协方差阵的统计精度进行比较。这里采用的RMSE是基于矩阵误差项的F-范数来计算的。矩阵的误差项的计算公式为:

其中,Ht+1是估计得到的t+1日的高频协方差阵。descr是用来描述特定预测模型的标,比如表示的是基于GARCH模型预测得到的高频协方差阵。

Hansen和Lunde提出了MCS检验方法,该方法克服了Hansen和Lunde(2005)[19]提出的SPA检验的缺点,它不需要选择基准模型,所有的模型都被平等的看待。计算出RMSE后,通过MCS检验来比较预测模型一定的情况下,协方差阵的估计方法对其预测效果的影响;以及估计方法一定的情况下,动态模型的选择对协方差预测效果的影响。

3.2 投资组合的构建及组合收益的比较

本文根据Voev(2007)[20]的研究,构造了条件均值方差最优投资组合策略。假定投资组合的权重是根据预测的协方差阵而进行每日更新的,即:

其中,wt+1|t是在t时刻选择的n×1的资产组合权重向量,l是n×1的单位向量,up是年化目标收益率。在后文的实证研究中通过改变up在某一取值范围内的取值来推导出均值方差的有效边界。通过构造投资组合来对不同的波动估计量或预测模型的经济收益进行比较,是近年来学者们最常采用的经济价值比较标准。

本文除了通过MCS检验来比较不同的协方差阵估计方法及预测模型的选择对组合收益的影响,而且还对不同的协方差阵估计方法构造的投资组合的效用进行了比较。选择的效用函数是De Pooter(2008)[21]采用的年化效用函数:

其中,Rpt表示的是资产的组合收益,γ表示的是风险厌恶系数。γ1和γ10代表对于风险厌恶系数分别为1和10的投资者。

4 实证研究

4.1 样本数据的处理

选取12支股票来做实证分析,它们分别是:中国石化、招商银行、中国莲通、上海汽车、中海发展、宝钢股份、皖通高速、平高电气、方正科技、青岛海尔、上海九百、同济科技。数据区间为2005年1月4日至2009年4月30日,所有数据均来自CSMAR数据库。剔除样本股票中交易缺失的数据后,12只股票都有交易的天数为748天。

将全部样本划分为估计和预测两个部分,其中,估计窗口长度T=548,预测窗口长度N=200,预测区间是从2008年5月10日至2009年4月30日。在估计和预测波动时,采用滚动时间窗方法。以交易策略为每日更新组合权数为例,计算方法为:将全部样本划分为估计和预测两个部分,其中,沽计窗口长度T=548,预测窗口长度N=200。第1次的样本区间为t=1,2,…,548,用该样本估记波动模型,预测第549天的波动,并计算该天组合中各资产的权数和组合收益。保持样本区间长度不变,将样本时间向前推移1天,得到第2次样本时间区间为t=2,3,…,549,重新估计波动模型,得到第550天的波动预测,用预测的波动计算组合权数和组合收益。重复以上步骤,直到t=201,202,…,748,计算第749天的权数和组合收益。这样,共得到200个投资组合的样本。

4.2 预测协方差阵的统计精度比较

前文主要介绍了四种协方差阵动态预测模型:GARCH模型,CF-ARFIMA模型,MF模型,LOG-HAR模型。对于CF-ARFIMA模型和MF模型,采用的是条件极大似然估计法来进行估计;对于LOG-HAR模型,采用的是OLS估计法对其进行估计;而对于GARCH模型,需要对其参数αd、αhf选择合适的值,一般而言,数据信息越翔实协方差阵的估计越准确,其对应的权重也应更高,因此αhf>αd,本文取αd=0.0137;将权重向量αhf=(0.1453,0.1735,0.1775,0.1937)′分别赋予高频协方差阵RCOV、BPCOV、KCOV和RTSCOV,理论上而言,RTSCOV同时剔除了噪声和跳跃的影响,估计效果更优,因此赋予的权重最高。

根据前文的比较标准,表1给出了不同的高频协方差阵估计方法和动态预测模型的比较结果。表1中预测模型对应的每行数字,分别表示的是对应不同的模型预测得到的不同协方差阵的RMSE。采用GARCH模预测高频协方差阵RCOV、BPCOV、KCOV、RTSCOV时,所得的RMSE分别为2.731、1.842、1.176、1.052,而基于低频数据的协方差阵的RMSE为9.056,可见从低频数据切换到高频数据来估计资产的协方差阵时,其RMSE大幅降低了,预测结果的统计精度得到了显著的提高,获得了最高的预测收益。

注:*和**分别表示的是属于模型的置信集的高频协方差阵和预测模型,显著性水平为5%.

RMSE下方的括号内成对的数字则表示的是MCS检验的p值,括号中的第一项表示的是在预测模型给定的情况下,不同协方差阵估计量的比较;第二项表示的是在高频协方差阵估计方法相同的情况下,不同的动态预测模型的比较。*和**分别表示高频协方差阵和动态预测模型,是属于显著性水平为5%的模型的置信集内的。以动态GARCH模型预测的高频协方差阵KCOV为例,其对应的括号内的第一项0.285*,表示的是在预测模型不变的情况下,KCOV是较好的波动估计量,属于MCS检验的置信集合内;括号内的第二项为0.021,表示的是在协方差阵估计量为KCOV不变的情况下,GARCH模型不在MCS检验的置信集合内,其预测效果较差。

纵观表1可以发现,无论是对于哪种动态预测模型,简单的RCOV估计量都不在MCS检验的置信集合内;而对于较为复杂、有效的KCOV和RTSCOV估计量,无论采用哪种预测模型对其进行预测,它们都通过了MCS检验,是较好的高频协方差阵估计量;并且剔除了噪声和跳跃影响的RTSCOV的MCS检验的p值,要明显大于KCOV,说明较为复杂、精确的RTSCOV估计量的预测效果最好,这是因为MCS检验的p值越大,说明对于估计量的预测效果越好。预测模型的选择也会影响高频协方差阵的预测。由上表易见,无论对于何种高频协方差阵估计方法,动态GARCH模型的预测效果最差。而LOG-HAR模型和MF模型始终都在MCS检验的置信集合内,是较好的动态预测模型,并且MF模型的p值要大于LOG-HAR模型,说明基于混合频率的MF模型是最好的动态预测模型,采用该模型对高频协方差阵进行预测使得预测精度得到了提高。

4.3 协方差阵的估计及预测模型的选择对组合收益的影响

本文采用前文所构造的投资组合,来比较估计方法及动态模型的选择对组合收益的影响。表2给出了基于全局最小方差投资组合的标准差,并采用MCS方法来检验不同的协方差阵和动态模型差异的显著性。其结果与表1相似,简而言之,相较于低频数据,基于高频数据的协方差阵估计方法使得组合收益的标准差大幅减小,获得了较高的预测收益。并且通过MCS检验,发现无论选择什么样的动态预测模型,由更加复杂、有效的RTSCOV估计量构造的投资组合更优,获得了更高的预测收益;而且组合收益是与预测模型的选择密切相关的,基于混合频率的MF模型仍然是最优的动态预测模型,采用该动态模型对高频协方差阵进行预测,会得到更高的经济价值。

对于本文所考虑的投资组合,当目标收益率变化时,求解最优化问题即为追踪组合的有效边界,图1为基于不同的动态预测模型得到的投资组合的有效边界图。在GARCH模型图中,O to C(open to close)表示的是基于低频数据的协方差阵估计量,从图中不难发现在收益一定的情况下,基于高频数据的协方差阵构造的投资组合的方差,明显要小于基于低频数据的协方差阵的组合方差。而无论是对于何种预测模型,与高频已实现协方差阵RCOV估计量相比,考虑了跳跃影响的RBPCOV估计量和考虑了噪声影响的KCOV估计量,都给出了一个更低的最小方差投资组合;而同时考虑了噪声和跳跃影响的RTSCOV估计量具有最好的表现,在收益一定的情况下,其构造的投资组合的方差最小。该结果与表2中MCS检验结果相符,进一步说明了有效的RTSCOV估计量虽然计算较为复杂,但其在投资组合中的应用效果更优。采用该估计量有利于投资者对未来的投资风险进行预测,从而更加合理的分配资产的权重,获得更高的预测收益。

为了全面比较不同协方差阵构造的组合收益,本文还采用了前文所述的效用函数,对其年化收益率进行对比。由前文的研究知MF模型的预测效果最好,因此采用该模型来预测资产的协方差阵,表3给出了不同协方差阵构造的投资组合的效用比较,下表表示的是第二列协方差阵估计方法构造的组合相对于第一列的组合多获得的平均年化收益率。

由表3知:对于风险厌恶程度相对较低的投资者,较低频协方差阵估计量daily,高频协方差阵估计量RCOV获得的超额平均年化收益率为2.854个基点;较RCOV估计量,RBPCOV估计量获得的超额年化收益率为0.613;较RBPCOV估计量,KCOV估计量获得超额平均年华收益率为0.973基点;较KCOV估计量,RTSCOV估计量获得超额平均年化收益率为1.109个基点。并且对于风险厌恶程度相对较高的投资者,其获得的超额平均年化收益率要高于风险厌恶程度低的投资者。可见,将基于低频数据的协方差阵的估计方法转换为基于基于高频数据的协方差阵估计方法应用在投资组合时,获得了最高的收益;并且较为复杂、有效的高频协方差阵RBPCOV、KCOV、RTSCOV估计量应用在投资组合中,较简单的RCOV估计方法也获得了超额的收益。

5 结论

本文采用多种比较标准,综合考虑了协方差阵的估计以及预测模型的选择对协方差阵的预测和投资组合收益的影响,通过研究发现:

(1)采用高频数据来代替低频数据估计资产的协方差阵并对其进行预测时,一方面会使得协方差阵的预测精度得到显著提高,另一方面由高频协方差阵构造的投资组合的收益要明显高于低频协方差阵。从而说明了对国内证券市场的高频数据进行研究是非常必要的。

(2)对于高频协方差阵而言,在动态预测模型一定的情况下,同时考虑了噪声和跳跃影响的RTSCOV估计量具有最优的表现,获得了最高的组合收益。而无论是对于只考虑了噪声影响的KCOV估计量,还是对于只考虑了跳跃影响的RBPCOV估计量,其预测和应用效果都要明显高于简单的RCOV估计量。从而证实了复杂、有效的高频协方差阵估计方法代替简单的已实现协方差阵估计方法时,会进一步获得收益。

(3)预测模型的选择也会对协方差阵的预测和组合收益产生影响。多元GARCH模型已不再适用于高频协方差阵的预测,其预测效果明显劣于高频协方差阵预测模型。在协方差阵一定的情况下,基于混合频率的MF模型的预测效果最好,该模型除了容易估计、保证了协方差阵的正定性外,更重要的是使得高维度的协方差阵的预测更容易实现。

摘要:围绕复杂的估计方法是否有助于提高协方差阵的预测效果和组合收益进行研究。在预测模型一定的情况下,从统计精度和经济价值的角度对不同协方差阵估计量的预测效果进行了比较;同时在协方差阵一定的情况下,也对不同的预测模型进行了比较。研究发现同时考虑了噪声和跳跃影响的双频已实现协方差阵(RTSCOV)在所有比较标准下均具有最好的表现,并且较低频协方差阵而言,高频协方差阵应用在投资组合中会获得更高的收益。

估计预测 篇8

设有两个总体:第一班组全体工人和第二班组全体工人, 我们从两个总体中各抽取一个样本进行日产量检查。一班组抽30人, 二班组抽19人。经过对两个班组某天产量进行调查后算得, 一、二两个班组的样本平均数分别是70件和80件, 两班组的样本方差分别是102件和64.6件, 两个班组的平均抽样误差都是1.84件。在95.45%的把握度下, 对两个班组总体平均日产量推断的极限误差都是3.69件 (见表1) 。据此, 我们对两个班组总体平均日产量做如下推断结论。

一班组全体工人平均日产量位于[66.31, 73.69]之间的可能性是95.45%;二班组全体工人平均日产量位于[76.31, 83.69]之间的可能性是95.45%。

虽然两个班组的推断结论十分相近 (把握度和极限误差完全相同) , 但显然两种推断的质量是不一样的, 因为两个班组的样本平均数不一样。上述这种推断掩盖了两个班组平均日产量推断的精确度高低问题, 也未能反映两个推断的质量高低。本文试图就抽样推断中参数估计方面精确度的定义及计算提出个人看法, 以供抛砖引玉之用。

二、抽样推断精确度的定义及计算

(一) 精确度定义

我们知道测量的精度是指测量值与实际值的差异大小, 差异越小精度越高, 差异越大精度越小。抽样推断精确度的道理与此相同, 如果把样本统计量看作是测量值, 总体指标就是实际值, 则样本统计量与总体指标之间的距离 (抽样误差) 就是抽样推断的精确度 (绝对数精确度定义) 。按此定义, 可得精确度的计算公式如下:

绝对数精确度=|样本统计量-总体指标| (1)

(1) 式计算结果是绝对数, 因此又称之为绝对数精确度, 其实质是单次抽样误差。该定义用总体指标到样本统计量的距离表达推断精确程度, 使得其存在以下两方面的缺陷。一是计算结果越小越好, 有违我们的思维习惯。二是精确度的绝对数性质使得它在评价推断精度及推断质量中带有不可比性。在样本统计量不等的条件下, 同样绝对数精确度所代表的精确程度应该是不一样的。如表1数据所示, 两个班组的平均抽样误差一样, 我们假定两个班组的绝对数精确度也一样, 但直观来看两个班组抽样推断的精确程度应该是不一样的。在理论上, 样本统计量较小时, 我们容许较小的误差;样本统计量较大时, 我们容许较大的误差。这与购物称重的道理是一样的, 较重的物品我们允许较大的绝对误差 (几十公斤的货物我们可能允许1公斤的误差) , 较轻的物品我们允许较小的绝对误差 (几十克的物品我们可能只允许1克的误差) 。按此道理, 我们直观上就可得到二班组推断精确度高于一班组的结论, 因为二班组的样本平均数较高。

因为以上两个理由, 我们认为用绝对数精确度表达抽样推断精确程度的能力是有限的, 抽样推断的精确程度高低应该是相对于样本统计量而言的。要能准确评价抽样推断精确程度的高低只有相对数才可以做到, 因此精确度的计算及应用最好使用相对指标。

结合绝对数精确度定义及精确度是相对指标这两个要求, 我们把精确度定义为总体指标对样本统计量的接近程度 (相对数精确度定义) 。根据此定义, 我们得到属相对数的精确度公式如下:

相对数精确度=1-绝对数精确度/样本统计量 (2)

该定义用总体指标对样本统计量的接近程度表达精确程度, 总体指标离样本统计量越近 (绝对数精确度越小) , 精确度越大, 反之精确度越小。 (2) 式计算结果是个正指标, 数值越大越好, 符合我们的思维习惯。

相对数精确度的计算结果是一个小于等于1的实数。当绝对数精确度大于样本统计量的时候, 相对数精确度小于0, 表示抽样推断精确度非常差, 但其可能性非常小, 可以忽略不计;因此, 可以把相对数精确度的取值范围看作是0-1之间。

因为总体指标待估, 所以绝对数精确度不可计算, 最终相对数精确度也不可算。因为相对数精确度不可算, 所以我们只能把它看作是精确度 (后面所提到的精确度, 若无特别说明均指相对数精确度) 最基础的和最根本的定义。鉴于此, 我们需要在精确度定义的基础上进一步寻找具体可算的引申精确度。

(二) 点估计的精确度 (点精确度)

因为点估计的误差是不可算的, 因此我们只能用平均抽样误差代替绝对数精确度去计算点估计精确度 (简称点精确度) 。据此要求, 我们可得到以下公式:

点精确度=1-平均抽样误差/样本统计量 (3)

经计算, 上述两个班组抽样推断的点精确度分别是97.4% (1-1.84/70) 、97.7% (1-1.84/80) 。可见, 二班组抽样推断的精确度相对较高。

根据 (3) 式及精确度的基础定义, 我们可以引申出点精确度的定义如下:点精确度是总体指标对样本统计量的平均接近程度。所以, 点精确度又可以叫做平均精确度。

(三) 区间估计的精确度 (极限精确度)

在区间估计中, 在一定把握度下, 推断的区间越宽, 推断精度越低, 反之推断精度越大。可见区间推断中精确度的高低, 主要体现在区间的宽窄。区间的宽窄既与平均抽样误差有关, 更与极限误差有关。因此我们可以用极限误差代替绝对数精确度来计算精确度, 同时把该引申精确度称为极限精确度, 其计算公式如下:

极限精确度=1-极限误差/样本统计量 (4)

根据 (4) 式, 我们可以算到上述两个班组的极限精确度分别是94.73% (1-3.69/70) 、95.39% (1-3.69/80) 。显然, 二班组抽样推断的精确度较高 (与点精确度评价结果相同) 。

根据 (4) 式及精确度的基础定义, 我们可以引申出极限精确度的定义如下:极限精确度是在一定把握度下总体指标对样本统计量的最小接近程度。

如上述一班组的样本平均数是70件, 在95.45%的把握度下, 总体平均数位于[66.31, 73.69]之间, 是其中某个可能的数。当总体平均数刚好等于66.31件 (左限) 时, 总体平均数对样本平均数的精确度是94.73% (1-|66.31-70|/70) ;当总体平均数刚好是73.69件 (右限) 时, 总体平均数对样本平均数的精确度也是94.73% (1-|73.69-70|/70) ;当总体平均数是[66.31, 73.69]之间中间的任意一个数时, 其精确度都高于94.73%, 如当总体平均数等于69件时, 其精确度将达到98.57% (1-|69-70|/70) 。可见94.73% (极限精确度) 是95.45%的把握度下, 总体平均数对样本平均数70件的最小接近程度。

三、抽样推断中方差推断的精确度计算

在方差推断的点估计中, 因为没有平均抽样误差概念, 故无法计算点精确度。

在方差推断的区间估计中, 因为没有极限误差的概念, 故其精确度计算不能直接套用上述极限精确度公式计算。方差区间估计中的精确度 (简称方差精确度, 下同) 与上述极限精确度的意义是基本相同的, 就是总体方差离样本方差越近, 精确度越高, 反之精确度越低。由于方差区间估计中没有极限误差概念, 以及方差推断区间的两极与样本方差不成对称 (见表2, 把握度为95%) , 因而我们无法计算统一的最接近精确度。尽管如此, 在方差的区间估计中, 仍然存在左限的最小接近程度 (左限精确度) 和右限的最小接近程度 (右限精确度) 。其计算公式如下:

左 (右) 限精确度=1-|总体方差估计左 (右) 限-样本方差|/样本方差 (5)

如上述一班组的左限精确度是63.36% (1-|64.6-102|/102) , 右限精确度是19.28% (1-|184.3-102|/102) ;上述二班组的左限精确度是57.1%, 右限精确度是18.7%。计算结果表明, 一班组方差推断的精确度较高。

通过上述计算, 我们还可以看到方差推断的精确度普遍较低, 但在比较上还是带有一定的应用意义。

四、精确度在回归预测中的应用

回归分析 (包括时间数列自回归) 中的预测也有点预测和区间预测两种, 其预测同样涉及到精确度问题。点预测的精确度可套用点估计的相对数精确度公式计算;区间预测精确度可套用区间估计的极限精确度公式计算。其中的平均抽样误差可用估计标准误代替, 样本统计量用点预测值代替。

设有表3的产量及单位成本数据, 经相关分析认为它们存在线性关系。通过回归分析得到单位成本 (因变量, y) 与产量 (自变量, x) 的线性方程为y=13.46-0.05x。回归方程的判定系数是92.8%, 估计标准误是0.19元 (占因变量平均数10.17的1.9%) , 都说明了回归方程质量较高, 具有较高的应用意义。设有两种生产方案A、B, 两种方案的产量分别为50件和90件。在95.45%的把握度下, 两种生产方案下的单位成本区间预测分别是[10.58, 11.34]、[8.58, 9.34] (见表4) 。

根据前面公式我们可算到, 两生产方案点预测的精确度分别是98.27% (1-0.19/10.96) 和97.88% (1-0.19/8.96) , 两方案单位成本区间预测的极限精确度分别是96.53% (1-0.76/10.96) 和95.76% (1-0.76/8.96) 。后者的精确度稍差。

五、精确度的意义

第一, 精确度是评价抽样推断质量以及回归预测质量的重要指标。我们通过精确度的高低来评价抽样推断质量及回归预测质量的高低。在抽样推断及回归预测中, 精确度越高, 推断及预测的质量就越高, 反之推断及预测的质量就越低。精确度指标的计算, 能让我们在不同的推断方式 (点估计、区间估计) 下, 在不同的样本统计量及推断把握度下, 评价抽样推断质量的高低。在点估计中, 我们用点精确度反映推断精确度的大小及评价抽样推断质量。在区间估计中, 我们用极限精确度 (包括左、右限精确度) 反映推断精确度大小及评价抽样推断质量。

第二, 精确度可以用来完善抽样推断结论的表达。加上精确度叙述后, 我们可以对上述两个班组的推断结论作如下表达。一班组全体工人平均日产量位于[66.31, 73.69]之间的可能性是95.45%, 其精确度是94.73%;二班组全体工人平均日产量位于[66.31, 73.69]之间的可能性是95.45%, 其精确度是95.39%。加上精确度的叙述后, 抽样推断结论的表达将更加完善。

摘要:文章对抽样推断 (包括回归分析预测) 中精确度的定义及计算作了尝试性探索, 认为精确度是一个评价抽样推断质量高低的重要指标, 同时把精确度定义成一个数值越大越好的相对数, 还针对点估计、区间估计等不同推断方式计算了不同的精确度指标。

关键词:抽样推断,抽样估计,精确度,回归分析预测

参考文献

[1].全国统计专业资格考试用书编写委员会.统计基础理论及相关知识[M].中国统计出版社, 2005.

本文来自 360文秘网(www.360wenmi.com),转载请保留网址和出处

【估计预测】相关文章:

空间估计05-10

系数估计06-02

函数估计06-04

参数估计软件05-24

交通状态估计05-29

密度核估计05-30

《大数的估计》教案05-25

样本量估计05-16

运动一致性估计05-31

多普勒参数估计06-10

上一篇:权变理论管理会计下一篇:初中美术的欣赏教学