二元回归预测模型

2024-07-30

二元回归预测模型(精选十篇)

二元回归预测模型 篇1

随着援疆政策的实施以及“丝绸之路经济带”战略构想的提出,新疆经济的发展取得了巨大进步。自1994年2月新疆首家公司新宏信(今宏源证券)在深圳证券交易所挂牌交易以来,经过20多年的发展,新疆上市公司已达43家,总市值已超过7000多亿。新疆板块股市的表现可以从侧面反映新疆经济的发展状况,因此了解新疆板块股票价格走势情况,具有重要的现实意义。

在股票价格预测方面,有两种方法较为常用。一种是神经网络预测法,另一种是支持向量机。在神经网络预测方面,李响(2008年)利用神经网络对单个股票价格走势进行了预测。林倩瑜、冯少荣、张东站(2010年)把神经网络和模式识别两种方法相结合。刘海玥、白艳萍(2011年)把AR模型和神经网络相结合。薛佳佳(2012年)把灰色GM(1,1)模型和神经网络模型相结合。

在支持向量机预测方面,杨新斌、黄晓娟(2010年)利用支持向量机对股价预测进行仿真实验,实证结果表明支持向量机在预测精度上要优于神经网络。王晴(2010年)把自回归模型与支持向量机相结合。杨震(2012年)把统计学与支持向量机结合。龙真真、张正文(2014年)把SVM模型和支持向量机结合。李坤、谭梦羽(2014)将小波分解与支持向量机方法相结合。

Logit模型在社会学中应用较多,但也有学者开始把Logit模型应用到股市中。程海波(2009年)利用Logit模型对上市公司财务指标和超额收益率进行了研究,结果表明,以上市公司财务指标为变量,预测股票是否存在超额收益率具有良好的效果。易宁明、周文强、何鸣(2011年)运用Loigt模型检验了技术交易规则在中国股票市场上的有效性。

本文借鉴学者们的理论成果和方法,在构建二元Logit模型的基础上,利用上证综指大盘数据对新疆板块股票价格走势进行预测。以期为新疆上市公司以及投资者们在关注新疆股市时提供科学依据。

2 数据、变量及方法

2.1 样本概况

本研究所用数据来源于同花顺数据库,所用数据主要是上证综合指数收盘价、交易金额、交易总手、新疆板块43只股票收盘价,数据时间跨度是从2015年1月5号到5月29号,数据形式为每天每五分钟交易数据。

新疆总共有43家上市公司,第一产业有13家,占总行业的30.23%,第二产业有24家,占55.18%,第三产业6家,占13.95%,综合类一家,占2.33%。由此可知,新疆作为我国欠发达地区,经济的发展主要还是依靠第二产业和第一产业。

中国股市从2015年1月5号到5月29号,这段期间处于大牛市。其中上证综指收盘价从1月5号的3258.63一路飙升到5月29号的4607.93点。交易金额和交易总手也是大幅上涨。

2.2 变量选取及设定

本研究主要利用大盘数据预测新疆板块股票价格整体走势,为了衡量新疆板块股票价格的整体增降,我们选取了新疆43只股票每五分钟的最高价和最低价求其平均值,然后对43只股票每五分钟股价的平均值求其上四分位点,利用下一期上四分位点除以上一期上四分位点得到的值代表新疆板块整体股价的增与降,大于1代表新疆板块整体股价在增,小于等于1代表新疆板块整体股价在降,把增的记为1,降的记为0,使其成为二元变量,作为因变量,用Y表示。上证综指交易总手、交易交额、收盘价三个方面的数据分别滞后一阶、二阶和三阶,构造了9个自变量。其中交易总手滞后一阶、二阶和三阶用变量X11、X12、X13表示,交易金额滞后一阶、二阶和三阶用变量X21、X22、X23表示,收盘价滞后一阶、二阶和三阶用变量X31、X32、X33表示。每个自变量的取值小于下四分位点记为1,大于下四分位点小于上四分位点记为2,大于上四分位点记为3。

2.3 模型选择

Logit模型根据因变量的取值情况,可以大致分为两类,一类是二元Logit模型,另一类是多元Logit模型。本研究分析的是新疆板块股票的整体走势,升取值为1,降取值为0,满足了二元Logit回归模型的要求。二元Logit模型核心思想是要判断一种现象是否发生的概率大小。因变量可以取0或1,当取1时,就是对象发生的概率,取0时,也就是对象不发生的概率。

Logit模型的一般表达式为:

由上式可知回归方程的因变量是某个具体选择概率比的对数。Logit函数具有以下两个重要特点:第一个是当Xi的取值较小且逐步减小时,Pi趋近0的速度会越来越慢;反过来随着Xi的取值较大且逐步增大时,Pi接近1的速度也越来越慢。而当Xi取值中等且增加较快时,Pi的变化会比较快。Pi与Xi之间应呈非线性关系。第二个是Pi的变化始终在0和1之间。

3 实证分析

本文基于R软件,利用逐步回归法建立Logit回归模型,在模型中,不显著的自变量直接去除。最终模型回归结果如公式2所示:

其中模型的LR chi2统计量为86.67,模型的Psendo R2统计量为0.345,这说明本研究建立的模型统计是显著的。

(1)通过公式2可知,表示上证指数交易金额滞后一阶和滞后二阶的变量X21和X22对因变量Y的发生概率的影响是显著的,但回归系数符号相反,分别为-0.034和0.034。从数值来看,这说明交易金额滞后一阶和二阶对因变量Y的发生概率影响不大。表示上证综指收盘价滞后一阶和滞后二阶的变量X31和X32对因变量Y的发生概率的影响是显著的,但回归系数符号相反,分别为0.17和-0.18。从数值上看,上证综指收盘价对新疆股票价格的影响要大于交易金额。

(2)为了利用此模型对新疆板块股票价格进行预测,首先检验此模型预测的准确性。对训练样本进行准确率测度。训练样本数总共4974个,代表新疆整体股票上升的有4889,占总样本的98.27%,代表新疆整体股票下降的有185个,占样本总量的3.72%。最终预测结果显示,股票上升被误判为下降的有1089个,下降的被误判为上升的有93个,总误判率为23.76%。但是在股票投资中,以风险较小化的投资思想。投资者主要规避的看涨的股票反而降。通过以上可知,把股价降的判断为增的有93个,占总样本的1.86%,这说明此模型犯错几率较小。

(3)在测试样本中选取一个时间点,以此时间点为基准,往后每五分钟一个测试点,总共选取10个测试点。统计结果显示,处了第一个测试点被完全误判,其余测试点被误判的概率都小于50%。其中对第四个测试点(基准点下20分钟)预测的准确率最高,准确率为75%。

4 结束语

通过模型预测结果可知,本文所建立的二元Logit模型对新疆板块股票价格走势的预测精度达到了预期目的。

摘要:股票价格的走势会影响到上市公司未来的发展以及投资者决策。基于二元Logit回归模型,利用上证综指大盘数据预测新疆板块股票价格走势。实证结果表明:上证综指收盘价和交易金额对新疆板块股票价格的影响是显著的,并且利用所建立的Logit模型对新疆板块股票价格走势的预测较为准确。

关键词:新疆股市,上证综指,Logit回归模型

参考文献

[1]李响.基于BP神经网络的股价预测[J].大连海事大学学报,2008,(S1):114-116.

[2]林倩瑜,冯少荣,张东站.基于神经网络和模式匹配的股票预测研究[J].计算机技术与发展,2010,(05):17-20+25.

[3]刘海玥,白艳萍.时间序列模型和神经网络模型在股票预测中的分析[J].数学的实践与认识,2011,(04):14-19.

[4]薛佳佳.基于差值灰色RBF网络模型股票指数预测[J].统计与决策,2012,(22):77-79.

[5]杨新斌,黄晓娟.基于支持向量机的股票价格预测研究[J].计算机仿真,2010,(09):302-305.

[6]王晴.组合模型在股票价格预测中应用研究[J].计算机仿真,2010,(12):361-364.

[7]杨震.基于后效时间长度的股票价格预测[J].计算机仿真,2012,(02):378-381.

[8]龙真真,张正文.基于模糊核超球的快速分类算法在股票预测中的应用[J].计算机系统应用,2014,(01):197-201+148.

[9]李坤,谭梦羽.基于小波支持向量机回归的股票预测[J].统计与决策,2014,(06):32-36.

[10]程海波.股票投资价值的logit模型研究——对沪市A股制造行业的实证分析.[C].中国会计学会,2009:8.

二元回归预测模型 篇2

模型预测法是目前常用的`隧道围岩变形预测的方法之一.文章结合广梧高速公路茶林顶隧道工程实例,建立GM(1,1)灰色模型、GM(2,1)灰色模型和双曲函数回归模型分别对隧道围岩变形进行预测,并对各模型的预测情况进行对比分析.结果表明,不论是从短期还是从长期看,GM(1,1)灰色模型都体现了优越的模拟和预测效果,且建立预测模型时不需要大量的统计数据,可应用于工程实际.

作 者:夏才初 卞跃威 金磊 XIA Cai-chu BIAN Yue-wei JIN Lei 作者单位:同济大学地下建筑与工程系,上海,92;同济大学岩土及地下工程教育部重点实验室,上海,200092刊 名:西部交通科技英文刊名:WESTERN CHINA COMMUNICATIONS SCIENCE & TECHNOLOGY年,卷(期):“”(1)分类号:U452关键词:道路 围岩变形 灰色模型 回归分析 预测

二元回归预测模型 篇3

关键词 支持向量机;电力负荷预测;结构风险最小化;支持向量回归

一、引言

电力工业是国民经济的基础工业,为社会和经济的发展供能源和动力的巨大网络。系统内的可用发电容量,在正常运行条件下,应当在任何时候都能满足系统内负荷的要求。因此,对未来本电网内负荷变化的趋势与特点的预测,是一个电网调度部门和规划部门所必须具有的基本信息之一。电力负荷预测是指在充分考虑一些重要的系统运行特性、增容决策、自然条件和社会影响的条件下,研究或利用一套能系统地预测未来电力负荷的数学方法,在满足一定精度要求的前提下,确定某特定时刻的电力负荷数值。电力负荷预测中经常按时间期限进行分类,通常分为长期、中期、短期和超短期负荷预测。电力负荷预测的准确程度将直接影响到投资、网络布局和运行的合理性,因此,负荷预测在规划中显得尤其重要。然而,近年来由于电力供应不足造成的“电荒”事件屡屡大面积发生,说明当前的中、长期负荷预测研究与实际应用还有不小的差距,在这样的情况下,研究并提出更新、更有效的中长期负荷预测研究算法在当前的电力建设中具有非常重要的意义。

中长期负荷预测的传统算法主要包括弹性系数法、趋势外推法、时间序列法、回归预测法等。但存在着如模型的定阶、求解、识别困难、模型适应性不强、建模所需的数据量大以及预测精度不高等缺点。于是,一些专家和学者开始致力于中长期负荷预测现代算法的研究,主要包括灰色理论、优选组合、专家系统和神经网络等。支持向量机(Support vector machines,SVM)是在统计学习理论基础上发展起来的一种新的分类和回归的工具。通过结构风险最小化原理来提高泛化能力,较好的解决了小样本、非线性、高维数、局部极小点等实际问题,已在模式识别、信号处理函数逼近等领域得到了应用。本文将支持向量机回归的方法应用电力负荷的预测研究中。通过对我国北方某些城市电力负荷数据的分析,利用支持向量回归的理论,对该某城市2006-2010年电力负荷进行预测。预测结果显示,这种新的机器学习方法具有很好的效果。

二、支持向量机和支持向量回归的原理

经验风险最小化原则一直是统计模式识别等统计机器学习问题的基本思想,在此思想的指导下,主要解决如何更好地求取最小经验风险(训练误差最小)。支持向量机(SVM)是统计学习理论的一种通用学习方法,一种新的和很有潜力的数据分类和回归的工具。其基本思想为:首先通过非线性变换将输入空间变换到一个高维的特征空间,然后在这个特征空间中求取最优线性分类面使分类边界,即分类平面和最近点(支持向量)之问的距离最大,并且这种非线性变换是通过定义合适的核函数来实现,然后将SVM问题转化为一个二次规划问题,从而求解。支持向量回归方法避免了数据的欠拟合和过拟合,因此支持向量回归是一个更通用和更灵活的解决回归问题的工具。下面简要介绍可以用于时间序列预测的支持向量机回归的原理。

其中,通过非线性映射Φ函数被映射到高维空间。ξ,ξ*分别为在误差ε约束下|yi-[wTΦ(xi)+b]|<ε的训练误差的上限和下限。ε定义了ε不敏感代价函数( Insensitive Cost Function)的误差。当预测值在定义的误差ε内,代价函数为0;当预测值在定义的误差ε外时,代价函数为预测值与误差ε的差的幅值。常数C>0,它控制对超出误差的样本的惩罚的程度。

三、支持向量回归的电力负荷预测方法

(一)影响电力负荷变化的因素

用电分类用于说明国民经济各部门用电情况和变化规律,它是反映电气化的发展水平和趋势的指标,用于分析研究经济增长与电力生产增长、社会产品增长与电力消耗量增长的相互关系,是负荷预测和电力分配的依据。为适应我国经济结构的变化,并与国际惯例接轨,又将电力负荷按国民经济统计分类方法划分为第一产业主要是农业用电,第二产业主要是工业用电,第三产业除第一、二产业以外的其他事业,如商业、旅游业、金融业、餐饮业及房地产业等用电和居民生活用电。特别是在研究全国、电力系统或地区的电力规划时,目前广泛采用按产业划分电力负荷的分类方法。因此,影响一个地区的电力负荷变化的因素本文选取:第一产业产值、第二产业产值、第三产业产值以及该地区的人口数。

(二)用于负荷预测的SVM基本模型及算例分析

电力系统负荷主要由第一产业用电,第二产业用电,第三产业用电和居民生活用电构成。在经济学上,对第一、二、三产业用电负荷最具代表性的指标分别为第一产业、第二产业、第三产业的产值,而城市民用负荷可以用人口数量来代表。

由于衡量的指标各不相同,原始样本各个分量数值的数量级有很大的差异。因此,需要对神经网络的输入样本进行归一化处理。本文采用的规范化化公式如下:

表1是收集到的一些同类型城市的社会经济指标与全社会用电量的数据。将数据进行规范化处理后,输入支持向量机回归预测模型。用该模型进行电力负荷中长期预测,可以将需要预测的城市的第一产业产值、第二产业产值、第三产业产值以及该城市的人口数的预测值输入预测模型,结果如表2。

四、结束语

支持向量机算法是结构风险最小化准则的一种近似方法。当训练样本有限时它可以提供好的泛化能力,同时SVM的可以克服人工神经网络的主要不足,比如不像神经网络需要事先定义网络结构,不容易陷入局部极小值等。本文在对支持向量机回归方法进行研究的基础上将其应用于电力负荷中长期预测,结果效果好。SVM作为一种分类和回归的工具,具有很好的实际应用前景和深入研究的价值。

参考文献

[1]Corts C,Vapnik V.Support Vector Networks,Machine Learning,1995.20.

[2]张前进.基于支持向量机回归的电力负荷预测研究.航空计算技术,2006.4.

[3]张学工.关于统计学习理论与支持向量机[J].自动化学报,2000.1.

[4]潘锋,程浩忠.基于RBF核函数的SVM方法在短期电力负荷预测中的应用,供用电,2006.1.

[5]Vapnik V N.统计学习理论的本质,张学工,译.北京:清华大学出版社,2000.

[6]H.S.Hippert,C. E. Pedreira,and R.C. Souza. Neural networks for short-term load forecasting: a review and evaluation.EEE Transactions on Power Systems,2001,16(1):44-55.

二元回归预测模型 篇4

二、主要财务影响因素:

(一) 现金流量和偿债能力因素:

现金流动负债比率、资产现金回收率、每股经营现金流量、销售收到的现金比率都为有关现金流量的财务指标, 分别说明企业偿付能力、获现能力、支付股利能力和销售收取现金能力。指标的计算公式为现金流动负债比率=经营活动现金流量净额/流动负债、资产现金回收率=经营活动现金流量净额/资产总额、每股经营现金流量=经营活动现金流量净额/总股本、销售收到的现金比率=销售商品、提供劳务收到的现金/营业收入。

速动比率、流动比率、产权比率、资产负债率等可以较好的反应企业的偿债能力, 计算依据分别为:速动比率= (流动资产-存货) /流动负债、流动比率=流动资产/资产总额、产权比率负=负债总额/所有者权益总额*100%、资产负债率=负债总额/资产总额*100%。产权比率越低表明利益者就会担心资金无法收回, 但是指标太小也说明了企业不能有效发挥负债的杠杆作用。资产负债率与产权比率的联系紧密, 但它为正比率同时值越大说明企业获取资产的方式不是主要依靠权益而是负债筹资, 具体情况要具体分析。

(二) 盈利能力因素:

确定一个企业的盈利能力是否强弱通常不仅仅只是依赖财务报告中的利润表中显示的营业利润, 利润总额、净利润等几个数字, 而通常要看其实现的利润是如何而来, 费用与支出是如何而去的。销售净利润率、营业成本利用率分别用来衡量企业销售收入或者投入成本对于净利润或者利润总额的贡献, 而总资产收益率、净资产收益率则是从资产与投资的角度, 具有较强综合性。计算依据为:销售净利润率=净利润/营业收入*100%、营业成本利用率=利润总额/营业成本*100%、总资产收益率=息税前利润总额/总资产平均余额*100%、净资产收益率=净利润/净资产平均余额*100%。

(三) 发展能力和营业能力因素:

投资任何企业时, 不仅需要看其盈利能力, 同时必须衡量其未来的发展潜力, 总资产增长率、营业利润增长率、股东权益增长率反应企业的发展速度以及发展前景。这三个指标分别从资产、营业利润和股东权利的增长幅度来说明企业未来的经营规模扩张速度与利润的提升和企业未来的发展潜力。它们的计算方式具有共同点, 皆为其对应的本期的增加额与期初总额的比率, 比值正的越多则越好。反映企业营业能力的因素通常都是四种财务指标, 即总资产周转率、固定资产周转率、应收账款周转率、存货周转率。它们都是反映其流通周转情况对企业营业收入或者营业成本的影响, 一般情况下数字越小越好, 说明其变现的能力越强, 计算依据皆为营业收入或者营业成本与其平均余额的比值。

为了便于接下来的模型构建实验, 将每项财务指标按顺序进行编号, 如表所示。

三、制造业上市公司财务预警模型的构建

(一) 取样:

模型样本的选取:为了减少不同行业间行业因素对模型的正确性的影响, 本模型选取的样本为最近三年制造业ST公司与非ST公司2014年的财务报表。 (数据皆来自于巨潮咨询网)

(二) 指标筛选及其原因:

运用SPSS statistic17.0统计软件用异方差均值双侧T检验方法来对财务指标的显著性检验, 在显著性水平为95%下筛选出具有显著性的财务指标, 由表可知:偿债能力 (X1、X2、X3) 、现金流量 (X5、X7) 、营业能力 (X12) 、盈利能力 (X13、X14、X15) 、发展能力 (X19) 等财务指标的P值<0.05, 以上均可用来进行下一步财务预警模型分析的构建且指标的分布较为均匀。

(四) Logistic模型分析:

1、逻辑回归模型指标的筛选方法与主成分分析模型的方法一致, 只是检验其显著性水平为0.01, 同样为异方差的均值t检验方法, 则根据表1-3可知:符合条件的财务指标变量为 (X1、X3、X15、X19)

2、将筛选出的以上指标通过SPSSStatistic17.0软件进行逻辑回归模型分析, 采用enter的指标筛选方法, 结果如表所示:

由上表我们可得到该模型的表达式为:

上表为混淆矩阵可以用来判断财务预警模型优劣的方法, 它体现了预警识别率的高低, 本实验的二元逻辑回归模型的财务风险预警识别率为94.1%, 由此可知具有较好的预告和警示作用。

四、总结

在本篇论文中还有着些许不足, 在指标的选取时没有考虑到非财务因素对财务预警模型的影响, 加之选取的样本数据不够大, 仅仅只有34家, 虽然排除了不同行业的影响, 而t检验的条件是这些变量要服从正态分布, 还有显著性检验方法的选择不同从而财务指标的筛选也不一样, 这可能会对实验结果具有一定的影响。

摘要:随着我国金融行业、电子商务和互联网+行业等新兴行业的迅速而蓬勃的发展, 越来越多的实体企业经营压力加大, 许多实体经济开始走下坡路, 面临着不少的挑战与危机, 制造业企业当然也不例外, 同时国家的经济速度发展缓慢, 正趋于一种“新常态”的发展趋势, 所以为了加强实体经营尤其是制造业行业的发展, 基于这样一种经济环境, 本文主要是依据制造业上市公司的财务报表, 分析财务指标运用相应的方法来建立预警模型。

关键词:财务指标,异方差独立样本t检验,建立模型方法

参考文献

[1]黄扬.基于二项logistic回归的上市公司财务预警实证研究[J].中国商贸, 2015 (16)

[2]张雪慧.基于EVA和现金流的财务危机预警模型研究[J].河南科学, 2015年04期

二元回归预测模型 篇5

关键词:瓦斯灾害预测涌出量灰色线性回归组合模型未采掘煤层

中图分类号:TD712文献标识码:A文章编号:1674-098X(2011)05(c)-0036-01

1 目前的研究概况

我国矿井瓦斯涌出量预测主要应用的有矿山统计法和瓦斯含量预测法。瓦斯含量计算法对于尚未开采的煤层或已开采范围较小的煤层,只有较小范围实测的瓦斯含量数据,难以准确地预测深部开采水平的瓦斯涌出量。矿山统计法方法较为简单,但在预测精度方面不令人满意。基于此提出用灰色线性回归组合模型来预测瓦斯涌出量,取得了较好的效果。

2 灰色线性回归组合模型

灰色线性回归模型改善了原线性回归模型中没有指数增长趋势和灰色模型中没有线性因素的不足,更适合既有线性趋势又有指数增长趋势的序列。对于这样的序列,其建模过程如下。

设给定原始数据序列:

X(0)={x(0)(1),x(0)(2),x(0)(3),…,x(0)(n)},x(0)(k)≥0,k=1,2,…,n

为增加数列的光滑性,对X(0)做一次累加生成,有:

X(1)={x(1)(1),x(1)(2),x(1)(3),…,x(1)(n)其中x(1)(k)=,k=1,2,3,…,n。

由GM(1,1)可得到: (2.1)

用线性回归方程Y=aX+b及指数方程式Y=ae(x)的和来拟合累加生成序列x(1)(t),将生成的序列写成: (2.2)

为确定以上参数,设参数序列:

t=1,2,3,…n-1….…. …(2-3)

并设:

……………….(2-4)

上面两式的比为

,………… (2-5)

取不同的m可得到不同的,以它们的平均值作为v的估计值。

令,则(2-2)可写成:(2-6)

利用最小二乘法可求得C1,C2,C3的估计值。

则有,从而,这样就得到生成序列的预测值为:

………………………….(2-7)

3 灰色线性回归组合在矿井瓦斯涌出量中的应用

晓南矿2005年《矿井瓦斯和二氧化碳等级鉴定报告》显示相对瓦斯涌出量13.49m3/t,绝对涌出量56.85m3/min,属于高瓦斯矿井。应用灰色理论预测选用的原始数据序列,应该是等间距数列。本例中煤层底板标高的间隔并不相等,必须对原始数据进行初步处理。以垂深30m为间距,利用插值法求得不同深度的瓦斯涌出量。

如表1所示。

原始序列:X(0)=(11.97,12.14,12.20,12.55,12.89,13.18)

一次累加生成得:X(1)=(11.97,24.11,36.31,48.86,61.75,74.93)

对于m=1有:

所以:

对于m=2得:

对于m=3得:

如表2所示。

由表2可以看出,灰色线性回归组合模型在预测井田深部瓦斯涌出量中取得了较好的效果,既改善了线性回归预测模型中不能表达指数增长的缺陷,又弥补了灰色系统预测模型中不含线性因素的不足。

参考文献

[1]铁法煤业(集团)有限责任公司大兴矿,河南理工大学.大兴煤矿突出煤层瓦斯地质规律研究,2005.

[2]张子敏,张子戌.瓦斯地质理论与实践.吉林科学技术出版社,2005.

回归分析模型预测与研究 篇6

1 Excel数据回归分析模型

Excel作为便捷的数据分析应用软件,提供了多项功能来支持数据分析模型,主要提供了三类工具库,即模拟分析、规划求解和数据分析工具库。掌握各种数据分析模型的基本操作,灵活地运用它们,以便为数据进行深层次和适当分析提供科学的决策依据。只需为每一个数据分析工具提供数据和参数,该工具就会使用适当的统计或工程宏函数计算出相应的结果,并将结果显示在输出表格中,其中有些还能同时生成图表。

重点讨论回归分析模型,这种模型是利用两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,利用数理统计方法建立因变量与自变量之间的回归关系函数表达式,回归分析模型通过对一组观察值使用最小二乘法进行直线拟合来实现线性回归分析,其功能是分析单个因变量是如何受一个或多个自变量数据影响的。

回归分析模型有3个统计量,即总偏差平方和、残差平方和、回归平方和,其中总偏差平方和表示所有单个样本值与样本均值差的平方和,残差平方和表示回归数据与样本值差的平方和,回归平方和指的是相应回归值与样本均值差的平方和。回归分析过程中,预报变量的变化程度可以分解为由解释变量引起的变化程度与残差变量的变化程度之和,总偏差平方和相对稳定且残差平方和越小,则回归平方和就越大,此时模型的拟合效果就越好。对于多个不同的模型,还可以使用相关指数来表示回归效果,R的值越大,说明残差平方和越小,即模型拟合的效果越好。回归分析还可以使用工作表函数LINEST。

2 案例应用

首先预测温度与冰淇淋销售量的关系。EXCEL是一个功能强大的数据分析软件,可以使用EXCEL函数与数据分析模型进行回归预测,回归分析法是根据事物的因果关系对应的变量的预测方法,是定量预测方法的一种。

(1)制作如图1所示的气温与冰淇淋销售量的因果关系图。

(2)使用“数据/数据分析”命令,在打开“数据分析”对话框中选择“回归”项目;

(3)在“回归”对话框中使用Ctrl+Shift↓设置Y值输入区域$C$2:$C$62、X值输入区域$B$2:$B$62,勾选“标志”“置信度”“残差”等需要结果的项目;

(4)回归结果在新的工作表上生成图2,同时还可以生成残差图、线性拟合图以及正态概率图。

其中判定系数(Adjusted R Square)的取值范围为0到1,如果为1,则样本有很好的相关性,y的估计值与实际值之间没有差别。相反,如果判定系数为0,则回归公式不能用来预测y值。此时回归分析,Excel会计算每一点的y的估计值和实际值的平方差,这些平方差之和称为残差平方和。

再通过某店2016年1至6月每月销量额度预测7-12月的销量状况。

(1)先将这组数据使用回归分析方法,获取判定系数为0.918,根据回归分析方法的原则可知,此数据越接近1,预测的数据越可靠。

(2)根据某店2016年前6个月的数据制作折线图,如图3所示。

(3)添加线性趋势线,并勾选显示公式和R平方值,结果如图4所示,虚线表示的是趋势性。

(4)使用公式y=-1632.2x+41849预测7至12月的销售情况,也可以使用函数。在单元格C8输入公式=-1632.2*A8+41849,复制到单元格C13即可。

如果使用函数FORECAST,在单元格D8输入公式=IN T(FORECAST(A8,B$2:B7,A$2:A7)),复制到单元格D13。函数FORECAST的功能是通过已有值计算或预测未来值,这里的预测值是给定x值后求得的y值,然后通过线性回归来预测未来值,结果如图5所示,可以使用该函数来预测未来销售、库存需求或消费趋势等。

进一步介绍FORECAST函数的使用方法,其参数有3个,位置形同FORECAST(x,known_y's,known_x's)。当x为非数值型,则FORECAST返回错误值#VALUE!;当known_y's和known_x's为空或含有不同个数的数据点,函数FORECAST返回错误值#N/A;当known_x's的方差为零,则FORECAST返回错误值DIV/0!。函数FORECAST的计算公式为a+bx,其中x和y是样本平均值AVERAGE(known_x's)和AVERAGE(known_y's)。

3 结语

在大数据时代,各行业的数据科学管理和分析对未来发展非常重要,回归分析模型应用十分广泛,尤其是一元线性回归模型,当只研究两个变量之间的因果等相关关系时应用较多。

摘要:数据回归分析模型在数据的统计分析中具有极其重要的作用。基于此,阐述了回归分析模型的理论和特点,并通过案例在Excel平台上展现多个变量的因果关系,在拟合度较高的条件下预测未来数据发展趋势。

二元回归预测模型 篇7

材料的性能通常决定于材料的构成成分和加工工艺。作为设计及制作各种构件的依据, 材料的性能必须通过不同材料的标准试验方法测定。由于材料构成成分以及加工工艺的复杂性, 材料的性能会受到诸多因素的影响, 非线性强, 通常很难对其建立精确的数学模型或物理模型加以描述。而如果能建立起与材料性能相关的预测模型, 则可以实现优化加工工艺, 减少实验次数, 节约人力、物力和时间等目的。

Vapnik等提出的支持向量机 (Support Vector Machine, SVM) , 是一种新的机器学习方法[1]。SVM与神经网络类似, 都是学习型的机制, 但与神经网络不同的是:SVM是建立在统计学习理论的VC维理论和结构风险最小原理基础上的。SVM在解决小样本、非线性和高维模式识别问题中表现出许多特有的优势, 已成为继神经网络之后机器学习领域新的研究热点, 是分类、模式识别和回归预测领域的研究热门。

1 支持向量回归原理

当SVM应用于解决回归问题, 又被称为支持向量回归 (Support Vector Regression, SVR) 。

支持向量回归有许多优点, 如全局优化、学习速度快、能避免局部极小等, 已被广泛应用到预测和优化设计领域。

1.1 线性回归[2]

假如要所寻找的回归函数是线性函数:

对于训练样本 (x1, y1) , (x2, y2) , (x3, y3) … (xl, yl) , 以ε不敏感函数作为损失函数, 有:

在这里, 如果实际值和预测值之间的差别不超过事先给定的非负ε时, 则认为在该点的预测值损失为0。

如图1所示, 当样本点 (×) 处于两条虚线围成的管道中的时侯, 有最小的损失。

为了得到使得函数 (1) 的结构风险最小化的参数w和b, 可以引入因子ξ, ξ*以处理不满足 (1) 式的数据点。根据结构风险化准则, 线性回归可以转化为求解优化问题 (3) :

(3) 式中, C是一个正常数, 用来控制对超出误差ε的样本的惩罚程度。惩罚因子C越大, 则对错误的惩罚越重。构建拉格朗日方程:

代入 (4) 式, 可以得到二次规划问题:

这样, 支持向量机的回归问题就可以归结为二次规划问题 (6) 。

求解 (6) , 则可以求出拉格朗日乘子αi和αi*, 同时可以得到w:

于是可求得线性回归函数:

其中,

可用Karush-Kuhn-Tucker条件求得。

1.2 非线性回归[3]

对于非线性回归问题而言, 可以通过将原始变量空间X中的输入向量x经过一个非线性变换 (x→z=准 (x) ) 映射到高维特征空间F中, 将非线性回归问题转化为高维空间中的线性回归问题, 在变换后的高维空间中求其最优线性回归面。此时 (4) 式变为:

K (xi, xj) 是一个非负定对称函数, 称为核函数 (Kernel function) 。

经非线性变换后的二次规划问题变为求解如下问题:

回归决策函数变为:

其中:

1.3 核函数

支持向量机在处理回归问题时, 需要把低维空间X经非线性映射至高维特征空间F, 于是支持向量机引入了核函数K (x, y) [4]。核函数在支持向量机中起着非常重要的作用:选择适当的核函数, 将高维特征空间的内积运算转化为低维输入空间的核函数进行计算, 就能够巧妙地解决在高维特征空间中计算的“维数灾难”问题。

在实际应用中常用的核函数有:

高斯径向基函数 (Gauss Radial basis kernel function) :

2 基于支持向量回归的材料性能预测

2.1 基于SVR的Al-Cu-Mg-Ag合金抗拉强度及屈服强度性能预测[5]

所建的SVR预测模型, 以Al-Cu-Mg-Ag合金时效温度与时效时间为输入参数, 合金的抗拉强度、屈服强度为输出参数。实验数据共27组, 应用实验数据集中的25个样本进行建模训练, 将余下的两个样本, 第26和27组, 作为预测样本进行预测研究。表1对比了BP神经网络模型和SVR模型二者预测值的平均绝对误差 (MAE) 和平均绝对百分误差 (MAPE) 。结果显示, SVR预测模型对Al-Cu-Mg-Ag合金强度性能的预测非常有效, 其精确程度超过BP神经网络预测模型, 可以用于Al-Cu-Mg-Ag铝合金时效过程中工艺参数与性能的关系的预测和分析。

2.2 基于SVR的Zr-2合金的晶粒尺寸预测[6]

根据Zr-2合金晶粒尺寸在变形程度、变形温度、变形速率3个热工艺参数下的12组实测数据, 建立Zr-2合金的晶粒尺寸预测模型。研究将SVR模型的预测结果与模糊神经网络 (FNN) 预测模型的预测进行比较。

表2所示是不同工艺条件下Zr-2合金晶粒尺寸的FNN模型预测值、SVR模型预测值和实测值的比较。从表2中可以看到:SVR模型对12个样本的预测值的预测误差都在3%以内。数据表明:基于SVR的回归模型具备较强的识别能力, 模型对Zr-2合金的晶粒尺寸有较高的预测精度。数据还显示:FNN预测模型预测最大误差为18.48%, 最小为0.72%;SVR模型的最大误差最大值为2.81%, 最小接近0。这充分说明:SVR模型在预测Zr-2合金晶粒尺寸方面具有优于FNN模型能力, 是更为有效的优化Zr-2合金热加工工艺参数的工具。

表3给的是SVR预测模型与FNN预测模型的预测性能比较。统计结果显示:SVR预测模型的平均绝对误差和平均绝对百分误差 (MAE和MAPE) 分别为0.08μm和0.62%, 远小于FNN模型的1.13μm和8.66%。在拟合精度方面:FNN预测模型的复相关系数R2为0.603, 而SVR预测模型是0.977。这些数据有力的证明:SVR预测模型是比FNN模型更为优秀的Zr-2合金晶粒尺寸预测模型。

2.3 基于SVR的钨合金抗拉强度性能预测[7]

在所建立的SVR预测模型中, 钨含量和变形程度作为输入变量, 而钨合金的抗拉强度作为输出变量。12个样品选为训练样本, 6个样品作为验证样本。

表4列出了SVR预测模型和BPNN预测模型的泛化性能。从表4可以看出, 基于SVR预测模型的3个指标:平均绝对误差 (MAE) , 平均绝对百分误差 (MAPE) , 均方根误差 (RMSE) , 分别为:0.015, 2.21%, 0.021, 都小于基于BPNN预测模型的指标:MAE (0.018) , MAPE (2.75%) 和RMSE (0.026) 。结果表明, SVR预测模型的精确度足以满足需求, 能用于钨合金的抗拉强度的预测及优化钨合金加工工艺。

3 结束语

本文介绍了SVR的相关原理;利用基于SVR的材料性能预测模型, 对三不同材料的有关性能进行预测。研究实例显示:SVR预测模型具有良好的学习和泛化能力, 基于SVR的预测模型, 在材料性能的预测领域可以有很广泛的应用。

摘要:与材料性能相关的预测模型, 可以实现优化工艺, 减少试验次数, 节约研究时间和研究经费。本文介绍了支持向量回归原理, 并以3种材料为例, 介绍基于支持向量回归的预测模型对材料性能的预测。研究实例结果表明:支持向量回归预测模型具有良好的学习和泛化能力。研究者可以通过基于支持向量回归预测模型对各种材料的性能进行预测。

关键词:支持向量回归,材料性能,预测模型

参考文献

[1]邓乃扬, 田英杰.数据挖掘中的新方法-支持向量机[M].北京:科学出版社, 2004.

[2]Z.Lu, J.Sun.Non-Mercer hybrid kernel for linear programming support vector regression in nonlinear systems identification[J].Applied Soft Computing, 2009, 9 (1) :94-99.

[3]K.W.Lau, Q.H.Wu.Local prediction of non-linear time series using support vector regression[J].Pattern Recognition, 2008, 41 (5) :1539-1547.

[4]B.Schǒlkopf, A.J.Smola.Learning with kernels[M].1st edition.London:The MIT press, 2002:25-60.

[5]唐江凌, 蔡从中, 等.Al-Cu-Mg-Ag合金强度性能的支持向量回归预测[J].航空材料学报, 2012, 5:92-96.

[6]唐江凌, 蔡从中, 等.支持向量回归在Zr-2合金晶粒尺寸预测中的应用[J].材料热处理学报, 2013, 2:180-184.

二元回归预测模型 篇8

电力工业作为当今社会最重要的生产要素之一,是国民经济的支柱和基础,是经济建设的先行,对经济快速稳定发展和人民生活水平的不断提高具有不可替代的作用和影响,其发展水平是衡量一个国家经济发达程度的重要标志之一[1]。电力负荷预测是指在满足一定精度的条件下,在充分考虑电力负荷特性、经济、社会、气象等历史数据的基础上,探索电力负荷历史数据的变化规律,寻求电力负荷与各种相关因素之间的内在联系,从而预测出电力负荷在未来时期的变化趋势及状态[2]。负荷预测一项重要的决策支持技术,具有不确定性、条件性、时间性及多方案性,可以分为超短期、短期和中、长期负荷预测。中、长期负荷预测结果用于确定是否安装新机组及装机容量的大小,电网的增容和扩建以及电网的发展趋势与电力的安全生产,因此其准确程度将直接影响到投资、网络布局和运行的合理性与安全性。电力负荷预测既是电力系统规划的重要内容,也是电力规划的前提和基础,在电力系统规划和电网运行调度中发挥着重要的作用[3,4]。科学、准确的电力需求预测对电力工业的健康发展,乃至对整个国民经济的发展均有着十分重要的意义。

电力系统中长期负荷的变化受到很多因素制约,这种制约关系难以定性描述,针对负荷影响因素的复杂性和不确定性[5],即多变量和随机性特征,笔者将定量预测方法中多元线性回归分析应用于中、长期负荷预测。在多元线性回归分析中,随机变量是自变量,非随机变量是因变量。因变量一般是电力系统负荷,自变量是影响电力系统负荷的各种因素,如经济、人口、气候等,由给定的多组自变量和因变量资料研究二者之间的关系,形成回归方程。回归分析法方法简单、预测速度快、外推性好,对于历史上未出现的情况有较好的预测性[6],辅助电力负荷控制和预测,提供科学依据。

2 材料与方法

2.1 数据来源

原始数据来源于中国统计年鉴2009[7],见表1。

2.2 方法

多元线性回归是对未来的电力负荷进行定量预测的一种方法[8]。即通过对影响因子和用电量的历史数据进行分析,确定用电量和影响因子之间的关系,对给定的预测点x1、x2、…xn,求出对应预测点的预测值y和预测置信区间。回归分析法采用原始数据建模,适用于大样本。

多元线性回归的数学模型一般表示为:

y=β0+β1x1+β2x2++βnxn+ε

它表明被解释变量y的变化由两部分进行解释。第一,由n个解释变量x的变化引起的y的线性变化部分;第二,由其他随机因素引起的y的变化部分,ε为随机误差;β0为常数项,βi为偏回归系数,i=1,2,…,n。多元线性回归通过确定回归方程中的解释变量(自变量)和被解释变量(因变量)、确定回归模型、建立回归方程、对回归方程进行拟合优度检验和显著性检验、回归系数的显著性检验、残差分析等过程完成[9]。

2.3 数据处理

多元线性回归过程采用SPSS 13.0软件的相关分析模块进行处理[10,11]。

3 结果与分析

回归分析的引入或从模型中剔除的变量属性见表2。

表明回归方程以人口、GDP为自变量,以全社会用电量为因变量;采用全部入选法分析,2个被选择的自变量人口和GDP经过逐步回归过程进入回归方程,无被剔除的变量。

拟合过程小结见表3。

表明回归方程的复相关系数为0.988,复相关系数的平方为即多重判定系数为0.976,修正多重判定系数为0.971,回归方程的估计标准误差为1393.09156。依据该表可以进行拟合优度检验。参考修正多重判定系数,其拟合优度较高,说明全社会用电量的97.1%由GDP和人口决定。

回归方程显著F检验的方差分析见表4。

表明因变量全社会用电量的总离差平方和为872142395.594,回归平方和及均方分别为850794650.674和425397325.337,残差平方和及均方分别为21347744.920和1940704.084,F检验统计量的观测值为219.197,对应的概率P值为0.000。结果表明最终的回归方程应包括人口和GDP两个变量,且方程拟合效果很好。

回归系数的显著性检验见表5。

表5中依次为非标准化的偏回归系数、偏回归系数的标准误差、标准化偏回归系数、回归系数显著性检验中t检验统计量的观测值及对应的概率P值。GDP回归系数为0.093,P值为0.000,说明在回归方程中GDP变量的存在具有统计学意义。

得出回归方程为:全社会用电量=-42060.672+0.093×GDP+0.373×人口;由此回归方程通过GDP和人口即可进行全社会用电量的电力负荷定量预测,从而为电力负荷控制和预测提供科学依据。

如2010年我国GDP为397983亿元,2010年末全国总人口134100万人,全年全社会用电量41923亿千瓦时[12]。由上述回归方程将2010年我国GDP、总人口代入计算得到全社会用电量为44971亿千瓦时,与实际值41923亿千瓦时有统计学上误差,但并不降低得到的多元线性回归模型的有效性。

4 结论

经济的高速增长拉动了电力工业的迅猛发展。经济的增长并不必然带来电力消费的同速增长,但电力消费则是促进国内生产总值(GDP)增长的重要原因。以“电力先行”为指导原则,以GDP增长速度为依据,加强电力生产、安全生产和预测,规划建设充足的发电能力和输送能力,以满足社会各方面需求,不断适应社会经济快速发展的需要。从发展来看,电力负荷预测也是我国实现电力市场的必备条件。加强用电市场的分析和预测,辅助其经营计划的确定,制定合理科学的经营计划也是供电企业实现稳定、协调、经济与安全运作的关键。

应该注意到,准确的用电量预测必须建立在准确的GDP、人口增长预测上,文中数据来源中国统计年鉴2009。由于国内外经济大环境的变动会影响国家GDP预测数据的准确性,比如国际金融危机可能导致我国GDP增速度明显放缓;同时,考虑到历年的GDP指标摘录自统计局发布的统计数据,而统计部门往往会按照某一年度价进行重新核算和发布。以上因素将影响到预测的准确性,也给本模型带来误差。但影响因素并不降低得到的多元线性回归模型的有效性。作为电网规划中负荷预测的滚动修正,能够为未来电网规划提供依据。

摘要:电力负荷预测是电力系统规划和电网运行的重要内容、前提和基础。科学、准确的电力需求预测对电力工业的健康发展,乃至对整个国民经济的发展均有着十分重要的意义。针对我国1995年至2008年人口、GDP和全社会用电量的历史数据,基于多元线性回归分析进行中、长期电力负荷预测,多元线性回归模型通过变量GDP和人口进行全社会用电量的电力负荷定量预测。结果表明模型的有效性,为电力负荷预测的滚动修正,进而为电力负荷控制和预测提供科学依据。

关键词:全社会用电量,国内生产总值,电力系统,负荷预测,回归模型

参考文献

[1]蒋梁瑜,门可佩.中国电力与GDP协调发展预测分析[J].统计教育,2009,(10):3-7JIANG Liang-yu,MEN Ke-pei.Forecast and Analysis ofCoordinated Development between the Electric Power andGDP in China[J].Statistical Thinktank,2009,(10):3-7

[2]谢洁树.电力负荷预测的方法研究[J],灯与照明,2008,(3):52-55XIE Jie-shu.The Research of Electric Power Load Forca-sting Methods[J].Light&Lighting,2008,(3):52-55

[3]胡杰,文闪闪,胡导福,等.电力负荷预测常用方法的分析比较与应用[J].湖北电力,20083,2(2):13-15HU Jie,WEN Shan-shan,HU Dao-fu,et al.Analyzing,Comparing And Applying the Common Methods of ElectricPower Load Forcecasting[J].Hubei Electric Power,2008,32(2):13-15

[4]王东.回归算法在电力负荷预测中的应用[J].仪器仪表用户,2009(13),6:42-43WANG Dong.Several Regression Algorithms applied inshort-term Load forecasting[J].Electronic Instrumenta-tion Customer,2006(26),3:51-53

[5]游仕洪,程浩忠,谢宏.应用模糊线性回归模型预测中长期电力负荷[J].电力自动化设备,2006,26(3):51-53YOU Shi-hong,CHENG Hao-zhong,,XIE Hong.Mid-and Long-term Load Forecast Based on Fuzzy Linear Re-gression Model[J].Electric Power Automation Equip-ment,2006,26(3):51-53

[6]徐玉华.中长期电力负荷预测方法分析[J].宁夏电力,2007,(4):6-7Xu Yu-hua.The middle and long term predictive methodsfor electric power load[J].Ningxia Electric Power,2007,(4):6-7

[7]中华人民共和国国家统计局,中国统计年鉴2009[M].北京:中国统计出版社,20099,

[8]朱东晓,曹树华,赵磊等.电力负荷预测技术及其应用[M].北京:中国电力出版社,2009:187-233

[9]肖国泉,王春张,福伟.电力负荷预测[M].北京:中国电力出版社,2001:147-197

[10]卢纹岱.SPSS for Windows统计分析(第3版)[M].北京:电子工业出版社,2007:294-365

[11]张文彤,董伟.SPSS统计分析高级教程[M].北京:高等教育出版社,2006:91-117

二元回归预测模型 篇9

1 时间序列自回归建模

时间序列y的自回归模型可表示为

其中,p为模型阶数;θ为模型参数;εt为模型残差,εt~N(0,σ2)。若已知模型阶数p和参数Θ=[θ1,θ2,…,θp],则将历史观测值Y=[yt-1,yt-2,…,yt-p]代入模型外推即可得到t时刻的预测值yt。因此,时间序列自回归建模包括模型定阶和模型参数求解两方面内容。

1.1 模型定阶

AR模型阶数太小会导致模型不能充分反映时间序列的统计规律;阶数过大不仅会降低参数估计的计算速度,且易产生过拟合,降低模型推广能力。BIC定阶准则由日本学者Akaike和E.J.Haman提出,以最小信息为测度,并考虑了样本数对模型平滑性的影响[6],其描述如下

其中,为自回归模型阶数;N为时间系列长度;σp2为模型残差的方差。取BIC(p)值最小时的阶次为自回归模型的最佳阶次。

1.2 模型参数求解

AR模型参数求解的方法主要有相关矩估计、最大似然估计、最小二乘估计等。最小二乘法求解简单可靠,其原理如下:由式(1)可知,p阶自回归模型的误差方程为

设有时间序列观测样本,将观测样本代入上式则可得到以下误差方程组

由该误差方程组可求得的最小二乘解为

由上述AR建模过程可知,模型参数由一段固定历史观测序列根据一定的准则确定,反映的是历史观测值的最优时间依存规律。当时间序列观测值不断动态获得,就需要预测模型也能随观测值实时更新,否则以旧的预测模型对序列新观测值进行预测,精度必然会有所损失。

2 粒子滤波原理

系统的状态方程和观测方程可表示为[7]

其中,xk为系统在k时刻的状态变量;yk为xk的观测值;wk为系统噪声;uk为观测噪声;f(·)和h(·)为已知函数。

对上述状态方程和观测方程作统计描述,可分别得到系统的状态转移概率密度p(xk/xk-1)和观测似然概率密度p(yk/xk)。

若已知系统状态的初始概率密度函数p(x0),则状态递推概率密度可表示为

状态更新概率密度为

上述预测和更新方程描述了递推贝叶斯估计的过程,即从k-1时刻得到的后验概率密度p(xk-1/y1:k-1)出发,利用状态模型来递推k时刻xk的先验概率密度p(xk/y1:k-1),当获得k时刻的最新观测值yk,修正先验概率密度,从而得到k时刻的后验概率密度p(xk/y1:k)。粒子滤波运用蒙特卡洛仿真,采用重要性采样的方法,以粒子及其权重的形式近似得到上述状态方程的解[8]。

设g(xk)为状态变量xk的任意函数,q(xk/y1:k)为后验概率密度p(xk/y1:k)的重要性抽样参考分布,则g(xk)的数学期望为

其中,。

依重要性概率密度q(xk/y1:k)随机抽取N个独立样本{xki;i=1,2,…,N},则上式期望值可近似表达为

其中,wk(xik)为归一化权值,。

最简单易于实现的重要性概率密度函数是使之等于先验概率密度,但概率密度函数重要性采样中粒子经过多次迭代后,会出现退化的现象,需对其做重采样,以增加粒子的多样性。常用重采样方法有多项式重采样、残差重采样、系统重采样等[9]。

3 基于粒子滤波的动态自回归模型方法

对于一时间序列,运用第1节方法建立AR模型,此AR模型为时间递推方程,作为粒子滤波方法的状态方程。引入时间序列值的观测噪声,构建粒子滤波观测方程。

设t为t时刻新的观测值,则可利用粒子滤波方法以此观测值信息对已建立的AR模型进行参数优化,具体步骤如下:

(1)对t时刻AR模型参数Θ进行蒙特卡洛采样,得每个参数的n个初始采样粒子。对Θ的采样可认为Θ服从以原始值为中心的均匀分布或以原始值为均值的正态分布等,即或者,其中δ和σθ为常数;

(2)将模型参数粒子代入式(1),结合历史观测值得AR模型对t时刻观测值t的状态估计离散粒子,其中系统噪声wk可不计,由参数的波动来代替;

(3)将观测值t及其估计粒子代入式(7)所示观测方程作递推贝叶斯估计,以后验概率作为各粒子的权值,得到状态估计值的粒子权重,并以此作为AR模型各组参数粒子的权重。例如,若时间序列样本服从方差为σ的正态分布,则由最大似然估计可设时间序列观测值yk~N(xk,σk),则计算如下

(4)对粒子作重要性重采样,得到权系数相同的新粒子,作为t+1时刻新观测值到来时粒子滤波优化的初始粒子;

(5)计算参数粒子的均值作为AR模型参数的最优值,利用该优化后的AR模型对t+1时刻的状态值做外推预测;

(6)当获得t+1时刻的观测值,重复步骤(2)~(5),对AR模型进一步做优化更新。

4 实例分析

以NASA艾姆斯中心B6号锂离子电池实验数据为例,采用AR模型和本文提出的基于粒子滤波的动态AR模型方法分别对其作剩余寿命预测。其中B6号电池型号为18650Li-ion battery,额定容量2 Ah,在室温下反复充放电次数与实测容量关系如图1所示。设当锂离子电池容量退化至额定容量的70%时视为失效,则从锂离子电池的当前容量值到失效阀值(1.4 Ah)之间的充放电循环次数为锂离子电池的剩余寿命[10,11]。

由图1可知,锂离子电池容量观测数据具有明显的递减趋势,是非平稳时间序列,对其进行平稳化处理,一次差分后结果表明平稳,对该平稳时间序列AR建模,取前80个观测序列值作为模型训练数据,以BIC准则确定模型阶数得如图2所示曲线,由图可知当P=7时BIC指标值最小,因此将该时间序列的AR模型定为7阶,采用最小二乘法计算得7阶AR模型的各参数值为[0.24,0.11,0.11,0.31,0.01,0.05,0.14]。

以建立好的AR模型对后续的60个值做单步预测,结果如图3所示。计算得AR模型在失效阈值处的寿命预测误差为12次。

采用本文提出的基于粒子滤波的动态AR模型方法,对上述建立的AR模型各参数蒙特卡洛采样,粒子数取为5 000,并假设模型参数,观测噪声uk~N(0,0.03),选用系统重采样方法,则随AR模型预测的递推进行,以新的观测值不断更新AR模型参数,其粒子核密度动态演化过程如图4所示。

取参数粒子的均值作为该参数的最优估计,以优化后的AR模型对下一循环电池容量进行预测,结果如图5所示。由图可知,粒子滤波动态更新后的AR模型预测精度显著提高,在失效阈值处的预测误差仅为1次。进一步可根据参数粒子的概率分布计算得电池容量预测结果的90%置信区间。

5 结束语

二元回归预测模型 篇10

传统的生物实验方法(in vitro),成本高且耗时;与之相反,分子对接模拟和机器学习计算推测(in silico)等方法预测效率较高[6]。然而分子对接模拟计算方法耗时而且高度依赖于靶蛋白的3D结构。鉴于此,近年来国内外学者提出多种基于机器学习的药物靶点作用关系预测方法,这些机器学习方法可分为:

(1)基于特征的预测方法[7,8,9];同时计算药物化合物和靶蛋白的特征,组合形成描述化合物-靶蛋白关系对的特征向量,最后使用机器学习分类算法,如SVMs等进行预测,该类算法的缺点是难以构建负样本集;

(2)基于相似性的预测方法,如Mei[10]等人提出的改进的二分图局部算法,Van Laarhoven[11]提出的高斯谱GIP算法等;

(3)基于网络的方法是近来较活跃的DTI预测算法,如文献[12,13]提出的基于异构网络随机游走方法和网络推断NBI算法等。

本文组合药物化合物结构、靶点序列和基于已知药物靶点的网络特征,分别构建药物和靶点相似性网络,同时利用相似药物较容易与相似靶蛋白绑定的假定,基于药物相似性网络和靶点相似性网络,利用少量有标签的数据和大量无标签数据,提出一种新的融合药物靶点双聚类结构的基于脊回归模型的网络排序一致性非监督预测算法。

1 数据来源和方法

1.1 数据集

本文的人类已知的药物靶点作用数据集来源于KEGG[3],BRENDA[14],Super Target[4]和Drug Bank[5]数据库,由文献[15]整理,网址为http://web.kuicr.kyoto-u.ac.jp/supp/yoshi/drugtarget/.包括四类蛋白质家族:酶(Es),离子通道(ICs),G蛋白偶联受体(GPCRs)和核受体(NRs).四个数据集的统计信息见表1。其中酶(Es)数据集有445个药物;664个靶点;已知的DT作用关系对为2 926个;稀疏度(sparsity),即实际的DT作用关系对数目除以全连通网络中的边数目,为0.009 9。

1.2 特征获取及相似性计算

1.2.1 药物特征获取及相似性计算

药物相似性计算融合了药物化合物结构相似性和基于已知DTI作用谱的网络相似性。其中药物的化合物结构可从KEGG LIGAND[3]数据库的DRUG和COMPOUND中获取,之后下载并利用SIM-COMP[16]软件计算产生化合物结构相似性得分,基于化合物结构的相似性定义为

式(1)中|·|表示图中的像素数目,di∩dj为药物di与dj的最大公共子图,di∪dj为di与dj的并集。

高斯作用谱GIP是Van Laarhoven等人[11]提出的基于已知的DT作用关系矩阵计算药物相似性的一种方法,定义为

式(2)中,xi,xj为药物di和dj的作用谱,参数γd为高斯核宽度,采用文献[11]的定义方法。

药物组合相似性定义为Sd(di,dj)=ηSdc+

1.2.2 靶点特征获取及相似性计算

靶点相似性计算融合了靶蛋白序列相似性和基于已知DT作用谱的网络相似性。其中人类靶蛋白序列可从KEGG[3]下载,之后采用归一化的SmithWaterman算法[17]计算靶点序列相似性得分Sts;

式(5)中,SW(·,·)为两个序列的Smith-Waterman得分。

类似于1.2.1节描述,基于已知DT作用关系矩阵的靶点相似性计算定义为

式(6)中,yi,yj为靶点ti和tj的作用谱,参数γt为高斯核宽度,采用文献[11]的定义方法。

组合的靶点相似性为St(ti,tj)=ηSts+(1-

1.3 基于脊回归模型的网络排序一致性预测算法RR-NRCP

网络排序一致性的思想由Zhou等人[18]提出,并已成功地运用于致病基因预测[19]。本文采用文献[19]的方法,将药物靶点关系预测问题看作一个基于图的查询问题;因此基于网络排序一致性的药物-靶点关系预测问题可以描述为:对于给定的待查询药物,输出一组与该查询药物高度相关的靶蛋白。预测思路为,首先由药物相似性、靶蛋白相似性和已知的药物-靶点作用关系构建异构网络,之后基于药物相似性网络计算查询药物与所有药物的关系得分并排序。基于靶点相似性网络计算所有靶蛋白与该查询药物已知靶蛋白之间的关系得分并排序,则排名靠前的药物和排名靠前的靶蛋白相互作用的可能性很高;因此设计恰当的药物得分和靶点得分计算方法,确定与当前待查询药物具有排序一致性的靶点是本文算法设计的关键。

1.3.1 构建异构网络

利用1.2节计算得到的药物相似性、靶蛋白相似性和已知的药物-靶点作用关系构建如图1所示的异构网络,其中药物相似性网络中节点表示药物化合物D=(d1,d2,…,dN),边权重表示两种化合物之间的相似程度,取值范围[0,1],邻接矩阵用Ad(N×N)表示;靶点相似性网络中节点表示靶蛋白T=(t1,t2,…,tM),边权重表示两种靶蛋白之间的相似程度,取值范围[0,1],邻接矩阵用At(M×M)表示。由于[0,0.3]的相似性得分意义不大[20]。为减少计算量,将Ad和At中值小于0.3的元素值置为0。已知的药物-靶点作用关系用二分图网络描述G=(D,T,E),其中E={eij}i∈N,j∈M,eij=1表示tj是di的已知作用靶点,eij=0,表示di与tj之间的作用关系待预测,该二分图网络可用N×M的邻接矩阵Y表示,其中Yij=1表示di与tj存在作用关系,否则Yij=0。

1.3.2 基于标签传播的药物及靶点得分计算

标签传播(label propagation)算法是文献[21]提出的一种基于图的半监督学习方法,其基本思路是通过节点之间的相似性网络,使用少量有标签节点的信息,去预测其他的未标记节点的标签信息。节点标签按相似度传播到其他节点,相似度越大标签传播的越快。与带重启随机游走算法[12]类似,在标签传播的每一步,节点会根据设定的初始标签和相邻节点的标签来更新自己的标签,多次迭代得到最优标签值。

为充分利用网络的全局拓扑结构信息,本文采用标签传播算法计算待查询药物(待查询药物已知靶蛋白)与其他药物(靶点)的相关性得分。药物用一个二进制向量d={d1,d2,…,dN}T表示,代表药物之间的关系得分,当药物i为待查询药物时,初始值di=1,否则di=0;类似的,靶点表示为向量t={t1,t2,…,tM}T,若ti为已知靶点,则ti=1,否则ti=0。计算步骤如下。

Step1相似性矩阵归一化

式中,Wd和Wt为对角阵,其对角线元素分别为

Step2基于药物相似性网络执行标签传播算法,计算待查询药物与所有药物的相关得分的计算来源于以下数学优化问题[18]。

式(11)中,是药物di和dj的当前标签值;是药物di和dj的相似性值,di0是药物di的初始标签值;公式(11)表示药物相关得分融合了节点的邻居信息和自身初始标签信息。融合参数α用于均衡两者的重要程度。公式(11)的闭合解为

为避免进行求逆运算,公式(12)可通过下面的迭代运算求解。

N维向量为所有药物在时间t的标签得分,迭代收敛于,通常σ=10-9。最后药物标签d*为对于当前待查询药物而言,所有药物的得分。

Step3类似地,靶点网络标签传播算法的目标函数为

其闭合解为:

1.3.3 脊回归模型

为了找到药物全局排序与靶点全局排序之间的联系,需要建立一个从的映射函数f。考虑通过药物/靶点相似性网络的标签传播可分别挖掘药物和靶点的聚类信息,因此可通过已知的药物-靶点作用关系Y挖掘药物和靶点的双聚类结构,即通过可近似。故映射关系可表示为:,目标是最小化下面的最小二乘代价函数。

将式(12)和式(15)代入式(16),得到:

式(17)中,‖g‖2表示向量g的2-范数,κ是最小常数,公式(17)是脊回归模型的标准形式,其闭合解为

式(18)中。这里,闭合解g*是针对当前待查询药物而言,所有靶点的相关得分,分数值越大表示该靶点与待查询药物的关系越紧密。

2 实验与分析

2.1 实验设置及结果

为便于算法性能比较,采用文献[13]的验证方法,对表1中的四个数据集分别采用10-CV交叉验证方法,即将已知的药物靶点作用关系随机分10份,每次取其中的9份作为训练集,余下的1份作为测试集,重复30次。每次实验中依次输入待查询药物,计算靶点得分并排序,查询药物对应的靶点得分排名越靠前,性能越好。排序得分,其中M为靶点总数,kj是查询药物的已知靶点数目,qij为潜在靶点ti的排名值。采用ROC曲线进行性能评判,鉴于ROC曲线无法准确比较,因此选择将其量化,采用ROC曲线下面积(即AUC),AUC值越大表明预测性能越好,[13]。表2为本文算法与文献[13]提出的基于药物的相似性推断(DBSI),基于靶点的相似性推断(TBSI)和基于药物靶点网络推断算法(NBI)的AUC结果比较。由表2可见,RR-NRCP算法性能明显优于仅依赖于相似性的DBSI和TBSI算法,同时,本文算法也略高于仅依赖于已知药物靶点网络推断的NBI算法,由此可见,组合利用药物相似性网络,靶点相似性网络和已知的药物靶点作用网络可更高效地预测新的未知的药物与靶点作用关系。

2.2 实验参数

RR-NRCP算法包含η,α,β三个参数,η是相似性融合参数,设置η为不同值可以调整药物结构(靶点序列)和已知DTI网络拓扑在药物(靶点)相似性组合中的比重。本文对GPCRs数据集,针对不同的η([0,1]范围内,步长为0.05)进行仿真,由图2(a)的AUC比较图可见,0.05≤η≤0.5时,AUC几乎相同,0.5≤η≤0.95时,AUC缓慢下降,故本文设置η=0.5。

α,β为得分计算融合参数,设置不同的α,β值可调整邻居信息和初始标签信息在药物(靶点)得分计算中的比重。本文设置α=β,并对GPCRs数据集,针对不同的α(β)(在[0.05,0.95]范围内,步长为0.05)进行仿真,由图2(b)的AUC曲线图可见,α≤0.4时AUC基本不变;0.4<α≤0.5时,AUC急速下降;0.5<α≤0.7,AUC下降缓慢;当α>0.7时,AUC急速下降,故本文设置α=β=0.2。

3 结束语

本文来自 360文秘网(www.360wenmi.com),转载请保留网址和出处

【二元回归预测模型】相关文章:

二元线性回归09-09

回归预测模型08-18

二元劳动力市场模型09-12

回归模型05-29

计量回归模型05-16

动态回归模型06-28

统计回归模型07-09

部分线性回归模型06-01

多元逐步回归模型07-31

灰色自回归模型08-12

上一篇:中级无机化学下一篇:考核实验室