动态回归模型

2024-06-28

动态回归模型(精选八篇)

动态回归模型 篇1

1 时间序列自回归建模

时间序列y的自回归模型可表示为

其中,p为模型阶数;θ为模型参数;εt为模型残差,εt~N(0,σ2)。若已知模型阶数p和参数Θ=[θ1,θ2,…,θp],则将历史观测值Y=[yt-1,yt-2,…,yt-p]代入模型外推即可得到t时刻的预测值yt。因此,时间序列自回归建模包括模型定阶和模型参数求解两方面内容。

1.1 模型定阶

AR模型阶数太小会导致模型不能充分反映时间序列的统计规律;阶数过大不仅会降低参数估计的计算速度,且易产生过拟合,降低模型推广能力。BIC定阶准则由日本学者Akaike和E.J.Haman提出,以最小信息为测度,并考虑了样本数对模型平滑性的影响[6],其描述如下

其中,为自回归模型阶数;N为时间系列长度;σp2为模型残差的方差。取BIC(p)值最小时的阶次为自回归模型的最佳阶次。

1.2 模型参数求解

AR模型参数求解的方法主要有相关矩估计、最大似然估计、最小二乘估计等。最小二乘法求解简单可靠,其原理如下:由式(1)可知,p阶自回归模型的误差方程为

设有时间序列观测样本,将观测样本代入上式则可得到以下误差方程组

由该误差方程组可求得的最小二乘解为

由上述AR建模过程可知,模型参数由一段固定历史观测序列根据一定的准则确定,反映的是历史观测值的最优时间依存规律。当时间序列观测值不断动态获得,就需要预测模型也能随观测值实时更新,否则以旧的预测模型对序列新观测值进行预测,精度必然会有所损失。

2 粒子滤波原理

系统的状态方程和观测方程可表示为[7]

其中,xk为系统在k时刻的状态变量;yk为xk的观测值;wk为系统噪声;uk为观测噪声;f(·)和h(·)为已知函数。

对上述状态方程和观测方程作统计描述,可分别得到系统的状态转移概率密度p(xk/xk-1)和观测似然概率密度p(yk/xk)。

若已知系统状态的初始概率密度函数p(x0),则状态递推概率密度可表示为

状态更新概率密度为

上述预测和更新方程描述了递推贝叶斯估计的过程,即从k-1时刻得到的后验概率密度p(xk-1/y1:k-1)出发,利用状态模型来递推k时刻xk的先验概率密度p(xk/y1:k-1),当获得k时刻的最新观测值yk,修正先验概率密度,从而得到k时刻的后验概率密度p(xk/y1:k)。粒子滤波运用蒙特卡洛仿真,采用重要性采样的方法,以粒子及其权重的形式近似得到上述状态方程的解[8]。

设g(xk)为状态变量xk的任意函数,q(xk/y1:k)为后验概率密度p(xk/y1:k)的重要性抽样参考分布,则g(xk)的数学期望为

其中,。

依重要性概率密度q(xk/y1:k)随机抽取N个独立样本{xki;i=1,2,…,N},则上式期望值可近似表达为

其中,wk(xik)为归一化权值,。

最简单易于实现的重要性概率密度函数是使之等于先验概率密度,但概率密度函数重要性采样中粒子经过多次迭代后,会出现退化的现象,需对其做重采样,以增加粒子的多样性。常用重采样方法有多项式重采样、残差重采样、系统重采样等[9]。

3 基于粒子滤波的动态自回归模型方法

对于一时间序列,运用第1节方法建立AR模型,此AR模型为时间递推方程,作为粒子滤波方法的状态方程。引入时间序列值的观测噪声,构建粒子滤波观测方程。

设t为t时刻新的观测值,则可利用粒子滤波方法以此观测值信息对已建立的AR模型进行参数优化,具体步骤如下:

(1)对t时刻AR模型参数Θ进行蒙特卡洛采样,得每个参数的n个初始采样粒子。对Θ的采样可认为Θ服从以原始值为中心的均匀分布或以原始值为均值的正态分布等,即或者,其中δ和σθ为常数;

(2)将模型参数粒子代入式(1),结合历史观测值得AR模型对t时刻观测值t的状态估计离散粒子,其中系统噪声wk可不计,由参数的波动来代替;

(3)将观测值t及其估计粒子代入式(7)所示观测方程作递推贝叶斯估计,以后验概率作为各粒子的权值,得到状态估计值的粒子权重,并以此作为AR模型各组参数粒子的权重。例如,若时间序列样本服从方差为σ的正态分布,则由最大似然估计可设时间序列观测值yk~N(xk,σk),则计算如下

(4)对粒子作重要性重采样,得到权系数相同的新粒子,作为t+1时刻新观测值到来时粒子滤波优化的初始粒子;

(5)计算参数粒子的均值作为AR模型参数的最优值,利用该优化后的AR模型对t+1时刻的状态值做外推预测;

(6)当获得t+1时刻的观测值,重复步骤(2)~(5),对AR模型进一步做优化更新。

4 实例分析

以NASA艾姆斯中心B6号锂离子电池实验数据为例,采用AR模型和本文提出的基于粒子滤波的动态AR模型方法分别对其作剩余寿命预测。其中B6号电池型号为18650Li-ion battery,额定容量2 Ah,在室温下反复充放电次数与实测容量关系如图1所示。设当锂离子电池容量退化至额定容量的70%时视为失效,则从锂离子电池的当前容量值到失效阀值(1.4 Ah)之间的充放电循环次数为锂离子电池的剩余寿命[10,11]。

由图1可知,锂离子电池容量观测数据具有明显的递减趋势,是非平稳时间序列,对其进行平稳化处理,一次差分后结果表明平稳,对该平稳时间序列AR建模,取前80个观测序列值作为模型训练数据,以BIC准则确定模型阶数得如图2所示曲线,由图可知当P=7时BIC指标值最小,因此将该时间序列的AR模型定为7阶,采用最小二乘法计算得7阶AR模型的各参数值为[0.24,0.11,0.11,0.31,0.01,0.05,0.14]。

以建立好的AR模型对后续的60个值做单步预测,结果如图3所示。计算得AR模型在失效阈值处的寿命预测误差为12次。

采用本文提出的基于粒子滤波的动态AR模型方法,对上述建立的AR模型各参数蒙特卡洛采样,粒子数取为5 000,并假设模型参数,观测噪声uk~N(0,0.03),选用系统重采样方法,则随AR模型预测的递推进行,以新的观测值不断更新AR模型参数,其粒子核密度动态演化过程如图4所示。

取参数粒子的均值作为该参数的最优估计,以优化后的AR模型对下一循环电池容量进行预测,结果如图5所示。由图可知,粒子滤波动态更新后的AR模型预测精度显著提高,在失效阈值处的预测误差仅为1次。进一步可根据参数粒子的概率分布计算得电池容量预测结果的90%置信区间。

5 结束语

logistic回归模型讲稿 篇2

2016-10-24

1各位老师,同学们大家上午好:非常感谢大家抽出宝贵的时间来参加沙龙,感谢我的导师对沙龙内容及PPT制作过程中的悉心指导,今天和大家一起分享的是在课题中用到的一种统计学分析方法,Logistic回归分析。

2这是CNKI学术搜索给出的近年来Logistic回归分析方法的学术关注度,由此可见,Logistic回归分析方法在当前学术研究中应用比较广泛、流行,关注度比较高,是进行科研数据分析不可缺少的利器。

3下面我将分以下几个部分对回归模型做详细的介绍: 1.Logistic回归的基本概念与原理;2.Logistic回归的应用范畴;3.Logistic回归的类型及实例分析;这是本次沙龙的重点部分。4.应用Logistic回归的注意事项;5.小结与答疑。

4首先来了解一下Logistic回归模型的基本概念与原理:Logistic 回归又称「Logistic 回归分析」,是一种「概率型非线性回归」,主要用于危险因素分析以及预后评估等方面,是目前流行病学和医学中最常用的分析方法之一。近年来已逐渐成为发表高质量 SCI 论文必不可少的重要统计学分析利器。Logistic 回归本质上是一种用于研究二分类(或多分类)结局(y,因变量)与有关影响因素(x,自变量)之间关系的多因素分析方法。

5用比较通俗的话来解释它的基本原理,也就是说:用一组观察数据拟合Logistic模型,然后揭示若干个自变量x与一个因变量y之间的关系,结果反应了y 对x的依存关系。统计学的东西比较抽象,下面通过两张图再来重复解说一下。

6(1)与某一事件或某一疾病的结局有关的,存在很多可疑的影响因素,在这些可疑因素中包括促使结局发生的有关的一些危险因素、也包括抑制结局发生的有关的一些保护因素。那么这些因素到底哪些是危险因素,哪些是保护因素呢?它们的危险及保护的程度大概有多少呢?

7通过Logistic回归分析我们就可以看到详细的结果。

8下面来看一下Logistic回归的应用范畴;Logistic回归的应用范畴很广泛,其中最主要的应用是筛选对事件结局的影响因素及预测某一事件是否发生、发生概率的大小。

9主要在流行病学中应用较多,比较常用的情形是探索某疾病的危险因素,也即影响因素分析。包括仅考察某单一因素是否为影响某一事件发生与否的因素,也就是后面要详细介绍的单因素Logistic回归分析,还包括从多个可疑影响因素中筛选出具有显著影响的因素变量,就是后面要详细介绍的多因素Logistic回归分析。这里不敷衍了。

10Logistic回归分析的第二个主要应用范畴是进行某事件结局发生的概率进行预测,在已经建立得logistic回归模型后,我们可以根据模型,预测在不同的自变量情况下,发生某病或某种事件结局的概率有多大。预测的目的:根据研究对象的一些检查指标,判断某种事件结局的概率有多大,进而决定下一步研究方案的制定。

11下面通过一个实例来一起了解一下具体的预测过程:案例:用Logistic回归模型分析某市人群患甲状腺结节的影响因素。通过调查研究发现疾病的相关影响因素有:性别、年龄、职业、是否吸烟、种族等。我们要进行预测的问题是:在自变量为男性、汉族、医务工作者情况下患甲状腺结节的风险概率是多少?通过预测,我们要制定下一步的科研、治疗方案。具体看一下SPSS软件操作步骤。

12首先,将收集的课题数据资料整理后,导入SPSS分析软件中。

13第二步打开SPSS的数据视图,点击分析-回归-二元Logistic后。

14出现Logistic回归界面,分组拉入因变量框内,性别、民族等拉入自变量框内,这是点开右上方的“保存”的对话框,选中预测值“概率”,点击“继续”、“确定”。我们再回到数据视图,发现多了一个变量PRE_1,这就是我们心心念的概率(风险)。这时候我们只需要在数据视图录入新数据,比如右图底行:男性、医务者、种族的自变量代码。

16我们重新运行下分析—回归—二元Logistic回归等步骤,又有了新的变化。

17数据视图多了一个变量PRE_2。PRE_2相比PRE_1多了一个数据36.78%。这时候,我们可以告诉大家对于男性、汉族、医务工作者人群患甲状腺结节的风险是36.78%。

18本案例预测概率的意义:1.通过对某些自变量情况下结局的预测,决定对此类人群是否进行深入调查研究;2.对预测概率较高的某类人群,可以适当进行干预。19下面一起来看一下Logistic回归的类型及实例分析,这也是本次沙龙的重点部分。首先来看一下Logistic回归有哪些类型。Logistic 回归的类型有多种,按照不同的实验设计适用范围分为条件Logistic回归模型和非条件Logistic回归模型,其中,条件Logistic回归模型主要用于配对/配比资料研究的数据分析,非条件Logistic回归模型用于成组病例对照研究,病因学研究及队列研究资料的数据分析。下面就条件Logistic回归模型与非条件Logistic回归模型,我们具体详细的一同学习一下。

20首先来看非条件Logistic回归分析应用实例,案例:探讨甲状腺结节发生的有关危险因素,研究对象为:200例甲状腺结节患者和200例对照者;研究方法:成组病例对照研究;调查记录了与疾病发生可能相关的影响因素,如:年龄、性别、职业、居住地、医疗保险、职业及家庭年收入等;统计学分析方法:Logistic回归分析;研究的目的为:筛选甲状腺结节发生的危险因素,并分析各自变量作用的大小。也就是对疾病发生的影响程度。

21首先是对变量进行赋值,变量包括因变量和自变量。因变量,顾名思义就是因别人的变化而变化的量,比如研究甲状腺结节患病的影响因素,这里的患病情况就是因变量。

3、自变量(影响因素),通俗地说就是不因别人变化而自己变化的量,比如本例中甲状腺结节患病的影响因素就是自变量,如病人的年龄,性别,职业、居住地、医疗保险、职业及家庭年收入等等。22对问卷中的变量完成赋值后,第2步,将整理好的数据输入SPSS统计软件中,下面开始进行软件操作。

23这是具体的SPSS实施操作的步骤:单因素Logistic回归分析-筛选有意义的自变量-多因Logistic回归分析-结果解读。

24首先进行单因素Logistic回归分析,具体步骤为点击:分析-回归-二元Logistic,25出现Logistic回归界面,分组拉入因变量框内(分组是指病例组和对照组,也就是二分类因变量Y值取值为患病和不患病),性别、民族等作为自变量拉入自变量框内。每次只对一个自变量进行分析。点击确定。

26这是单因素Logistic回归分析的结果,我们主要看它的P值,当P值<0.05时,说明进行分析的自变量有统计学意义,是疾病发生的可疑因素。但是存在混杂因素的影响,还不能确定它到底是不是疾病发生的危险因素,因此,需要进一步进行多因素Logistic回归分析。

还有一点需要指出的是:一般情况下,都是选择那些单因素分析中与因变量有关的自变量进入回归方程,进行多因素Logistic回归分析。但同时需要提醒,如果某些自变量从作用机制或临床经验上来看,跟因变量之间关系密切,即使单因素分析没有意义,此时也应该将其选入多因素Logistic回归方程。

27将分组拉入因变量框内;将单因素分析后筛选的所有的P值<0.05的有意义的自变量全部拉入自变量框内,点击选项按钮,勾选95%可信区间选项,点击继续,确定。28在一系列点击菜单的操作后,我们终于看到了输出结果。首先是对Logistic回归模型的检验,经过统计学检验,模型的卡方值=18.873,P=0.000,说明Logistic回归模型有统计学意义。

29再来看不在方程中的变量这个结果的意义,本表显示在每个自变量引入模型之前,检验这些自变量与因变量之间有无联系,由sig的值可知,家庭年收入、食用碘盐(B5)与因变量的联系有统计学意义,其余4个没有。

30再来看方程中的变量这个结果的意义,31本表显示多因素回归的最后结果:职业、家庭年收入、食用碘盐为患甲状腺结节的危险因素,其后sig都小于0.05;危险的程度看后面的exp回归系数,系数>1为危险因素,包含1表示无意义,<1为保护因素。在>1的前提下,系数越大越危险,所以因素危险性又重到轻依次为家庭年收入 > 职业> 食用碘盐。

32下面来看条件Logistic回归分析,条件Logistic回归分析和非条件Logistic回归分析的区别在于:条件Logistic回归分析适用于在实验设计阶段为了控制混杂因素的影响而进行的一种匹配设计方法。当得到一名研究病例后,选择一名或多名非病例作为对照,选择相应对照的条件是:某些需要控制的混杂因素与该病例之间相同或相似(比如说年龄、性别),从而形成一个匹配的对子。一个匹配的对子可以只有1个病例和1个对照,称1:1匹配;还可采用 1个病例,多个对照,此时称为1:m匹配,常用的m一般小于等于4,不同的对子,m可以不同;还可设计m:n匹配,即不同对子的病例与对照个数均可不同,这样的设计增加了收集资料的灵活性。对于这类匹配设计资料,如果采用以上介绍的非条件logistic回归方法,将会降低检验效能。而应当采用条件logistic回归模型进行分析。

案例: 探讨甲状腺结节发生的有关危险因素,对200例甲状腺结节患者和200例对照者按性别、年龄进行配比病例对照研究,调查记录了与疾病发生可能相关的影响因素,试用条件Logistic回归分析方法筛选危险因素,并分析各自变量作用的大小。

第一步。变量赋值; 35第二步,数据录入

36第三步,求出同一对中的病例和对照所有自变量的差值,然后利用该差值直接拟合不含常数项的传统logistic模型。

这里说明一下:d_x1即为病例组自变量x1与对照组自变量x1的差值,以此类推。比如,病例组某自变量(BMI)为29,对照组BMI为20,那我们的d_x即为9。

d_y为病例组因变量y与对照组因变量y的差值,按我们常规的赋值(病例组=1,非病例组=0),这里d_y就是一个常数1,这时候传统的二分类logistic回归会拒绝继续运算,我们只好求助于无序多分类的多项logistic回归。

37点击:执行分析—回归—多项logistic回归。出现一下界面。38将d_y选入因变量框,d_x1、d_x2、d_x3、d_x4选入协变量框,39点击“模型”,去除“在模型中包含截距”。点击继续,确定。

40结果解读。首先看“模型拟合信息”的结果,p<0.001,说明拟合的模型有统计学意义,而且伪R方也比较大,说明拟合的模型也还不错。

41我们都知道logistic回归最重要的是提供了OR这个效应指标,详见“参数估计”,这里的Exp(B)即我们常说的OR。可以看到d_x2对应的OR为1.311(这里x2为二分类变量),可以解释为有x2的患结节的风险是无x2的1.311倍。

42上述方法只能用于1:1配对,下面对于1:n配对的情况,我们一起学习一下。首先来看案例。探讨甲状腺结节发生的有关危险因素,对200例甲状腺结节患者和400例对照者按性别、年龄进行1:2配比病例对照研究,调查记录了与疾病发生可能相关的影响因素,试用条件Logistic回归分析方法筛选危险因素,并分析各自变量作用的大小。对于1:n配对的情况,则需要借助COX回归。

43我们都知道COX回归是要求有生存时间的,所以,我们也引入了时间的概念,但由于不是真正意义的生存时间,常称为虚拟时间,即表中的time。虚拟生存时间可以取任意大于0的数值,但要求对照组的生存时间长于病例组,比如,我们可规定,病例组统一为1,对照组全部为2。

其中,time为虚拟生存时间,x1和x2是我们想探究的影响因素(本例中,x1和x2均为二分类变量),y是因变量(1=正常人,0=患者),no是配对的对子数,我们看前3行,no都是1,y分别为1、0、0,也就是说1个病人与2名对照形成了对子。

44执行分析—生存函数—COX回归。

45将time选入时间框,x1和x2选入协变量框,no选入层,y选入状态,点击定义事件(事件发生的值定为1)。点击继续、确定。

46结果解读。可以看到x1对应的Exp(B)为3.689,可解释为有x1的患某病的风险是无x1的3.689倍。而有x2的患某病的风险是无x2的0.67倍,显然x1是一个危险因素,x2是一个保护因素。

47下面一起来看一下运用Logistic回归过程中的注意事项:主要包括1用Logistic回归分析估计危险度的情况、2样本量方面的情况、3 Logistic回归中的自变量形式、4Logistic回归时单因素分析。

48.Logistic回归在医学研究中广泛使用的原因之一,就是模型直接给出具有临床实际意义的OR值,很大程度上方便了结果的解读与推广。如表所示:家庭低收入者发生疾病的风险是高收入者的1.328倍。这里要注意估计的方向问题,以家庭高收入者作为参照,家庭低收入者患疾病的OR是1.328。如果以家庭高收入者作为参照,算出的OR将会是0.7530(1/1.328),表示家庭高收入者发生疾病的风险是低收入者的0.7530倍,或者说,是低收入者的75.30%。撇开了参照组,相对危险度就没有意义了。

49.通常回归模型都需要建立在大样本的基础上。在进行Logistic回归前,应该考虑当前的样本量是否充足? 根据模拟研究,在使用Logistic回归时,1.样本量不能太少,通常病例和对照的人数应该至少达到30~50人,另外也可根据经验公式:因变量中较少的那一类的人数>=自变量个数×10,来计算求得合适的样本量。

另外一点是:二分类logistic回归不论自变量还是因变量,一般都用0表示阴性或不严重的情况,而用1表示阳性或严重的情况,这样or值就可以解释为or>1(危险因素),or=1(无关系),or<1(保护因素)。

50.自变量的形式问题,Logistic回归的自变量既可以是连续变量,也可为分类变量。总体原则是尽量从实际或专业角度考虑采取何种形式更好。比如年龄,可以取为连续变量,也可以5岁、10岁作为一组,甚至分为老年人和年轻人两组。不同的划分方式决定了结果解读时的差异,比如,在做出胃癌与年龄的关系,如果把年龄作为连续变量分析,得到危险度为1.008,其解释为年龄每增加1岁,患胃癌的风险就会多出0.008倍,这个数据会显得没有太大的临床意义。但如果以10岁一组,可能得到的危险度就是1.6,即年龄每增长10岁、患胃癌的风险就增加60%,这样幅度的相对风险更具有临床实际意义。如何将连续变量进行划分并没有固定的标准,按照统计学的分位数或具有临床意义的界值划分都是常用的方法。建议在分析时先进行趋势的描述,观察特定的自变量和因变量是何种关系,再结合临床专业角度与统计学考虑,以获得最合理的划分方式。

51.在进行Logistic回归分析时,是否必须先进行单因素分析,然后才能进行多因素分析?理论上讲,如果样本足够大,且所有的因素之间没有关联,最好把所有的因素都放到方程中,通过全模型法对所有可能的混杂因素同时进行分析,在此基础上进一步通过逐步回归的方法对有显著意义的变量进行筛选,此种情况下可以不做单因素分析。如果样本例数有限,比如,仅有80例患者,但是有20个因素,这种情况下,最好先进行单因素分析,剔除既无统计学意义,又无 临床意义的变量,只分析有意义的变量。单因素分析时最好将P值放宽,比如0.1或0.15等,避免漏掉一些重要因素(变量间的相互作用可能导致多因素的结果不同于单因素分析)o当然,也要注意仔细检查各因素间的关联程度,对于高度相关的自变量一般不同时带入模型,例如:收缩压和舒张压。一旦发现因素之间有较强的相关性,建议首先进行筛选,选择最具代表性的变量带入模型。

52下面我们来说一下在平时写论文经常遇到的一些疑惑及小结部分。

53常听周边的同学说起,在论文写作的过程中,不知如何对统计学方法进行规范的表述,尤其是常用来探讨影响因素的多因素分析方法logistic回归,今天就这个问题,做一下简单的总结:

1.1.统计学分析中如何表述logistic回归?比如,探讨低出生体重儿的影响因素,错误:采用logistic回归进行多因素分析,正确:采用logistic回归分析低出生体重儿和产妇年龄、孕前体重、孕期吸烟史、种族之间的关系,以后退法作为自变量筛选方法,因为,统计学分析中表述logistic回归时,要报告出自变量、因变量、自变量筛选方法。

54表述logistic回归分析结果时,应该报告自变量、因变量的赋值情况,我们可以选择表格展示变量的意义和赋值。如:低出生体重儿影响因素的变量的意义及赋值:

55如何表述logistic回归分析结果?要报告OR、95%可信区间、各变量参照组。这是logistic回归最核心的结果表述。如:低出生体重儿影响因素的多因素Logistic分析结果.56这里提一点,当自变量是分类变量时,我们可作适当的省略。

57比如,上表的吸烟与否,可以将“吸烟史:否”省略掉。同样,当自变量为有序多分类或无序多分类时,我们也可以省略掉某一参照水平。

下面来看一下小结部分:主要在以下6个方面进行了一下总结:1.模型: Logistic回归模型是一个概率型的回归模型。

2.目的:作出以多个自变量(危险因素)估计应变量(结果因素)的logistic回归方程。属于概率型非线性回归。

3资料:1.应变量为反映某现象发生与不发生的二值变量;2.自变量宜全部或大部分为分类变量,可有少数数值变量。分类变量要数量化。

4用途:研究某种疾病或现象发生和多个危险因素(或保护因子)的数量关系。

5种类: 1.成组(非条件)logistic回归方程。2.配对(条件)logistic回归方程。

58.应用:对队列研究资料,Logistic回归模型直接给出发病概率估计,而对病例对照研究资料则不能给出概率估计,但可提示可能存在的危险因素。配对病例对照研究资料必须应用条件Logistic回归分析。

税收增长的动态回归分析 篇3

1 动态回归模型分析

一般地, 一个动态回归模型[4]可以写成

若考察税收收入与国内生产总值之间的关系, 将税收收入的动态线性回归模型表示为

式中, Xt为第t期国内生产总值;Yt为第t期税收收入。

若引进滞后算子L, 其定义为

则式 (1) 可以写成

其中△ (L) =β0+β1L+β2L2+…。假定Yt和Xt在经过长期以后不再变动, 均衡时达到稳定水平Y、X, 即t→∞时Yt→Y, Xt→X。则由式 (3) 得

注意到式 (2) , 当t→∞时△ (L) =△ (1) =∑βi, 所以式 (4) 为

由式 (5) 求导, 得

称β为X对Y的长期乘数, 其意义是稳定X的单位变动导致Y的变动。另一方面由式 (1) 可得

βi称为动态乘数, 它表示第t期Xt的单位变动会引起t+i期Yt+i的变化βi。式 (6) 表明长期乘数是动态乘数之和。βi的部分和同长期乘数之比:

反映了经过k期后乘数效应同总效应之比, 表明由t时刻Xt的变动对Yt的影响在经过k期后大约达到Dk (%) , 它反映了乘数效应作用的快慢。

在动态回归模型中, 我们考虑考伊克变换, 设βj=β0λj (0<λ<1, j=0, 1, 2, …) 即Xj的影响将随j的增大而按几何级数减少, 于是由式 (1) 得

可见X对Y的动态乘数为βj=β0λj (, j=0, 1, 2, …) 。其中当期乘数为β0长期乘数为

由式 (7) 可得

对参数β0、λ的估计可由式 (8) 导出

利用最小二乘法估计。

2 实例分析与结论

考虑到数据的可比性, 根据《中国统计年鉴》1985~2006年的数据, 建立我国税收增长的动态回归模型。由SPSS软件计算可得动态线性回归模型为

其中, GDP为国内生产总值, TAX为税收收入。由R2可以看出, 整个模型拟合精度高, 由T统计量, 各变量均通过检验, 经共线性诊断, 最大条件指数均小于40, 远低于100, 仅弱线性相关, 模型可以用来解释经济问题。

由式 (12) 可得国内生产总值对税收收入的动态乘数为

得到当期乘数β0=0.0467, 后二期动态乘数分别为β1=0.0277, β2=0.0165。进而计算知D2=79.02%。可见当期国内生产总值每增加1亿元, 税收收入增加0.0467亿元, 滞后期的国内生产总值对税收收入的影响逐年降低, 到滞后二期, 国内生产总值对税收收入的乘数效应影响已达79.02%。由式 (12) 得长期乘数为

可见, 从长期来看, 国内生产总值每增加1亿元, 税收收入增加0.1151亿元。

由式 (12) 可得1994-2006年我国税收的预测值。现列表如下:

实证结果表明, 税收收入动态回归预测模型的相对误差控制在10%的范围内, 整体拟合效果较好。

摘要:本文运用动态回归模型对我国的税收收入进行分析, 有效分析了税收增长的滞后作用, 对我国税收收入进行了合理的预测;并通过实例对模型进行验证, 实践证明预测模型与实际情况拟合很好。

关键词:税收收入,动态回归,模型预测

参考文献

[1]程毛林.税收增长的动态回归模型分析[J].系统工程理论方法应用, 2000, 9 (2) :173-176.

[2]任晓辉.税收增长的动态回归分析[J].甘肃科学学报, 2004, 16 (2) :121-122.

[3]李晓虹.一种基于逐步回归的国家财政收入模型[J].识丛林, 2006, (12) :147-148.

[4]王伟.中国税收宏观调控与数理分析[J].中国农业大学学位论文, 2002, 5:99.

[5]吴云飞, 苏永军.税收收入与GDP关系分析[J].涉外税务, 2003, (12) :22—24.

[6]程毛林.我国税收增长的影响因素和预测分析[J].扬州大学税务学院学报, 1998, (2) :18.

回归分析模型预测与研究 篇4

1 Excel数据回归分析模型

Excel作为便捷的数据分析应用软件,提供了多项功能来支持数据分析模型,主要提供了三类工具库,即模拟分析、规划求解和数据分析工具库。掌握各种数据分析模型的基本操作,灵活地运用它们,以便为数据进行深层次和适当分析提供科学的决策依据。只需为每一个数据分析工具提供数据和参数,该工具就会使用适当的统计或工程宏函数计算出相应的结果,并将结果显示在输出表格中,其中有些还能同时生成图表。

重点讨论回归分析模型,这种模型是利用两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,利用数理统计方法建立因变量与自变量之间的回归关系函数表达式,回归分析模型通过对一组观察值使用最小二乘法进行直线拟合来实现线性回归分析,其功能是分析单个因变量是如何受一个或多个自变量数据影响的。

回归分析模型有3个统计量,即总偏差平方和、残差平方和、回归平方和,其中总偏差平方和表示所有单个样本值与样本均值差的平方和,残差平方和表示回归数据与样本值差的平方和,回归平方和指的是相应回归值与样本均值差的平方和。回归分析过程中,预报变量的变化程度可以分解为由解释变量引起的变化程度与残差变量的变化程度之和,总偏差平方和相对稳定且残差平方和越小,则回归平方和就越大,此时模型的拟合效果就越好。对于多个不同的模型,还可以使用相关指数来表示回归效果,R的值越大,说明残差平方和越小,即模型拟合的效果越好。回归分析还可以使用工作表函数LINEST。

2 案例应用

首先预测温度与冰淇淋销售量的关系。EXCEL是一个功能强大的数据分析软件,可以使用EXCEL函数与数据分析模型进行回归预测,回归分析法是根据事物的因果关系对应的变量的预测方法,是定量预测方法的一种。

(1)制作如图1所示的气温与冰淇淋销售量的因果关系图。

(2)使用“数据/数据分析”命令,在打开“数据分析”对话框中选择“回归”项目;

(3)在“回归”对话框中使用Ctrl+Shift↓设置Y值输入区域$C$2:$C$62、X值输入区域$B$2:$B$62,勾选“标志”“置信度”“残差”等需要结果的项目;

(4)回归结果在新的工作表上生成图2,同时还可以生成残差图、线性拟合图以及正态概率图。

其中判定系数(Adjusted R Square)的取值范围为0到1,如果为1,则样本有很好的相关性,y的估计值与实际值之间没有差别。相反,如果判定系数为0,则回归公式不能用来预测y值。此时回归分析,Excel会计算每一点的y的估计值和实际值的平方差,这些平方差之和称为残差平方和。

再通过某店2016年1至6月每月销量额度预测7-12月的销量状况。

(1)先将这组数据使用回归分析方法,获取判定系数为0.918,根据回归分析方法的原则可知,此数据越接近1,预测的数据越可靠。

(2)根据某店2016年前6个月的数据制作折线图,如图3所示。

(3)添加线性趋势线,并勾选显示公式和R平方值,结果如图4所示,虚线表示的是趋势性。

(4)使用公式y=-1632.2x+41849预测7至12月的销售情况,也可以使用函数。在单元格C8输入公式=-1632.2*A8+41849,复制到单元格C13即可。

如果使用函数FORECAST,在单元格D8输入公式=IN T(FORECAST(A8,B$2:B7,A$2:A7)),复制到单元格D13。函数FORECAST的功能是通过已有值计算或预测未来值,这里的预测值是给定x值后求得的y值,然后通过线性回归来预测未来值,结果如图5所示,可以使用该函数来预测未来销售、库存需求或消费趋势等。

进一步介绍FORECAST函数的使用方法,其参数有3个,位置形同FORECAST(x,known_y's,known_x's)。当x为非数值型,则FORECAST返回错误值#VALUE!;当known_y's和known_x's为空或含有不同个数的数据点,函数FORECAST返回错误值#N/A;当known_x's的方差为零,则FORECAST返回错误值DIV/0!。函数FORECAST的计算公式为a+bx,其中x和y是样本平均值AVERAGE(known_x's)和AVERAGE(known_y's)。

3 结语

在大数据时代,各行业的数据科学管理和分析对未来发展非常重要,回归分析模型应用十分广泛,尤其是一元线性回归模型,当只研究两个变量之间的因果等相关关系时应用较多。

摘要:数据回归分析模型在数据的统计分析中具有极其重要的作用。基于此,阐述了回归分析模型的理论和特点,并通过案例在Excel平台上展现多个变量的因果关系,在拟合度较高的条件下预测未来数据发展趋势。

动态回归模型 篇5

财政收入是我国国民经济核算体系的一项重要指标。建立科学合理的财政收入统方法, 是加强国民经济核算和宏观调控的需要, 也是评价财政工作优劣的重要依据。长期以来, 我国对财政收入的统计分析主要基于预算收入法及其以此为基础的财政收入占GDP比重。但是, 就当前我国财政收入的实际情况来看, 仅仅依靠这种统计分析方法, 不仅有失偏妥, 也给各级财政工作带来了被动。这就需要建立合适的政府财政收入统计方法。

逐步回归分析法就是一种自动地从大量可供选择的变量中选择那些对建立回归方程比较重要的变量的方法, 它是在多元线性回归基础上派生出来的一种算法技巧。逐步回归分析法在筛选变量方面较为理想。故目前多采用该方法来组建回归模型。该方法也是从一个自变量开始, 视自变量对Y作用的显著程度, 从大到小地依次逐个引入回归方程。但当引入的自变量由于后面变量的引入而变得不显著时要将其剔除掉。引入一个自变量或从回归方程中剔除一个自变量, 为逐步回归的一步。对于每一步都要进行F值检验 (F值检验的具体含义在下一节做介绍) , 以确保每次引入新的显著性变量前回归方程中只包含对Y作用显著的变量。这个过程反复进行, 直至既无不显著的变量从回归方程中剔除, 又无显著变量可引入回归方程时为止[1]。

本文旨在运用应用统计软件SPSS V17.0, 基于逐步回归法建立国家财政收入的回归模型, 分析影响国家财政收入的可能因素。

2 利用逐步回归法建立国家财政收入的回归模型

2.1 变量的选取与筛选

在使用回归分析建立模型时, 首先遇到的一个重要问题就是自变量的选择问题。一方面为了获取全面信息, 总是希望模型中包含的自变量尽可能的多;另一方面, 考虑到收获很多自变量的观测值的费用和实际困难, 则希望模型中包含的变量是最重要的, 且尽可能的少。理论上可以证明:当自变量数目过大时, 模型计算复杂并且往往会扩大估计方差, 降低模型的精度。因此, 最优的线性回归模型应理解为: (1) 该模型中包含所有对因变量有显著影响的自变量; (2) 该模型中包含的自变量个数尽可能的少; (3) 当有几个模型都满足这两方面的要求时, 方差的无偏估计中以最小者为优。

根据实际情况, 本文中考虑的自变量包括: (1) 工业总产值 (亿元) ; (2) 农业总产值 (亿元) ; (3) 建筑业总产值 (亿元) ; (4) 全民人口数 (万人) ; (5) 社会商品零售总额 (亿元) ; (6) 受灾面积 (万公顷) 。因变量为国家财政收入。

在决定一个新的变量是否有必要进入模型或判断某个变量是否可以从模型中剔除, 首先要解决的问题是:这个变量对因变量的影响是否显著?解决该问题的正规方法是偏F检验, 设有n个自变量采用这n个自变量拟合的全模型为

2.2 计算过程及结果

本文选取的可能影响国家财政收入的因素有:工业总产值 (亿元) 、农业总产值 (亿元) 、建筑业总产值 (亿元) 、社会商品零售总额 (亿元) 、人口 (万人) 、受灾面积 (万公顷) 等。数据来源于《中国统计年鉴》[3], 选取了1997年—2011年近15年的数据使用SPSSV17.0进行处理。

相关分析如表1所示 (只选取了部分数据) , 显示各变量间的泊松相关系数和显著性检验单尾P值及每个变量的个数。从表中我们可以看到国家财政收入跟工业生产总值, 农业生产总值, 建筑业生产总值, 人口还有社会商品零售总额都有很强的相关性, 但与受灾面积相关性比较弱。

表2为方差分析表, 为回归拟合过程中每一步的方差分析结果。列出了回归平方和、残差平方和、自由度等。Sig.为大于F值的概率。方差结果表明, 当回归方程包含不同自变量时, 其显著性概率值均小于0.001。因此回归方程应该包括这两个自变量。

表3为回归系数表, 包括B、Beta分别为非标准化和标准化的回归系数, t为偏回归系数为0时的假设检验的t值, Sig.为偏回归系数为0时的假设检验的显著性水平、B的95%置信区间、偏回归系数等。在逐步回归过程中, 利用偏回归系数平方和来判断一个自变量对因变量影响的显著程度。某因素的偏回归系数平方和越大, 该因素对因变量的作用就愈大。从表中分析可以看到:逐步回归的最优回归子集为模型2, 回归方程为::;方程中的常数项为-7533.154, 偏回归系数b1为0.273, b3为1.808, 经t检验, b1、b3的P值分别为:0.000, 0.000, 按α=0.05水平, 均有显著意义。

2.3 图表总结分析

实验结果表明, 在利用逐步回归法建立方程的过程中, 引入了两个自变量x1和x3, 即工业总产值和建筑业总产值, 且它们与因变量y财政收入具有显著的线性相关性, 其结果有显著性意义, 而其它自变量均未能引入方程。分析给出的散点图, 得到这一结果的原因是显而易见的:一些自变量如农业总产值, 虽然其散点图也基本为线性, 但此线性关系不如建筑业总产值和工业总产值的强, 同时它与建筑业总产值又具有高度相关性, 因此它最终成为不需要被引入的因素;还有一些散点图如受灾面积与财政收入散点图比较凌乱, 不能判断它们与因变量的关系, 但显然是非线性的。此外, 选取的年份较少及由于知识背景不足而使得某些重要因素未被考虑等, 可能是影响实验精度的主要原因。

3 模型解释说明

从上面的分析我们得到了两个对财政收入影响较显著的自变量:工业生产总值和建筑业生产总值。即工业生产总值和建筑业生产总值对我国财政收入有显著的影响。在工业方面, 国家对工业的发展给予了高度的重视, 对产业结构进行了重大的调整, 国民经济保持着快速健康发展的势头。工业生产快速增长, 财政收入迅速增加。而另一方面在政府积极的财政政策运用过程中, 尤其是在大规模的基础设施建设拉动内需和扩大就业过程中, 建筑业是受益较大的产业, 促进了建筑业的极大发展。中国建筑业进入了健康、快速发展的轨道。近年来中国的建筑业总产值一直呈高速增长态势, 对国家财政收入起着积极的促进作用。因此, 工业生产总值和建筑业生产总值是国家财政收入的两个重要来源。

最后我们运用模型对2011年的财政收入进行检验, 2011年我国的工业生产总值为188470亿元, 建筑业生产总值为31943亿元。运用上面的回归方程我们可以得到2011年我国的财政收入为:0.273*188470+1.808*31943-7533.154=101672亿元。而实际的国家财政收入为103874亿元。我们可以认为得到的回归方程拟合的效果较好。

本模型在一定程度上体现了与选取的自变量之间的线性关系, 并能对因变量做出近似的预测。综合来看, 数据模型基本达到了预期的目的。对国家或地方财政模型建立、经济现象的分析有很好参考意义。

参考文献

[1]孙海燕, 周梦, 李卫国, 冯伟.应用数理统计[M], 北京:北京航空航天大学出版社, 2004 (9) .

[2]周复恭, 黄运成.应用线性回归分析[M], 北京:中国人民大学出版社, 1989 (8) .

回归模型对评分标准的评估 篇6

利用回归模型的方法分析这次考试卷的效度、信度、难度和区分度。

1) 效度是试卷质量指标中最基本的一条, 它是衡量测试能否准确测出学生在某一学科上真实水平的量, 效度的最大值为1, 最小值为-1, 在实际问题中, 试卷的效度通常考虑下列两个方面。

(1) 内容效度:内容效度是指试卷测试内容与所要测试目标的吻合程度。

(2) 预测效度:预测效度是指试卷测试的结果与被测对象未来成绩的相关程度。

2) 信度也是试卷质量指标中重要的—条, 我们把一份试卷对同一对象前后测试结果的相关程度称为试卷的信度。信度的最大值为1, 最小值为-1, 显然一份好的试卷, 应具有较高的信度。

信度按其估计方法可分为再删信度、“等价形式”信度、分平信度。

3) 难度是衡量试卷各题难易程度的质量指标, 是反映试题与学生知识水平适合程度的一个量。

4) 区分度是衡量试卷各题在区别被测对象不同水平程度上的指标, 这是被测对象的水平通常是从试卷内部来考虑的, 即假定被测对象的水平由他的试卷总得分的高低而定, 它的虽大值为1, 最小值为-1, 区分度一般有两种估计方法:相关系数法、高低分组分析法。

2 预备知识

3 数据来源

4 正文

将试卷按奇偶分半, 上表中数据可估计试卷的分半信度为

从上面的计算结果来看, 该试卷的信度一般, 但注意样本容量较小时, r11的计算结果受测试随机误差的影响较大, 因此被分成两个半卷的测试结果是否真正相关, 还需用数理统计的方法进行检验。

系数法:分半法虽然是求试卷信度的常用方法, 但由于分半法的分法多种多样, 因此所得的信度的估计值有差异, 并且分半法也不一定能使两个半卷真正等价, 库德-理查逊以及克

第一题是概念题, 第二、四、五是计算题, 第六、七是应用题。

由上面的计算结果来看, 概念题的效度和信度一般, 难度较低, 区分度明显。计算题的效度和信度可以, 难度中等, 区分度明显。应用题的效度和信度一般, 难度大, 区分度不是很明显。

参考文献

[1]王明慈, 沈恒范.概率论与数理统计, 高等教育出版社, 2003.

[2]西宁市第八中学3月份月考卷, 2009.

[3]盛骤, 谢式干, 潘承毅.概率论与数理统计.3版.高等教育出版社, 2006.

基于回归分析的备件标准制定模型 篇7

备件标准是我军进行备件筹措、储存、供应等管理活动的重要依据。长期以来,我军大都根据专家经验进行标准的制定,经常与实际情况不符。因此,制定备件标准需要建立科学、合理的备件需求模型。20世纪70年代,美军曾下达指令,必须采用数学模型确定备件的数量[1]。可见数学模型在确定备件数量时的重要作用,这也是我军标准制定由经验型向科学型转化的必然要求。

目前,在备件标准制定方面使用较多的是保障度模型法[2]。这种方法较符合实际情况,但关键是分布的参数选取要合适,否则计算出的误差较大。另一类方法是基于消耗数据的时间序列模型,包括指数平滑法[3]和灰色预计法[4]等。这种方法往往需要一定的样本数据,使得标准制定的周期较长。回归分析法可以在消耗量与消耗因素之间建立相关关系,它具有样本需要数据量少,计算简便的优点。本文拟采用一元线性回归模型制定备件的标准。

1 备件的分类

备件的品种复杂,不同的备件存在不同的特点,在建立标准制定模型前要对备件进行合理的分类。备件的分类方法很多,根据本文的需要,按照维修方式分为必换件和视换件。

必换件是在修理过程中,无论是否损坏都必须更换的单元,可以通过查阅相关的修理规程得到;视换件是在修理过程中,根据单元的实际性能,如果损坏则更换,如果还能继续使用,则不更换。

必换件与装备的机用数关系最密切,消耗的数量应等于装备的机用数;而视换件则不是简单的等于机用数,其消耗数量是与维修的装备数量存在相关关系,当维修的装备数量越多时,其消耗的备件数应该也越来越多。视换件的这个特点为建立回归模型创造了前提条件。

2 备件标准制定模型

2.1 一元回归模型的特点

回归分析模型是在肯定现象之间存在着相关关系的前提下,通过回归分析,配合回归趋势线,建立的数学模型。一元回归模型中最简单的是一元线性回归模型,在现实生活中有许多问题可以用线性回归解决,将一个随机变量Y(称作响应变量)视为另一个随机变量X(称作预测变量)的线性函数,并且更多的可以对变量进行变换,使得非线性问题可以转换为线性问题加以处理。

2.2 模型的建立

视换件的消耗情况与装备维修的数量存在相关关系。设视换件的消耗量为y,装备维修的数量为y,收集到n个样本消耗数据为(x1,y1),(x2,y2)…,(xn,yn)。一元线性回归方程的基本形式为

式中a、b为待定系数。这些系数可以用最小二乘法求解[5],这可使得实际数据与该直线的估计之间误差最小。所用方程如下:

解得a、b的估计值:

代入式(1),即得:

2.3 模型的检验

本文用相关系数描述变量x和y的线性相关的程度,用r来表示。r的值在[-1,1]之间,r的绝对值越接近于1,表示x和y之间的线性关系越密切;r>0,两者呈正比关系,叫正相关;r<0,两者呈负相关;r的值越接近于0,两者越没有线性相关关系。r的计算公式为:

3 应用示例

某部2002-2008年维修某型装备数与所需备件A的统计数据如表一所示,试用一元线性回归模型分析维修装备数与备件消耗间的关系。

根据以上数据可以算出=10.29,=6.86。将这些值代入式(4)和式(5),得:

拟合的图形如图一所示:

将数据代入式(7),得相关系数:

可见维修装备数与备件A的线性相关性是明显的。

因此,可以求出:每修理一个装备,其备件标准为0.706-0.407≈0.3。

4 结束语

备件品种繁多,不可能用一种方法制定所有的备件标准。一元线性回归模型是一种简单、易操作的模型,将其用于视换件的标准制定模型,通过实例验证是有效的,提高了标准制定的科学性。

参考文献

[1]John R.Folkeson,Marygail K.Brauner.Improveing the Army's management of Repairable Spare Parts[R].2005.

[2]李金国,丁红兵.备件需求量计算模型分析[J].电子产品可靠性与环境试验,2000,3(1):11-14.

[3]程玉波,车建国,杨作宾等.基于指数平滑法的装备维修器材需求量的预测[J].指挥控制与仿真,2009,31(1):115-118.

[4]周文斌,陈春良,焦双荣等.基于灰色理论的修复性维修器材需求的确定[J].四川兵工学报,2009,30(1):28-29.

动态回归模型 篇8

综合2010年《中国统计年鉴》提供的数据, 整理得到1987~2009年, 国内生产总值和我国第三产业增加值的信息如下表:

二、协整检验

第一步, 将GDP和第三产业增加值这两个变量取对数, 得到两个新的变量ly, lx。经过检验, 发现这个两个变量的数列经过二阶差分后均成为平稳的, 所以是同阶单整关系, 可以利用它们进行协整检验, 生成变量ly和变量lx的非均衡误差序列。

第二步, 检验非均衡误差序列的单整性。通过生产非均衡误差序列的ADF检验结果表可知, 两变量的非均衡误差序列在1%的显著水平之下达到平稳, 所以两个变量之间存在协整关系, 可以建立这两个变量之间的数学模型。

三、Granger因果关系检验

建立VAR (向量自回归) 模型, 选择最大滞后长度为4, 在运行后的选择标准表中, 按照赤池信息准则 (AIC) 和施瓦茨 (SC) 准则确定p值。通过对照VAR模型滞后期选择标准表可知该模型选择p=3作为滞后期。当滞后期为3时, 两个变量之间的因果关系检验结果如下表所示:

由两个变量的Granger因果关系检验结果可知, 当滞后期为3的时候, lx是引起ly变化的原因 (置信概率小于0.05, 推翻“lx不是引起ly变化的原因”这个假设, 得到“lx是引起ly变化的原因”这个结论) , 即第三产业增加值是影响国内生产总值变化的因素。

四、回归模型的建立与完善

考虑到之前VAR向量自回归模型已经验证, 两个变量之间的相会作用具有p=3的滞后期, 所以建立分布滞后期模型:

但是, 分布滞后期模型直接进行估计会存在自由度损失和多重共线性等问题, 所以将分布滞后期模型变形, 经过尝试, 在模型中加入一个一阶自相关变量和一个二阶自相关变量, 变为:

此时, 拟合结果中所有的解释变量在95%的置信水平下显著。当n=32, k=3时, 取显著水平为0.05, 查表得dL=1.24, dU=1.65, dL=1.24

五、结论及建议

综上可知, 我国第三产业增加值和GDP之间存在直接的因果关系, 第三产业增加值是GDP增长的一个很重要的动因。因此, 我国在强调GDP发展的时候, 不仅要重视提供生产资料的第一产业和进行加工生产的第二产业, 还要重视不进行直接物质生产, 但却直接影响人们生活质量, 国家经济实力的第三产业。

因为第三产业对GDP的影响有一个滞后性, 所以国家在制定政策促进第三产业发展的时候考虑的不仅是短期内的一个影响, 要有长远的战略部署。

参考文献

[1]台冰.人均第三产业增加值和人口城市化水平关系研究.西安交通大学学报, 2007, 27 (2) :24~27

[2]孔姗姗, 李晓琳.我国主要工农产品产量与第三产业增加值关系的分析——基于协整分析和Granger因果关系的实证分析.统计与管理, 2010:55

上一篇:盘点中国式主妇下一篇:老年文化活动的开展