多元线性回归算法

2024-06-05

多元线性回归算法(精选十篇)

多元线性回归算法 篇1

瓦斯涌出量与煤层厚度、煤体结构、地质构造、埋藏深度等诸多自然因素及开采技术等有关[1,2]。这些因素之间通常相互制约、互为因果, 致使收集和统计的历史数据往往不很精确, 且是模糊的;而未来相关变量数据也为估计数, 同样是模糊的。经典线性回归模型 (要求变量历史数据和模型参数为精确数) 难以完全反映变量间的耦合关系, 模型误差也会造成回归值和预测变量实际值的差距。因此, 经典线性回归模型不适宜于统计数据是模糊数的瓦斯涌出量预测, 而模糊多元线性回归 (Fuzzy Multivariate Linear Regression, FMLR) 预测可以较好地解决此类问题。另外, 利用遗传算法 (Genetic Algorithms, GA) 的全局搜索能力及对不同数据的极强适应能力可以获得比较精准的模糊回归系数。因此, 本文提出一种基于遗传算法模糊多元线性回归分析的瓦斯涌出量预测模型。实验结果表明, 该模型具有较高的精确度和可操作性, 且预测结果可以是相关量的取值范围, 而不是具体的值, 有效地扩大了相关量的适用范围, 提高了预测的可靠性。

1 模糊多元线性回归模型的建立

模糊多元线性回归预测是研究和处理变量与变量之间的模糊关系, 或模糊变量与模糊变量之间的关系, 从而可根据1个或几个自变量的值去预测模糊因变量的值。

1.1 对称三角模糊数

定义是一个对称三角模糊数[3], 则它的隶属函数为

式中:a为对称中心;δ为模糊幅值 (简称模糊度) , δ>0。

设预报量y与预报因子 (自变量) x1, x2, …, xn之间有多元回归关系, 即

式中:A0, A1, …, An为n个待估参数, 称为总体回归参数。

设有m组观测数据, 分别为 (yk, x1k, x2k, …, xnk) , k=1, 2, …, m。假设这m组数据满足以下关系式:

式中:ε1, ε2, …, εm为m个相互独立的随机变量, 其均值都为0, 方差为σ2, 即遵从同一正态分布N (0, σ2) , 这就是多元线性回归的数学模型[4,5]。

回归分析的问题是利用已知的m组观测数据去估计Ai (i=1, 2, …, n) 。在模糊性回归分析中, 认为Ai是模糊数, 模型的拟合值与观测值yk之间的偏差则是由这种模糊性所引起的。通常认为Ai为对称三角模糊数, 容易得观测值yk的隶属函数为

1.2 模糊多元线性回归模型的求解

模糊多元线性回归模型中的参数求解可以转化为约束优化问题求解:

(1) 为得到最小模糊度的模糊回归, 设定目标函数为

(2) 约束条件为每个观测值yk满足 (0≤h≤1, 在模糊集理论中称为“h水平截集”, 保证了没有隶属度小于h的yk, 这里取h=0.5) , ∀i=1, 2, …, n。于是, 有下面的约束优化模型:

式 (5) 的解为ai, δi。在Ai (ai, δi) 中, 如果ai≠0且δi=0, 则Ai为精确数;如果ai=0, 则在式 (2) 中将Ai项删除 (表明yk与xik不相关) 。

2 遗传算法求解约束优化问题

遗传算法具有全局寻优能力, 且对不同数据有极强的适应能力, 在解式 (5) 时能获得精准的参数值和目标值[6]。应用遗传算法求解问题的算法步骤:

(1) 初始化。定义种群规模M、交叉概率pc、变异概率pm、进化终止代数Gmax, 并设置初始进化代数G=0;

(2) 生成初始种群。随机产生N个初始结构数据, 每个串结构数据成为一个个体, N个个体组成一个群体, 遗传算法以该群体作为初始迭代点。

(3) 适应度评估检测。根据实际标准计算个体的适应度, 评判个体的优劣, 即该个体所代表的可行解的优劣。

(4) 遗传操作。用遗传算子生成下一代个体。采用选择算子、交叉算子和变异算子产生下一代群体。

(5) 终止条件判断:当G>Gmax时, 终止遗传算法, 输出最优解。否则令G=G+1, 转入步骤 (3) 。

遗传算法的Matlab实现, 除了自己编写程序 (非常复杂、繁琐) 外, 还可以采用Matlab提供的现成程序, 即遗传算法工具箱 (Genetic Algorithm Optimization Toolbox, GAOT) 。其主程序ga.m调用形式[5]为

式中:x为适应度函数 (目标函数) 取最小值时的参数取值;fval为目标函数在x处的值;ga为遗传算法工具箱中函数;@fitnessfcn为适应度函数的句柄;nvars为适应度函数的维数, 即变量数;A和b分别为不等式约束Ax≤b的系数矩阵和向量;Aeq和beq分别为等式约束Aeqx=beq的系数矩阵和向量, 缺省时用[]代替;Lb和Ub分别为变量的下界和上界;nonlcon为非线性约束条件Matlab的M文件名;options为遗传算法的选项结构。

本文采用遗传算法工具箱求解。

3 算例分析

3.1 数据统计

影响矿井瓦斯的绝对涌出量y的影响因素很多, 包括煤层瓦斯含量x1、煤层埋藏深度x2、煤层厚度x3、煤层倾角x4、开采厚度x5、工作面长度x6、日进度x7、采出率x8、临近层瓦斯含量x9、邻近层厚度x10、层间距离x11、层间岩性x12、开采强度x13等13个指标。其统计数据见参考文献[8]。对参考文献[8]中的统计数据采用灰关联分析法[9]计算出各影响因素的综合关联度, 按从大到小顺序排列如下:x3 (0.889 6) =x5 (0.889 6) >x1 (0.884 9) >x4 (0.688 8) >x9 (0.682 8) >x13 (0.645 3) >x2 (0.625 8) >x6 (0.586 0) >x10 (0.557 8) >x8 (0.513 2) >x12 (0.513 0) >x7 (0.511 0) >x11 (0.509 5)

关联度分析确定了与瓦斯涌出量关联度最高的7个影响因素依次为x3, x5, x1, x4, x9, x13, x2。再利用SPSS18软件进行回归分析, 剔除煤层厚度影响因素x3, 得到的决定系数为R2=0.997, 表明所选变量对瓦斯涌出量有显著的线性相关性。

根据关联分析和回归分析的结果, 选用x5, x1, x4, x9, x13, x2六个影响因素构建模型。这6个影响因素的统计数据见表1。

3.2 模糊系数计算及模糊多元线性回归方程建立

利用表1中序号为1—15的数据样本建模, 序号为16—18的数据样本用来检验所建模型的预测效果。将序号1—15的数据代入式 (5) , 并转化为式 (6) 所要求的形式, 即约束条件为Ax≤b的形式。适应度函数由式 (7) :

得到。

打开遗传算法工具箱的GUI界面, Fitness function窗口输入适应度函数句柄@fitnessfcn, 在Number of variables窗口输入变量数目14, 在Linear inequalities窗口输入矩阵A和向量b, Linear equalities窗口输入[], Bounds窗口输入Lower=[-10*ones (7, 1) ;zeros (7, 1) ], Upper=[10*ones (7, 1) ;ones (7, 1) ], 其他参数选缺省值, 然后单击Start按钮运行遗传算法, 得模糊中心值和模糊幅值, 结果见表2, 此时f=1.391 070 640 998 136×10-4。

根据表2得到模糊多元线性回归方程为

从式 (8) 可看出, 开采强度x13具有较强的模糊性, 其他因素的模糊性较弱。

3.3 模型检验

将序号16—18的数据样本代入式 (8) 得到瓦斯涌出量的预测值, 并与实际观测值比较, 结果见表3。表3中的模糊度ci由式 (8) (其中回归系数取模糊幅值δi) 及相应的样本数据代入求得。

注:相对误差是指中心值相对观测值的误差。

3.4 比较分析

参考文献[8]采用BP (Back Propagation) 神经网络分源预测模型、参考文献[10]采用多元线性回归模型分别对序号16—18的数据样本进行了预测, 结果见表4。

从表4可看出, 本文所建的模糊多元回归预测模型的预测效果非常好, 而且仅用了6个影响因素进行拟合预测 (检验样本的观测值与预测中心值的平均相对误差为0.040 27) , 好于参考文献[6] (17个影响因素) 的结果 (与本文一样的检验样本取绝对值之后的平均相对误差为0.041 96) 。参考文献[8] (13个影响因素) 中同样的样本数据的内推预测平均相对误差为0.027 02, 虽然好于本文结果, 但由于参考文献[8]没有测试样本, 仅是内推拟合结果, 模型的有效性没有得到进一步的检验, 且拟合结果在本文的预测区间内。而本文与参考文献[6]均采用了测试样本, 有效性和可靠性得到了检验。另外, 根据模糊多元回归预测模型求出的瓦斯涌出量不是一个准确值, 而是一个区间, 即存在一个最悲观的上限值和一个最乐观的下限值, 因此, 可以避免因具体预测值的不准确性所导致的错误判断, 提高了预测的可靠性。模糊多元回归预测模型突出的优点是可以避免少数指标变化较大或统计不准确带来的影响。

4 结语

瓦斯涌出量受多重因素的影响, 对相关变量的统计往往存在着不准确性, 且具有一定的模糊性, 为提高瓦斯涌出量预测的准确度, 提出一种基于对称三角模糊数的模糊多元线性回归预测模型, 可以有效避免统计数据不准确和存在的模糊性。该模型的预测结果不是一个准确值, 而是一个区间, 给出了预测结果的合理范围, 提高了预测的可靠性。

利用灰关联分析和SPSS软件回归分析法从众多影响因素中筛选出6个影响因素进行模型的构建。选已有数据样本的前15个数据样本作为模型模糊系数的确定, 用后3个数据样本检测模型的有效性。在模糊系数的求解过程中采用了遗传算法, 充分发挥遗传算法的全局搜索能力, 获得了三角模糊数的中心值和模糊幅值的精确值。通过测试样本的检验, 表明本文所建模型具有较高的预测能力, 预测结果更合理、科学。

参考文献

[1]王景山, 朱炎铭, 宋金栋, 等.矿井瓦斯涌出量预测方法综述[J].能源技术与管理, 2008 (4) :54-56.

[2]李志强, 王汉斌.煤矿瓦斯涌出预测方法研究[J].科技情报开发与经济, 2007 (17) :171-172.

[3]喻开志, 刘显全.一类区间约束的模糊线性规划问题解的存在性和稳定性[J].重庆师范学院学报:自然科学版, 2002, 19 (1) :43-44.

[4]刘严.多元线性回归的数学模型[J].沈阳工程学院学报, 2005, 1 (2) :128-129.

[5]李林, 刘坤.多元线性回归与GM (1, 1) 模型耦合预测城市用水量[J].水资源与水工程学报, 2008, 19 (1) :61-62.

[6]杨淑莹, 张桦.群体智能与仿生计算——Matlab技术实现[M].北京:电子工业出版社, 2012:15-22.

[7]许国根, 贾瑛.模式识别与智能计算的MATLAB实现[M].北京:北京航空航天大学出版社, 2012:176-177.

[8]朱红青, 常文杰, 张彬.回采工作面瓦斯涌出BP神经网络分源预测模型及应用[J].煤炭学报, 2007, 32 (5) :504-508.

[9]汤皓, 陈国兴.基于灰关联与人工神经网络综合评价模型的多层砖房震害预测[J].世界地震工程, 2006, 22 (4) :133-137.

多元线性回归法在水文预报中的应用 篇2

分析了水文预报的.主要影响因子,通过系数的最小二乘法建立方程组,采用了Matlab软件对其方程组进行求解,得出其多元回归方程,应用复相关系数对其回归效果进行了检验,结果表明,多元线性回归分析方法简单、误差较小、预报结果有效.

作 者:周文斌 车倩 ZHOU Wen-bin CHE Qian  作者单位:周文斌,ZHOU Wen-bin(东华理工大学土木与环境工程学院,江西,抚州,344000)

车倩,CHE Qian(抚州市建筑勘察设计院,江西,抚州,344000)

刊 名:山西建筑 英文刊名:SHANXI ARCHITECTURE 年,卷(期): 35(1) 分类号:P338 关键词:多元线性回归分析   复相关性   多元回归方程  

基于多元线性回归血压影响因素分析 篇3

【关键词】血压;影响因素;多元线性回归

一、多元线性回归模型

首先做出散点图分析血压与年龄、血压与体重指数(体重kg/身高m的平方)之间的关系,如下所示:

从图中可以看出:(1)随着年龄的增长血压有增高趋势,随着体重增长血压也有增高趋势;(2)总体上血压与年龄、血压与体重指数存在一定的线性相关关系。

建立多元线性回归模型:

其中,a0,a1,a2,a3是回归系数,ε是随机误差。结果如表(1):

由表知a1,a3的置信区间包含零点,需要改进模型,通过残差置信区间图,剔除异常点后得到改进后的回归模型,结果如表2

由上表知,此时所有参数置信区间不包含零点,F统计量增大,可决系数从0.6855增大到0.8462,得回归模型为

最后,对模型进行检验,说明模型合理性。

(1)残差正态检验:进行jbtest检验与t检验,,故残差服从均值为零的正态分布。

(2)残差异方差检验。进行Goldfeld-Quant检验,将28个数据从小到大排列,去掉中间6个数据,得到F统计量观测值f=1.6604,F(7,7)=3.79,可知f

(3)残差自相关性检验。进行D-W检验,D=1.4330,查阅表得,因为,所以残差不存在自相关性。

二、结论

由模型结果知,年龄增加1岁,血压平均升高0.4303/mmHg,体重指数上升1个单位,血压平均升高2.3449/mmHg,另外,长期吸烟对血压的变化影响巨大。

因此,对于中老年人,要注意控制体重,改掉吸烟的习惯,从而避免血压过高,出现疾病;对于偏瘦的年轻人,适当增重,从而保持血压的正常。

参考文献

[1]张宇山.多元线性回归分析的实例研究[J].科技信息,2009(9).

[2]吴礼斌.经济数学实验与建模[M].国防工业出版社,2013.06.

多元线性回归算法 篇4

本文采用线性回归方法实现对某条道路或者某片区域内的车流量及拥堵情况的预测, 为道路交通的管理决策提供参考依据, 为出行者的行车路线进行前期规划, 亦可为道路设计、红绿灯时间设置等提供设计依据。

1 车流量预测模型

1.1 系统综述

如图1所示, 用户首先输入所要预测区域的卡口编号, 然后输入所要预测流量变化的时间区间, 即可实现车流量的预测, 并将车流量的预测结果展示在页面上, 方面使用者直观的查看。

具体如下:

输入:输入用户需要查询的卡口号、起止时间及时间间隔, 对过车的平均速度进行查询。

选择卡口:通过在GIS上选择要查看的卡口, 将卡口号代入到流量预测页面的卡口输入框中。选择要预测的卡口号, 点击确定按钮进入过车流量预测页面;点击取消按钮重新选择卡口。

起止时间:选择对卡口流量预测的开始时间与结束时间。

预测:对输入的卡口进行车流量预测。

车流量预测展示:将分析的结果以曲线的形式展示出来。如果输入历史时间, 则黑线是预测出的车流量, 红线是实际的车流量;如果输入未来时间, 结果将用黑线展示出来。其中横轴代表的是预测的时间段, 纵轴代表的是卡口的过车流量。

1.2 实现原理

本系统首先对卡口系统中的过车数据作数据清洗等预处理操作, 然后根据处理后的过车数据得到实际车流量曲线。然后采用时间序列方法结合最小二乘法对车流量预测模型进行建模, 其流程图如图2。

步骤如下:

(1) 对数据进行特征变换及归一化处理, 并将历史数据集与处理后的实时数据集合并在一起。

(2) 通过主成分分析方法对预测模型的各个特征属性对最终预测结果的影响值进行计算。

(3) 将各特征属性的主成分计算结果按从大到小的顺序进行排序, 通过设定阈值得到车流量预测模型的特征属性, 达到特征选择的目的。

(4) 确定包括历史流量特征属性在内的车流量预测模型的法方程。

(5) 利用最小二乘法对车流量预测模型的法方程进行求解, 从而确定最终的车流量预测模型。

1.3 测试结果

该车流量预测模型已在平安城市的卡口系统中应用, 其应用结果如图3。

图中横轴代表的是预测的时间段, 纵轴代表的是卡口的过车流量, 红线为实际的车流量值, 黑线为车流量的预测值, 水平红线为数据缺失时间段。由图3可知, 在数据缺失的情况下, 系统仍然有较高的预测精度, 可见该车流量预测系统具有较好的鲁棒性。

2 结束语

综上所述, 本系统针对当前城市中日趋明显的交通拥堵问题, 将基于时间序列的线性回归建模方法应用于道路车流量的预测进而得到城市道路中的拥堵点, 并可将预测得出的离散拥堵点合并为区域性的拥堵子区域。该系统可广泛应用于自动导航系统的路线规划以及城市道路交通的管理中, 有效提高道路的利用率、避免车辆进入拥堵区域。

参考文献

[1]郇洪江, 宫宁生, 胡斌.改进的BP神经网络在交通流量预测中的应用[J].微电子学与计算机, 2010, 27 (01) :106-108.

[2]杨兆升.城市交通流诱导系统理论与模型[M].北京:人民交通出版社, 2000.

[3]郑应文.基于信息融合的交通拥堵智能预警系统研究[C]第十一届中国人工智能学术年会, 2005年, 会议记录ID:6145707.

多元线性回归算法 篇5

讨论约束条件下多元随机效应线性模型中回归系数和参数的.线性估计的可容许性,在二次损失函数下,给出了随机回归系数和参数的线性估计分别在齐次和非齐次线性估计类中是可容许估计的特征.

作 者:张尚立 伍长春 ZHANG Shang-li WU Chang-chun 作者单位:张尚立,ZHANG Shang-li(北京交通大学理学院,北京,100044)

伍长春,WU Chang-chun(嘉兴学院数学与信息科学学院,浙江,嘉兴,314001)

多元线性回归算法 篇6

【关键词】多元线性回归 银行网点 资源配置

一、引言

随着互联网金融的深入发展,其弱物理化的实质,对银行物理网点传统上的经营客观造成了较大冲击。为了顺应发展,各银行也借鉴国内外经验,纷纷推出“小而精”、“个性化”、“智能化”的网点,以多元化转型服务迎接移动互联时代的挑战。银行渠道管理理念也应同步甚至未雨绸缪。作为银行经营成本最昂贵的渠道,物理网点的营运已不能沿用传统方式,仅通过市场经验来判断营业面积、设施、人员等资源投放,甚至粗放式的追求大面积营业网点、豪华装修形象工程,来取得竞争优势。渠道资源投入应有大数据的思维,基于对历史数据的提炼分析,以及未来宏微观经济发展的预测,选择最优的资源投入品种和数量,在确保客户体验的同时,优化渠道投入产出结构,促进经营效能最大化。

本文拟采用多元线性回归模型对于银行物理网点的资源投入进行实证分析,可以对未来网点资源投入进行预测,以使资源得到合理配置。同时也为网点制定未来营运计划提供方法论依据。

二、指标选取

衡量网点资源配置合理性的指标较多,应根据全面性、代表性、科学性以及数据的可获得性原则选取指标。本文从网点资源配置的一个实例,即网点设备配置入手,探讨影响资源配置的经济指标。

网点的设备配置与设备自身功能类型、网点业务结构、设备对客户服务能力、网点最大负荷能力、客户对设备的潜在接受程度等因素相关。根据对设备需求的影响因素分析,预选取的经济指标为:设备功能覆盖、业务结构、日均服务能力、客流高峰、客户年龄结构这5类。本模型中样本数据来源于国内某商业银行经过一段时间运营验证设备配置合理的45家网点。

三、模型构建与检验

(一)研究假设

基于对网点设备配置的专业知识和经验判断,我们选取了设备功能覆盖、业务结构、日均服务能力、高峰服务能力、客户年龄结构这5类经济指标,作为预测网点设备配置的解释变量。结合数据的可获得性,考虑数据自身特点,本文假设影响网点资源配置数量的解释变量如下:

Y:合理的设备配置数量

X1:设备功能覆盖率=设备日均业务量/网点日均业务总量;

X2:业务结构比率=对私日均业务量/网点日均业务总量;

X3:日均服务能力=In(设备日均服务客户量)

X4:高峰客流压力=In(网点高峰客流量)

X5:客户年龄结构=网点到访客户里中青年客户占比

设备日均服务客户量、网点高峰客流量的量纲较其他因变量大得多,取对数形式,可减少多重共线性,并在一定程度上消除量纲影响。

(二)模型构建

根据假设条件设置网点设备配置的多元线形回归模型为:

运用Eviews8.0对45家网点数据进行OLS回归,初步回归结果如下:

由回归结果可知,解释变量整体对因变量拟合的相关系数Adjusted R-squared=0.854067,整体拟合程度较好。回归的常数项的t统计的P值>0.05,不能拒绝该项显著为零的原假设。解释变量X1、X3、X4、X5的参数t统计的P值小于0.05,拒绝原假设,设备功能覆盖率、设备日均服务能力、网点高峰客流压力、客户年龄结构对于网点的该种设备配置有显著的影响。

剔除影响不显著的因素,重新进行OLS回归,得到设备配置初步回归模型为:Y=1.34029X1+0.434947X3+0.376715X4+ 1.605963X5

(三)模型检验

应用OLS时要求模型的误差项必须满足无偏性、同方差、无序列相关、解释变量和误差项相互独立。由于本文构建的模型并非采用时间序列数据,故而进行异方差、多重共线性检验。

1.异方差检验。采用White检验法,由于Obs*R-squared的概率值0.3184大于显著性水平0.05,所以不能拒绝原假设,原回归模型不存在异方差。

2.多重共线性检验。解释变量X1、X3、X4、X5的两两之间相关系数如下表,由于X3和X4的相关系数为0.778374,存在较强相关性,因此需要对模型进行修正。

(四)模型修正

由于只有X3与X4的相关性较为显著,故而本文采用逐步剔除的方法对回归模型进行修正。运用OLS方法分别做出因变量Y对X1、X3、X5解释变量的回归;以及因变量对X1、X4、X5解释变量的回归。优先选择整体拟合程度更好,且各解释变量在统计上显著不为零的回归结果。经分析,应保留X1、X3、X5作为回归模型的解释变量。进一步检验修正模型的有效性,对其进行无常数项的回归,经检验不存在异方差以及多重共线性。

经过反复回归验证,最终构建出的网点设备配置的多元线性回归模型如下:

设备功能覆盖率、设备日均客户服务能力、客户年龄结构这几个自变量对因变量起到了显著的影响。

四、模型应用

根据实证分析结果,对于该种类型的设备配置,为达到科学合理的投入产出运行效果,应从设备自身功能类型、对客户服务能力、客户接受程度着手进行分析预测。如果这三方面的条件发生较大变动,可运用模型的线性关系对设备投入进行调整,确保资源的合理配置和有效利用。

对于物理网点营业场所、人员、设施、运行物料等相关资源投放,应充分分析,从宏微观视觉全面分析,选取有代表性、合理的经济指标,进行分析预测,从数量和结构上选择最优的方案,并且随内外在条件变化,调整资源投放结构,实现高效能的渠道经营管理。

应用多元线性回归分析城乡收入差距 篇7

在面对我国城乡收入差距不断扩大所来一系列问题上,本论文着重通过计量模型分析下列问题:

城乡收入差距在中国的发展现状如何?中国是否存在“库兹涅茨曲线”所描述的倒U型关系?

利用相关系数分析城乡收入差距与其影响因素的显著性如何?

利用线性回归分析选择城乡收入差距扩大的最优影响因素。

这些影响城乡收入差距的因素能否通过政策手段加以改变?

2 城乡收入现状分析

根据经济学中衡量城乡收入差距的基本参数是城乡居民收入比率和城乡居民人均消费比率。利用这两个指标可对我国城乡居民收入的差距给出基本评判。

3 城乡收入差距扩大解释变量实证研究

当前理论界关于我国城乡收入差距变动为何先改善而后继续恶化,以至于“倒U”假说的经典理论不成立,具有不同的解释。因此本论从比较综合,比较全面的角度选取理论界所提出的影响因素,概括而言,可以认为影响城乡收入差距的因素主要有经济发展、制度和政策、城市化程度、人力资本、经济体制改革、城乡居民消费水平。[2]

3.1 变量选择说明

根据上述所确定的城乡收入差距的影响因素分析,将利用统计分析研究确定城乡收入差距的与其相关因素构建数量关系。由于在指标选取过程,有些指标无法取得数据,所以本为主要选取对于每个影响因素具有代表性影响的指标。

3.1.1 被解释变量[2]、[3]

城乡人均收入差距(y):以城镇居民人均收入可支配收入与农村居民人均收入比来描述城乡收入状况。其值越大,表示城乡收入差距越大。

3.1.2 解释变量[2]、[3]

a.经济发展以人均国内生产总值GDP(x1)作为其重要指标;目前中国的经济发展水平还比较低,按照边际产出理论、库兹涅茨理论假设我们知道中国城乡收入差距处于不断的扩大,因此我们可以初步的认为,人均国民生产总值与城乡收入成正相关。

b.制度和政策的因素主要选取两个指标,即国家财政支农支出占财政总支出比例(x2)和每年农民所交各农业税额(x3);一般情况下政府可以通过税收和支付手段解决城乡收入分配不均问题。因此我们可以认为政府支农支出与城乡收入差距呈负相关,而税收与城乡收入差距呈正相关。

c.城市化程度因素主要选取指标为:非农人口在占总人口的比例(x4);我们认城市化程度越高,则城乡收入差距则越小,因为城镇化程度高说明非农业人口减少,即农村劳动力流入城市比较多,则农村居民收入提高;可知城市化程度与城乡收入成负相关。因此计算时要取其倒数。

d.人力资本影响主要选取指标为:劳动力平均教育水平为初中以上文化占农村劳动力的比重(x5);由于国民的素质的提高可以消除收入差距,因此可以认为教育水平与城乡收入差距呈负相关,即教育水平越高,城乡收入差距越小。因此计算时取其倒数。

e.经济体制改革影响选取指标为:国有企业员工占总员工比例(x6);在经济体制改革中,由于国有企业的改革,造成了下岗,影响到职工收入,因此可认为国有企业员工占有率与城乡收入差距呈负相关,即国有企业员工多,则城乡差距越小。

f.城乡居民消费水平选取指标为:城镇居民人均消费支出与农村人均消费支出比(x7);由于消费水平受到收入的影响,说明消费支出多即收入就多,因此可认为城乡消费比与城乡收入差距呈正相关,即消费比越大,城乡收入差距就大。

3.2 解释变量的显著性检验

将应用spss软件,来检验解释变量与被解释变量的相关性。检验数据来源《中国统计年鉴》以及http://www.stats.gov.com/中华统计年鉴网,样本时间为1995-2004年连续10年时间序列。应用spss软件做相关系数分析,我们可以得出结论是城乡收入差距与以上的因子选择具有显著的相关性,因为各个因子的Sag的值都小于0.05。这说明解释变量和被解释变量之间的线性相关性是显著的。

4 利用多元线性回归模型选择最优影响因子

设随机变量y与一般变量的线性回归模型为:[3]

其中,是p+1个未知参数,称为回归系数。y称为被解释变量,而是p个可以精确测量并可控制的一般变量,称为解释变量。当p=1时,即为一元线性回归模型,时,我们称式(3.1)为多元线性回归模型,是随机误差,与一元线性回归一样,对随机误差项我们假定为

称为理论回归方程。

下列对于我们城乡收入差距的实例进行研究,对于一个实际问题,我们获得N组观测数据(,则线性回归模型(4.2)可表示为

在建立线性回归模型后,我们要对回归方程进行总体检验,即检验在总体水平上,因变量和自变量之间有没有线性关系,这是对总体的其他情况进行线性统计推断时重要的前提。确定系数R2可以用来评价线性回归方程的拟合优度。也就是说,这个量以及它的算术平方根R本身就是推断总体是否有线性关系的统计量。

利用spss软件检验回归方程的拟合优度:结果如下图1。

相关系数R2能够说明:这些自变量能够解释因变量总变化的百分比。从图可以看出R2=0.984。也就是说,回归方程中的7个解释变量可以对程序收入差距进行98.4%的解释。这说明这个回归方程的拟合度是很不错。

但在回归方程拟合度不错的情况下,还要进行多重共线性检验。方差膨胀因子法:记为预测变量关于所有其他预测变量作回归得到的复相关系数之平方。那么xj的方差膨胀因子为:

从上面公式中可以看出,若与其他预测变量有较强的线性关系,那么将接近于1,从而就会很大,方差膨胀因子的值大于10,常被视为数据有共线性问题的一种信号。将利用方差膨胀因子法进行检验,利用spss软件对各个影响因子的进行多重共线性检验。即检验结果如图2。

从上述的图表中各知道每个变量因子的方差膨胀因子都远远大于10,所以可以说明,各个变量因子存在着严重的共线性问题。因此我们要消除共线性现象,而消除共线性的方法主要采用向后回归法、向前回归法、逐步回归法、岭回归方法和因子剔出法,将采用逐步回归法选择最优影响因子。利用spss选择最优影响因子,即结果如图3(总体回归的显著性检验)和图4(影响因子的显著性检验)

根据以上分析结果,得到城乡消费的回归的最优因子,从图表中可以看出F的检验水平,,且sig.=0.000。这说明在总体水平上检验是显著,而城乡消费比这个因子是线性回归的最优因子。

即可建立回归方程为:y=0.157+0.902x1

从实际来看,城乡消费水平是由城乡收入的水平决定,它是最直接的影响因子,可以说缩小城乡收入差距最直接的办法就是增加农民收入。因此我们应该采取直接或间接的措施增加农民收入,从而缩小城乡收入差距。

结束语

本论文讨论了我国城乡收入差距问题在偏离了库兹涅茨理论情况下,提出了影响城收入差的多个因子,可以说明城乡收入差距不断扩大不能归结于某一个原因,在我国是一个比较复杂的问题,由于中国特殊的国情,与西方国家不同,因此不能把西方国家的评价标准放到我国来进行评价。但本论文应用多元线性回归结果可以明确一个重要问题,不管是什么原因影响了城乡收入差距不断扩大,对于目前最重要的是要增加农民的收入,政府应该尝试各种办法提高农民收入,这是目前减小城乡收入的最亟需解决的问题。[6]

参考文献

[1]周皓.统计基础和SPSS11.0[M].北京:清华大学出版社,20041,1.

[2]郭兴方.基于多因素的我国城乡收入差距实证分析[J].中国人口资源与环境,2005,15:14.

[3]高展军,于文祥,杜寒芳.城乡收入差距解释变量的实证研究[J].交通运输与经济,2005,7,3。

[4]林文浩.概率与数里统计[M].福建:厦门大学出版社,200,28.

[5]喻晓东.城乡收入差距继续扩大的原因和解决途径[J].农村经济,2006,6

多元线性回归算法 篇8

1.1 多元线性回归模型

回归分析是以若干变量的观测数据为出发点, 通过对这种数据结构的分析研究, 寻找变量间存在的依赖关系, 它是研究变量间相关关系的一种数理统计分析方法。

设因变量Y与K个解释变量X1, X2, …, XK之间具有线性相关关系:

Yi=β0+β1X1i+β2X2i+…+βiXki+u i = 1, 2, …, n (1)

对应于解释变量的每组观察值 (X1i, X2i, …, Xki) , 因变量Yi的值是随机的, 其可能取值的集合形成一个总体, 则称

E (Yi) =β0+β1X1i+β2X2i+β3X3i+…+βKXKi (2)

为K元线性总体回归方程。多元线性总体回归方程是未知的, 需要抽取样本观察值对其进行估计, 则式 (2) 的多元线性样本回归方程形式为

undefined;

其中undefined是总体均值Yi的估计, undefined是总体回归系数βi的估计, 残差ei是随机扰动项ui的估计。在多元线性回归模型中, 假定E (ui) =0, var (ui) =E (uundefined) =σ2。

1.2 多元线性回归模型的检验

(1) 拟合优度检验。

多元线性回归方程的拟合程度可通过可决系数R2判断。

undefined

其中ESS为回归平方和, TSS为总离差平方和, RSS为残差平方和。R2越接近1, 多元线性回归方程的拟合度越高。

(2) 多元线性回归方程的显著性检验。

多元线性回归方程的显著性可通过统计量F进行检验。统计量F为

undefined。

若F≥Fα (k, n-k-1) , 认为回归方程显著成立;

若F

(3) 参数估计的显著性检验。

多元线性回归方程参数的显著性可通过t检验来进行。统计量t为undefined。

若undefined, 表明Xi对Y有显著性作用;

若undefined, 表明Xi对Y的作用不显著。

2 采用多元线性回归对哈尔滨市物流系统年货运量进行定量分析

2.1 数据采集

本文采用哈尔滨市统计局公布的1990年至2006年年货运量数据及与之相关的一些经济指标数据进行定量分析。详见表1。

2.2 数据处理

结合表1数据, 将“年货运总量”设为因变量y, 其他4个经济指标作为影响因素设为解释变量x1, x2, x3, x4分别代表“年生产总值”、“社会消费品零售总额”、“固定资产总投资额”、“运输、邮电部门固定资产投资额”。使用SPSS统计软件对原始数据进行标准化处理, 并进行多元线性回归分析, 得出βi (i=1、2、3、4) 值, 如下:

β0=4026.614, β1=17.40676, β2=0.125370, β3=0.018223, β4=0.022603。

由方程 (1) , 可得多元线性回归模型如下:

Y=4.026.614+17.40676x1+0.125370x2+0.018223x3+0.022603x4;

(1) R2=0.941238, 说明建立的多元线性回归方程拟合度较好。

(2) 对于显著性水平α=0.05, F0.05 (4, 12) , F=1508.9624>3.26, 所以回归方程十分显著。

(3) 设α=0.05, t0.025 (12) =2.179, 系数βi对应的ti分别为:t1=4.35783, t2=3.51326, t3=37.5758, t4=31.6027, 其中|ti|>2.179, i=1, 2, 3, 4.所以解释变量对y的线性作用显著。

2.3 结果分析

(1) 在多元线性回归方程中, xi的系数最大, 说明国民生产总值的提高对货运量的增大具有显著的作用。1995年哈尔滨市的物流业产值为23.01亿元, 占GDP的4.3%, 低于全国平均水平1.9个百分点。物流业的增加值占第三产业15.1%, 低于全国平均水平1.9百分点. 2003年物流业产值达到112.54亿元, 占GDP的8.3%, 占第三产业19.9%。比重增大说明随着GDP的增加哈尔滨市对物流的需求也在不断扩大。因此, 随着国民生产总值的增加, 有必有适当增加对物流领域的投入力度, 以适应经济各领域协调发展。

(2) 固定资产投资总额和运输邮电部门固定资产投资总额对物流年货运量的影响相对于国民生产总值在模型中起的作用明显偏弱, 说明哈尔滨市物流设施投入还很不足, 如在六七十年代兴建的仓储设施有的依然在使用, 现代化的物流园区, 基础通信网络建设等其他物流设施明显少于物流业相对发达的长三角、珠三角地区。

(3) 在回归模型中, 虽然社会消费品零售总额x的作用没有年生产总值x1那样明显, 但是作为衡量一座城市物流经济的重要依据, 社会消费品零售总额的作用同样不可低估, 由于β2=0.125370, 可知此项指标与年货运量成正相关的关系, 可以预见随着消费者对于物资的需求的日益旺盛, 社会消费品零售总额必将增加, 这也必将带动货运量的增长。

3 哈尔滨市物流系统年货运量影响因素定性分析

为了更全面透彻分析哈尔滨市物流系统年货运量的影响因素, 除了上述从定量角度研究外, 我们也不能忽视定性分析的作用, 在此主要着眼于分析当前影响哈尔滨市年货流量的不利因素。

(1) 部门分割, 使各系统物流资源的管理权限被分别划分为若干部门, 而且部门之间、行业之间缺乏沟通联系, 而物流的特点则是必须依靠系统之间的有机联结才能完成, 所以这在相当程度上影响和制约着物流系统的年货运量。

(2) 政府对物流业投资不足, 银行信贷未向物流业倾斜, 物流企业积累少, 基础设施落后, 经营模式、管理技术和水平不能满足市场需求。

(3) 物流业信息化程度较低, 计算机人员普遍缺乏系统分析和设计能力, 多数物流企业尚未建立完善的物流信息管理系统 (MIS) 、电子数据交换技术 (EDI) 和货物跟踪系统等, 这样导致物流系统效率低下。

(4) 目前哈尔滨市物流作业环节使用的设备, 如各种运输工具、包装容器、托盘、集装箱、仓库等物流设施和装备尚未形成统一的标准化体系。铁路、公路、民航、工业部门在建物流系统时, 或自行制订, 或选择不同的物流标准, 形式多样, 版本不一。物流非标准化装备、设施和行为仍相当普遍。

(5) 与国外和国内的北京、上海等地相比, 哈尔滨市物流教育还很落后。目前, 全市设置与物流相关学科的大中专院校屈指可数, 同时, 物流职业教育更显薄弱, 员工物流业务培训极少, 等等这些都构成了年货运量大幅增长的限制因素。

4 对于如何提高哈尔滨市物流系统年货运量的建议

定量分析和定性分析的结果显示, 哈尔滨市物流系统年货运量存在较大的上升空间。为此, 结合当前遇到的一些问题, 建议政府、企业和相关机构从下面几个方面进行改进:

(1) 政府牵头成立协调机构, 与有关部委协调, 建立多式联运体系, 同时积极扶持行业协会发展, 使其协助政府和有关部门进行物流监管和服务。

(2) 重视并加强对物流领域的投入, 发展流通现代化要重视现代交易方式、观念, 也要重视流通中硬件设施及有关技术等物质性因素的投入。

(3) 尽快出台相关法律、法规、政策, 逐步建立和完善物流行业的法规和规章制度, 制定物流市场经营规则, 以保证物流系统健康有序发展。

(4) 坚持标准化、规范化, 注重现有物流体系的整合, 扩大各物流实体的规模, 合理布局物流结点, 建立高效的物流网络体系, 逐步实现物流系统规范化、网络化发展, 从而逐步提高物流系统年货运量。

摘要:通过对哈尔滨市物流系统年货运量的实证分析, 了解当前哈尔滨市物流业的发展水平及影响物流行业发展的主要因素。年货运量是物流需求的一项主要指标。根据哈尔滨市1990年至2006年哈尔滨市年货运量、国民生产总值、社会消费品零售总额、固定资产投资总额、运输邮电部门固定资产投资总额的数据, 选用多元线性回归分析方法对哈尔滨市年货运量的影响因素进行了分析, 说明哈尔滨市物流需求未来几年将以较快的速度增长。同时也研究了当前物流系统中存在的问题, 并提出了相应的解决问题的建议。

关键词:货运量分析,多元线性回归,影响因素

参考文献

[1]李恩辕, 商有光.计量经济学[M].哈尔滨:哈尔滨工业大学出版社, 2007.

[2]白厚义.回归设计及多元统计分析[M].南宁:广西科学技术出版社, 2003.

[3]刚晓丹.现代物流业对黑龙江省经济的拉动作用与机制分析[J].哈尔滨师范大学出版社, 2008.

基于多元线性回归分析的用电量研究 篇9

当前电网企业对社会用电量的预测, 主要是通过经济形势、外部环境等因素分析进行估算, 针对电力需求分析与预测方法中对电力需求的影响因素分析不够深入。笔者试通过对东莞市的经济、电网运营数据进行统计分析, 对电量与国民经济有关指标之间的关系进行了探索, 分析了社会电量与国民经济等因素之间的关系。

2 电力市场概况与分析

2.1 影响用电量的潜在因素

(1) 国民经济发展水平

国民经济发展水平可用GDP指标来衡量。城市生产发展水平的高低、速度的快慢对电量的需求及使用存在较大的关联度。

(2) 气象

通过日常的负荷监控发现, 当高温天气持续期间, 空调或冷却负荷会逐步上升, 带动用电量增长, 用电量也将节节升高。

(3) 社会用电总户数和用电总容量

根据电网运营经验, 当社会用电户数不断增长时, 势必会导致社会用电总容量的增加, 用电总容量的增加也将导致社会用电量的增加。

(4) 电力消费结构

在全社会来看, 以常见的几大类电力消费划分:工业、商业、农业、居民用电。根据经验, 当地区的电力消费结构组成发生变动时, 相应的电力消费 (包括电费和用电量) 必然随之波动, 电网售电单价也随之改动。

2.2 常用的几种用电量分析与预测方法

(1) 灰色模型法

灰色系统理论是运用数学方法, 把一般系统论、信息论、控制论的观点和方法延伸到抽象系统, 成为一套解决信息不完备系统的理论, 具有原理简单、所需样本少、计算方便、预测精度高和可检验性强等优点, 对未来学的研究具有重要意义。

(2) 组合预测法

单一的预测方法难以对整个用电系统进行全面的分析。对于中长期的全社会用电量的预测及分析, 可通过预测方法的组合, 从不同的维度去对整个电网系统进行模拟和预测, 从而获得多方面的数据, 并有效地增加整个预测及分析结果的准确度。

(3) 多元线性回归分析法

在线性回归分析中, 随机变量是自变量, 非随机变量是因变量;若存在两个或以上的自变量, 则称之为多元线性回归。在电力系统研究中, 常见的因变量为电力系统中的用电量, 而如经济、人口、气候等可能影响电量的因素则为自变量。多元线性回归分析, 是通过给定的多组自变量和因变量数据, 通过数学方法研究因变量和自变量之间的关系, 并形成回归方程。多元线性回归分析法具有方法简单、预测速度快、外推性好的特点。

3 数学模型的分析与建立

3.1 定性分析

影响供电量的变量分析:以东莞市为研究对象, 根据电网运营的经验, 常见影响全社会用电量的因素有GDP、社会用电总容量、天气、电力消费结构等。研究该市从2011年至2014年第三季度每季度的相关历史数据, 包括每季度的全社会用电量、当地生产总值 (GDP) 、平均气温、平均售电单价、全社会用电总容量, 其中GDP来源于当地统计局网站, 平均气温来源于当地气象局网站, 其他数据来源自电网运营数据。对2011年至2014年第三季度的15组数据进行趋势分析, 如图1所示。

从图1可以看出, 在可能影响供电量的变量中, GDP、气温与供电量呈正向关系。每季度的用电量同比上升, 与社会用电户数及容量的增加有关联。因用电总户数的增减最终将导致用电总容量相应增减, 这里只对用电总容量进行分析。而受大工业两部制电价和供需关系影响, 平均售电单价与供电量呈负向关系。在这里, 笔者大胆假设, 供电量与GDP、气温、用电容量、平均售电单价之间存在线性关系, 并建立以下多元线性模型:

其中:

Q——全社会用电量, 单位为亿千瓦时;

G——GDP, 单位为亿元;

T——平均气温, 单位为摄氏度;

Pr——平均售电单价, 单位为元/MW;

Ca——全社会用电容量, 单位为万千伏安;

Con——常量;

X1、X2、X3、X4——系数。

3.2 定量分析

使用Eview对GDP、气温、用电容量、售电单价四个变量共15组数据进行线性回归分析, 得出结果如下:

R2分析:R2为92.83%, 说明在15组数据中, 搭建的回归方程拟合程度高达92.83%, 已经远高于线性回归分析中的常规值 (80%) 。由此可判断, 该线性回归方程具有较高的拟合度, 是有效的。

T值分析:四个自变量 (G、T、CA、Pr) 的T值绝对值均大于2, 均对因变量产生影响, 都属于有效变量。

通过上述线性回归运算与分析, 可以得到因变量 (Q) 与四个自变量之间的数据方程, 即:

综上所得, 工业GDP、气温、用电容量的参数大于0, 而平均售电单价的参数小于0, 这与前面定性分析相符, 建立的数学方程是有效的。

结语

本文以东莞为分析对象, 对该地区的经济、外部环境、电网运营数据进行统计分析, 并利用线性回归理论建立了电量与GDP及多种经济指标关系的数学模型, 探索电网企业的运营规律。该数学模型可以作为电网企业的电量分析模型, 为电网企业在该地区的电量预测、企业经营方面提供参考依据。

参考文献

[1]陈国华.电网企业电量、电价与利润的经济运行规律初探[J].会计之友, 2012 (12) :7-10.

[2]彭鹏, 彭佳红.基于多元线性回归模型的电力负荷预测研究[J].中国安全生产科学技术, 2011, 7 (09) :158-161.

[3]韩丹, 张宏波, 贾勇.基于多元线性回归模型的电力负荷预测研究[J].吉林电力, 2009, 37 (03) :16-27.

[4]彭鹏, 彭佳红.基于多元线性回归模型的电力负荷预测研究[J].中国安全生产科学技术, 2011, 7 (09) :158-161.

[5]靳忠伟, 黄学政, 单葆国.新型线性回归模型及其在山东电量预测中的应用[J].山东电力高等专科学校学报, 2004 (07) :201-203.

多元线性回归算法 篇10

1 压裂效果分析

据统计,2005—2009年大庆油田聚合物驱共实施采出井压裂1 697口,占总油井数的21.8%,总体取得了压裂初期单井日增油10.49 t、含水下降1.89个百分点的效果,其中含水下降期和含水低值期实施的井数为1 276口,占总措施井数的75.2%。统计某开发区151口不同时期压裂井发现,含水下降期和含水低值期措施初期单井日增油10 t以上,累计增油在800 t以上,有效期150 d以上,效果明显好于其他时期(表1)。

由于措施实施时处于见效期,压裂效果影响因素较多,所以含水下降期和含水低值期压裂措施效果成为压裂效果分析的重点和难点。

2 影响因素分析

通过资料调研,选择注聚时含水、注聚时单井日产、压裂时含水、压裂时单井日产、压裂层段有效厚度、渗透率、孔隙度、含油饱和度、井底流压等作为影响压裂效果的主要因素。以注聚时含水等因素为自变量,以累计增油量和有效期为因变量,运用灰色关联分析法[7]对自变量与因变量的关联程度进行分析。

选取了17口井的实际压裂数据(表2),将各个影响因素与压裂效果进行灰色关联分析,得到了各影响因素与增油量和有效期的关联程度(表3)。

关联度排序:增油量为压裂时含水>有效厚度>压裂时单井日产>含油饱和度>渗透率>注聚时含水>注聚时单井日产>井底流压>孔隙度;有效期为有效厚度>压裂时含水>压裂时单井日产>含油饱和度>注聚时含水>渗透率>注聚时单井日产>孔隙度>井底流压。

3 压裂效果预测方法的建立

利用灰色关联分析的结果,选择相关性较强的前6个因素(关联度>0.7)作为自变量,选取前10口井的实际增油量和有效期结果进行多元线性回归[8](表4)。

通过多元回归得到增油量回归系数和各系数的敏感度观察值t(表5)。

对回归公式整体的显著性进行检验:按给定的显著水平α=0.05,在自由度为3时,查F临界值分布表得到临界值F0= 7.77×10-5,显著性观察值F=780.5≫F0,说明整个回归方程是显著的。

对回归公式的每一个参数的显著性进行检验:按给定的显著水平α=0.05,在自由度为3时,查t值分布表得到临界值t0=3.18,对照表5中每个自变量的t值,均有观察值t>t0,因此得到增油量的回归公式

相关系数R2=0.999 4。

利用同样的方法建立了有效期的回归公式

相关系数R2=0.999 2。

将后7口井的增油量和有效期数据作为检验数据,经过检验,利用多元线性回归理论建立的预测方程可以预测聚驱采出井压裂的增油量与有效期,预测精度较高,相对误差在5%以内,可以满足实际生产要求(表6)。

4 结论

(1) 现场实际数据表明,聚驱采出井油层压裂应选择在含水下降期及含水低值期。

(2) 灰色关联分析结果表明,压裂时含水是影响增油量的最主要因素,含油饱和度是影响有效期长短的最主要因素。

(3) 运用多元线性回归方法建立了测算油井压裂增油量和有效期的预测方程,预测精度达到95%以上,可以满足实际生产的要求。

参考文献

[1]胡博仲,刘恒,李林,等.聚合物驱采油工程.北京:石油工业出版社,1997:1—250

[2]石成方,肖伟,王凤兰.聚合物驱油开发指标预测模型.石油学报,2005;26(5):78—80

[3]邵振波,付天郁,王冬梅.合理聚合物用量的确定方法.大庆石油地质与开发,2001;20(2):60—62

[4]方艳君,苗凡胜,孙建英.改善聚驱开发效果、延长有效期的做法.大庆石油地质与开发,2001;20(6):48—50

[5]杜丙录,罗群利,翟英斌.聚驱采出井压裂措施研究及效果分析.国外油田工程,2002;18(7):10—12

[6]蒋明,郭发军,陈洪,等.蒙古林砾岩油藏压裂效果预测新方法.石油钻采工艺,1999;21(2):69—73

[7]邓聚龙.灰色系统理论教程.武汉:华中理工大学出版社,1990:1—200

上一篇:资源节约型农业下一篇:常用工艺流程