基于R语言的国民经济回归模型比较分析

2022-12-15

1 引言

回归分析是建模和分析数据的重要工具, 传统的最小二乘法回归模型若解释变量间存在着多重共线性, 则会使得模型估计失准。岭回归实质上是加l1范数罚的最小二乘法, 是对不适定问题进行回归分析时最经常使用的一种l2正则化方法。类似于岭回归法, Lasso回归法用模型系数的绝对值函数作为惩罚来压缩模型系数 (l1正则化方法) , 使一些回归系数变小, 提高了模型的精度。

国民经济的发展是国家提升综合实力的有效保障, 对国民经济的分析, 是宏观上合理配置国家有限资源的需求。R语言由于其灵活性和功能的强大性, 是近年来各种统计分析软件中最受欢迎的之一, 本文利用R语言, 通过回归模型筛选出对国民经济影响最大的因素并建立Lasso回归、岭回归和线性回归三种回归模型进行比较分析。

2 数据的获取

本文以国内生产总值 (GDP) 为被解释变量Y, 解释变量分别为:国家财政收入 (X11) 、国家财政支出 (X12) 、邮电通信业务总量 (X2) 、工业增加值 (X3) 、固定资产投资完成额 (X4) 、货币供应量 (X5) 、货客运总量 (X6) 、进出口总额 (X7) 、社会消费品零售总额 (X8) 、居民消费价格指数 (X9) 等。数据全部选取2005年至2017年3月的季度数据, 数据来源于国家统计局网站 (http://data.stats.gov.cn) 。

3 实证分析

3.1 多重共线性的检验

本文对10个自变量进行Kappa检验, 其值为4130.963, 大于1000则说明, 变量间存在大量相关关系。

3.2 回归分析

通过R语言, 用传统的最小二乘回归法建立的回归模型为:

模型1变量间存在着大量的多重共线性情况, 通过R语言建立的岭回归和lasso回归模型的回归系数如表1所示, 两种回归模型筛选出对Y变量最有解释力的自变量均为:X12、X5、X7、X8和X9, 建立的岭回归模型和lasso回归模型分别为模型2和模

3.3 模型比较及分析

赤池信息量准则简称AIC准则, 是衡量统计模型拟合优良性的一种标准, AIC值越小则说明模型越优良。通过R语言得到的三个模型AIC值分别为:-98.2853 (模型1) 、-106.3484 (模型2) 和-107.9599 (模型3) 。AIC值最小的是模型3 (Lasso回归模型) 。在解释变量间存在严重多重共线性的情况下, 传统的最小二乘回归方法已经不能满足我们对模型的拟合要求, 岭回归和Lasso回归同时作为处理多重共线性情况的回归方法, 筛选出来的变量情况一样, 但是对回归系数的拟合Lasso回归方法却是更胜一筹。

本文通过岭回归和Lasso回归方法从10个解释变量中选出了5个最优解释变量, 其中回归系数绝对值从大到小排序是:, 则变量X8最能解释变量Y (GDP) 。

4 结语

综上所述, 本文对国民经济相关的10个解释变量和被解释变量GDP进行了三种不同的回归模型拟合, 通过对三种回归模型优良性检测发现, 效果最好的便是Lasso回归模型。Lasso回归方法是当今统计学中最受欢迎的一种回归方法, 本文利用R语言, 通过Lasso回归方法筛选出5个最有解释力度的解释变量:X12 (国家财政支出) 、X5 (货币供应量) 、X7 (进出口总额) 、X8 (社会消费品零售总额) 和X9 (居民消费价格指数) , 并建立了回归模型。国民经济情况与国家的经济发展息息相关, 研究国民经济发展情况可以更明确的帮助预测和决策国家经济的发展。

摘要:回归分析估计了两个或多个变量之间的关系, 而模型和变量的选择是现代统计学中最重要的问题之一。本文基于R语言对与国民经济相关的11个解释变量用Lasso方法筛选出最佳的五个变量建立了回归模型, 并与传统的线性回归模型和岭回归模型进行了比较。

关键词:R语言,回归分析,Lasso,国民经济

参考文献

[1] 王松桂.线性模型的理论及其应用[M].合肥:安徽教育出版社, 1987.

[2] Tibshirani R.Regression shrinkage and selection via the lasso[J].Journal of the Royal Statistical Society.Series B (Method-ological) , 1996.

[3] herl A E, Kennard R W.Ridge regression:applications to non-orthogonal problems[J].Technometrics, 1970 (1) .

[4] marquardt D W.Generalized inverses, ridge regression, biasedlinear estimation, and nonlinear estimation[J].Technometrics, 1970 (3) .

上一篇:建筑消防工程存在的问题和对策下一篇:建筑工程施工领域当中框剪结构技术措施得到的应用