利用逐步回归法对青岛的财政收入分析

摘要：一个地区的生产总值受多个因素的影响，很难对其进行准确的估计预测。

针对青岛地区生产总值，本文选取了几个主要的影响因素，利用SPSS17.0软件，应用逐步回归的统计方法，对数据进行了分析处理，得到了多元线性回归方程，

建立了青岛地区生产总值的简单数学模型，并对影响该地区生产总值的显著性因素进行了分析。

关键词：逐步回归分析 SPSS 生产总值预测方差引言

回归被用于研究可以测量的变量之间的关系，线性回归则被用于研究一类特殊的关系，即可用直线或多维的直线描述的关系。这一技术被用于几乎是所有的研究领域，包括社会科学、物理、生物、科技、经济和人文科学[1]。逐步回归是在剔除自变量间相互作用、相互影响的前提下，计算各个自变量x与因变量y之间的相关性，并在此基础上建立对因变量y有最大影响的变量子集的回归方程[2]。

SPSS(Statistical Package for the Social Science社会科学统计软件包)是世界著名的统计软件之一，目前SPSS公司已将它的英文名称更改为

Statistical Product and Service Solution，意为“统计产品与服务解决方案”。SPSS软件不仅具有包括数据管理、统计分析、图表分析、输出管理等在内的基本统计功能，而且用它处理正交试验设计中的数据程序简单，分析结果明了[3]。基于以上优点，SPSS已经广泛应用于自然科学、社会科学中，其中涉及的领域包括工程技术、应用数学、经济学、商业、金融等等。

如果要了解一个地区的经济状况，就很有必要对其财政收入和影响财政收入的因素作必要的认识，如果能对他们之间的关系作一下回归，并利用我们所知道的数据建立起回归模型这对我们很有作用。而影响财政收入的因素有很多，如吸引的外资总额，第一产业的发展情况，第二产业的发展情况，第三产业的发展情况等等。本文选取了山东青岛统计信息网上从1995-2007年财政收入及主要影响因素的数据，包括工业，农业，建筑业，交通运输仓储邮电通信业，批发和零售贸易餐饮业，金融保险业，总人口数。本文中为了方便讨论，我把因素定为：x1代表工业总产值；x2代表农业总产值；x3代表建筑业总产值；x4代表人口总数；x5代表批发和零售贸易餐饮业；x6代表金融保险业；x7代表交通运输仓储邮电通信业，y代表当年的青岛财政收入；y为随机变量，x1，x2„„x7为变量。如表一

所示

批发零售金融保交通运输.贸易.餐险

财政收入（亿元）

工业（亿元）

农业（亿元

建筑业

人口数

业亿

仓储.邮电通信业(亿元）

饮业（亿（

亿元）（万人）元）元） 1995 631.45 263.98 112.53 30.45 684.63 40.12 46.09 1996 710.19 289.91 132.81 38.58 690.27 45.65

51.3 1997 797.7

340 116.97

695.44

57.67

62.23

1998 888.39 366.87 140.4 46.88 699.57 69.99 57.34 1999 992.83

420.7 137.36 51.5 702.97 78.59 58.94 2000 1150.07

500.32 139.88 59.7 706.65 90.35 49.01 2001 1316.08 578.23 143.22 70.51 710.49 103.68 51.98 2002 1518.17

680.96 145.94

84.01

715.65 129.99

42.7

2003 1780.42

825.52 147.51 111.69

720.68 145.87

41.51 2004 2163.8 1024.08 161.8 147.32 731.12 160.56

52.3 2005 2695.82 1263.29 178.33 132.96 740.91 211.8 67.35 2006 3206.58 1527.49 183.95 149.68 749.38 238.4

87.56

2007

3 786.52 1 785.31 203.59 168.24

757.99

286.32 122.18

表1 青岛地区生产总值相关数据表

逐步回归的基本思想及方法

回归分析是研究因变量和自变量之间变动比例关系的一种方法，最终结果一般是建立某种经验性的回归方程。回归分析因变量的多少有一元回归和多元回归之分，本文中的回归模型因有6个因变量股为多元回归。在实际研究中，影响因变量Y的因素有很多，而这些因素之间可能存在多重共线性，特别是在各个解释变量之间有高度的相互依赖性，如温度和雨量、雨量与雨日之间的关系密切，这就给回归系数的估计带来不合理的解释。为了得到一个可靠的回归模型，需要一

41.6 54.21

64.22

70.01 84.25 105.89 120.97 140.75

166.49

211.34

287.35 343.84 397.75

种方法能有效地从众多影响Y的因素中挑选出对Y贡献大的变量，在它们和Y的观测数据基础上建立“最优”的回归方程。逐步回归分析法就是一种自动地从大量可供选择的变量中选择那些对建立回归方程比较重要的变量的方法，它是在多元线性回归基础上派生出来的一种算法技巧。

逐步回归分析法在筛选变量方面较为理想，故目前多采用该方法来组建回归

模型。该方法也是从一个自变量开始，视自变量对Y作用的显著程度，从大到小地依次逐个引入回归方程。但当引入的自变量由于后面变量的引入而变得不显著时，要将其剔除掉。引入一个自变量或从回归方程中剔除一个自变量，为逐步回归的一步。对于每一步都要进行F值检验，以确保每次引入新的显著性变量前回归方程中只包含对Y作用显著的变量。这个过程反复进行，直至既无不显著的变量从回归方程中剔除，又无显著变量可引入回归方程时为止。

本文运用SPSS for Windows软件的有关功能模块根据上述原理精选出一些配合较好和方差贡献大的自变量，组建回归方程。当F引 =F剔 =0时，则所有的变量全部被引入, 逐步回归分析结果就和一般的多元线性回归分析结果相同。当F取值比较大时，理论和实践都表明，在相同的F水平上，用逐步回归筛选出的显著变量个数往往比先引入全部变量后再剔除的办法要少一些。为了从挑选因子中筛选出尽可能多的因子建立回归预测模型，本系统可以自己给出F 临界值，计算机默认的F引为0.05，F剔为0.1, 如果入选的自变量因子数目不多，可通过人为降低F临界值的水平而筛选出更多的因子。如此时入选的因子太多，可人为提高F临界值的水平而筛选出有代表性因子来组建回归预测模型。如最后建立的回归预测模型的复相关系数不大，回归模型的拟合精度不太高，可根据这些入选因子来组建多元非线性回归预测模型。

建立回归模型及分析

将表1中的数据输入到SPSS软件中的数据区域，建立数据变量，如表二所示，即青岛地区财政收入y（亿元）、工业生产总值x1（亿元）、农业生产总值x2（亿元）、建筑业生产总值x3（亿元）、人口数值x4（万人）、批发和零售贸易餐饮业x5（亿元），金融保险业x7（亿元）、交通运输.仓储.邮电通信业（亿元）

表2 数据变量表

从SPSS17.0 for Windows菜单中选择Analyze→Regression→Linear，将变量“地区生产总值y”设置为因变量（Dependent），其余除年代外的数据设置为自变量（Independents），方法选逐步回归（Stepwise）

输出结果的分析

采用数理统计软件spss，用逐步回归法对表二数据计算，运行共得到6个表和2个图。它们分别为变量引入/剔除方式信息表（表三）、模型汇总表（表四）、方差分析表（表五）、模型回归系数表（表六）、被剔除的变量信息表（表七）、残差统计表（表八）、残差分布直方图（图一）和观测量累计概率P-P图（图二）。 1. 对变量引入/剔除方式信息表的分析

表3 变量引入/剔除方式信息表

表三显示变量的引入和剔除，以及引入或剔除的标准。系统在进行逐步回归过程中产生了5个模型，模型1是按照F检验的标准概率值，先将与y（青岛地区的财政收入）最密切的自变量X1（工业产值）引入模型，建立y与X1之间的一元线性回归模型，然后再把X2（农业产值）引入模型，建立了y与X1，X2之间的二元线性模型，最后分别依次把X5（批发零售贸易.餐饮业），X3（建筑业亿元），X4（人口数）引入模型，分别建立了他们与y之间的三元，四元，五元线性模型。

2. 对模型汇总表的分析

表4 模型汇总表

表四中显示了各模型的拟合情况，回归模型概述表中给出了y与自变量x1之间的相关系数R=1,调整判断系数为0.99说明变量y与x1之间具有高度显著线性关系，第二个到第五个模型相关系数都为1，说明该模型相关变量是因变量的很好的预测变量。

3. 对方差分析表的分析

表5 方差分析表

表五显示各模型的方差分析结果，对模型一：F等于18197.018，显著性概率Sig.

农业产值)，X5（批发零售贸易.餐饮业），X3（建筑业亿元），X4（人口数）存在高度显著的线性关系。 4. 对模型回归系数表的分析

表6 模型回归系数表

表六中显示各模型的偏回归系数，标准化偏回归系数及其对应的检验值。根据表中数据非标准化系数B的数值可知，逐步回归过程中先后建立的二个模型分别是：

模型1： Y = 128.945+2.018x1

模型2: Y = -100.755+1.916x1+2.053x2 模型3：Y = -57.533+1.759x1+1.570x2+1.161x5

模型4：Y = -47.173+1.812x1+1.536x2+1.291x5-0.695x3

模型5：Y = -1279.210+1.830x1+1.233x2+0.822x5-0.89x3+1.872x4

Beta的值的公式为：Beta = B*Sx/Sy,其中B为回归方程的非标准化回归系数，Sx为自变量标准差,Sy为因变量的标准差。在这二个模型中，代入五个自变量的值的值，可以计算出因变量y的标准化预测值、统计量值和t分布的双尾显著性概率Sig.,。在模型中，系数均小于0.05，可认为回归是显著的。 5．对被剔除的变量信息表的分析

表七被剔除的变量信息表

表七中显示逐步回归过程所建立的二个模型中剔除掉的变量信息，包括各变量的Beta值，t统计量值、双尾显著性概率、偏相关系数以及多重共线性统计（Collinearity Statistics）的容差。

对模型来说，它的偏回归系数的P值都大于0.05，接受原假设不能把这些变量加入方程中从多重共线性来看，它包含了最小容差值，它们的实际容差值都大于最小容差，可以认为他们的共线性在容许范围之内。 6.对残差统计表的分析

表8 残差统计表

表八显示预测值、残差、标准化预测值、标准化残差的最小值、最大值，均值，标准差以及样本容量。根据概率的3σ原则，标准化残差的最大值为2.303

说明样本中的数据中没有奇异数据。

7.对残差分布直方图和观测量累计概率P-P图的分析

图1 残差分布直方图

图2 观测量累计概率P-P图

回归分析中，总假定残差ε服从正态分布，这两张图就是根据样本数据的计算结果显示残差分布的实际状况，然后对残差分布是否服从正态分布的假设做出检验。

从回归残差的直方图与附于图上的正态分布两线相比较，可以明显看出残差分布与正态分布的相合性存在一定偏差。但由于用来进行分析的样本较小，样本容量仅为13，并不能服从否定残差正态分布的假设。

图二为观测量累计概率P-P图，也是用来比较残差分布与正态分布差异的图形。图中纵坐标为 Expected Cumulative Probability (期望累计概率分布），横坐标为 Observed Cumulative Probability （观测量累计概率分布）。

图二中的斜线对应着一个均值为0的正态分布。如果图中的散点密切地分布在这条斜线附近，说明随机变量残差ε服从正态分布，从而表明样本确实是来自于正态总体。如果离这条直线太远，应该怀疑随机变量ε的正确性。从图二的散点分布状况来看，13个散点大致散布于斜线附近，因此可以认为残差分布基本上是正态的。

结论

由上面的分析可知，模型5满足多元线形回归的假设条件，这样可以分析结果得到回归方程。在考察的对y（青岛财政收入）影响的7个因素中，分析结果为：工业生产总值x1（亿元）、农业生产总值x2（亿元）、建筑业生产总值x3（亿元）、人口数值x4（万人）、批发和零售贸易餐饮业x5（亿元）有显著性影响并进入回归方程：

Y = -1279.210+1.830x1+1.233x2+0.822x5-0.89x3+1.872x4 从上述分析的结果来看，我们不难理解，随着改革开放的不断深入，青岛市政府不断的夸大工农业的生产范围，使其在95年之后，呈现迅猛发展的势头，而通过统计的数据，我们可以看出，居民的数量每年以一定的比例不断攀升，在2007年的时候达到了758万，居民数量的不断攀升，更加促进了批发和零售贸易餐饮业的发展和房地产建筑业的兴旺，加上青岛市政府近年来不断加大基础设施建设，更加促使建筑业发展迅速，使这几个因素对财政收入的影响显著。

而交通运输.仓储.邮电通信业本次建模过程中却未能得到体现，这是可以理解的，青岛作为东部沿海的重要港口城市，其交通运输占有重要的地位，青岛市政府历来把交通运输业发在重中之重，也不会让交通运输也产生剧烈的变化而影响财政收入。

而金融保险业，在近年的发展过程中，青岛的国内生产总值不断攀升，其金融业的发展也在不断加快脚步，而且随着各个企事业单位的不断发展和人口数量的不断增加，其工业保险和各种人身保险一应俱全，保险业也在迅猛发展着。在在本次建模过程中却没有得到体现，它和财政收入之间应该存在着其他关系。

随着我国改革开放的深入，社会分工越来越细，经济中行业、产业趋于多元化，影响我国财政收入的因素也越来越多，非常复杂。例如：民营企业的发展，旅游业的兴起、对环保的重视、科学技术的进步、人们总体素质的提高等等。所以若要对财政收入做更细的研究，我们需要考虑更多的影响因素，做更多的分析。

参考文献

[1].孙海燕，周梦，李卫国，冯伟：《应用数理统计》，北京航空航天大学出版,1989年3月，第一版。

[2].郝黎元，樊元，郝哲欧等编著：《spss实用统计分析》，中国水利出版社，

2003年。

[3].张文彤编著，《spss统计分析教程》，北京希望电子出版社，2002年6月。 [4].袁卫，庞浩，曾五一编著，《统计学》，高等教育出版社，2001年。 [5].沅桂梅编著，《spss实用教程》，电子工业出版社，2000年8月。 [6] 喻开志：利用SPSS进行线性回归分析的一个实例，重庆工学院学报，2002年4月，第16卷第二期：29～30；

利用逐步回归法对青岛的财政收入分析

摘要：一个地区的生产总值受多个因素的影响，很难对其进行准确的估计预测。

建立了青岛地区生产总值的简单数学模型，并对影响该地区生产总值的显著性因素进行了分析。

关键词：逐步回归分析 SPSS 生产总值预测方差引言

SPSS(Statistical Package for the Social Science社会科学统计软件包)是世界著名的统计软件之一，目前SPSS公司已将它的英文名称更改为

所示

批发零售金融保交通运输.贸易.餐险

财政收入（亿元）

工业（亿元）

农业（亿元

建筑业

人口数

业亿

仓储.邮电通信业(亿元）

饮业（亿（

亿元）（万人）元）元） 1995 631.45 263.98 112.53 30.45 684.63 40.12 46.09 1996 710.19 289.91 132.81 38.58 690.27 45.65

51.3 1997 797.7

340 116.97

695.44

57.67

62.23

1998 888.39 366.87 140.4 46.88 699.57 69.99 57.34 1999 992.83

420.7 137.36 51.5 702.97 78.59 58.94 2000 1150.07

500.32 139.88 59.7 706.65 90.35 49.01 2001 1316.08 578.23 143.22 70.51 710.49 103.68 51.98 2002 1518.17

680.96 145.94

84.01

715.65 129.99

42.7

2003 1780.42

825.52 147.51 111.69

720.68 145.87

41.51 2004 2163.8 1024.08 161.8 147.32 731.12 160.56

52.3 2005 2695.82 1263.29 178.33 132.96 740.91 211.8 67.35 2006 3206.58 1527.49 183.95 149.68 749.38 238.4

87.56

2007

3 786.52 1 785.31 203.59 168.24

757.99

286.32 122.18

表1 青岛地区生产总值相关数据表

逐步回归的基本思想及方法

41.6 54.21

64.22

70.01 84.25 105.89 120.97 140.75

166.49

211.34

287.35 343.84 397.75

逐步回归分析法在筛选变量方面较为理想，故目前多采用该方法来组建回归

建立回归模型及分析

表2 数据变量表

输出结果的分析

表3 变量引入/剔除方式信息表

2. 对模型汇总表的分析

表4 模型汇总表

3. 对方差分析表的分析

表5 方差分析表

表五显示各模型的方差分析结果，对模型一：F等于18197.018，显著性概率Sig.

农业产值)，X5（批发零售贸易.餐饮业），X3（建筑业亿元），X4（人口数）存在高度显著的线性关系。 4. 对模型回归系数表的分析

表6 模型回归系数表

模型1： Y = 128.945+2.018x1

模型2: Y = -100.755+1.916x1+2.053x2 模型3：Y = -57.533+1.759x1+1.570x2+1.161x5

模型4：Y = -47.173+1.812x1+1.536x2+1.291x5-0.695x3

模型5：Y = -1279.210+1.830x1+1.233x2+0.822x5-0.89x3+1.872x4

表七被剔除的变量信息表

表8 残差统计表

表八显示预测值、残差、标准化预测值、标准化残差的最小值、最大值，均值，标准差以及样本容量。根据概率的3σ原则，标准化残差的最大值为2.303

说明样本中的数据中没有奇异数据。

7.对残差分布直方图和观测量累计概率P-P图的分析

图1 残差分布直方图

图2 观测量累计概率P-P图

结论

参考文献

[1].孙海燕，周梦，李卫国，冯伟：《应用数理统计》，北京航空航天大学出版,1989年3月，第一版。

[2].郝黎元，樊元，郝哲欧等编著：《spss实用统计分析》，中国水利出版社，

2003年。

利用逐步回归法对青岛的财政收入分析

相关文章