所属栏目:经济学论文范文发布时间:2011-02-25浏览量:171
副标题#e#摘要:本论文选出工业中10个重要产业的17年数据进行相关分析。旨在建立它们之间的多元线性回归模型,找出它们之间的相关关系,以及彼此的影响。对建立模型中主要遇到的共线性问题用各种方法来进行诊断,最终建立能比较正确反映实际情况的回归模型,并可利用回归模型进行产量的预测。
关键词:相关分析、线性回归、共线性诊断、预测
一.引言
一国经济的发展是由工业、农业、服务业等行业组成的,它们构成了国民经济的基础,其中工业对国民经济的发展尤为重要。工业是我国国民经济发展的重要依托和主导力量。1989年以来,我国工业经济在已取得成就的基础上迈出了新的重大步伐,工业品长期短缺的状况已成为历史,为促进国民经济持续快速健康发展,提高人民生活水平,加速实现现代化,发挥了重要作用。资料显示我国工业总量快速增长,一些重要工业品产量位居世界前列。1989年到2001年,工业增加值平均增长12.5%,2001年工业增加值达到42607亿元。2001年,我国钢产量达到1.52亿吨,原煤产量11.6亿吨,水泥产量6.6亿吨,化学纤维841.4万吨,平板玻璃2.1亿重量箱,均居世界第一;发电量达到14808亿千瓦时,位居世界第二。我国纺织、煤炭、建材、有色等行业在世界上具有相对优势,占有较大的市场份额。我国纺织服装占世界贸易总额的13%,已连续多年居世界首位。1989年到2001年,我国工业制成品出口增长5.4倍,年均增长16.7%,工业品出口占出口总额的比重已由1989年的71.3%提高到2001年的90.1%,工业占整个国民经济的比重也有1979年的48%上升到2001年的51%。这些都说明了工业在我国国民经济中的重要作用。
工业中的几大产业又与国民经济的发展息息相关,它们是国民经济的支柱,它们发展的好坏直接关乎国民经济的发展情况。本论文将就这些产业作出线性回归模型来分析它们之间的相关关系及对国民经济发展的影响。我们选出对国民经济发展有强烈影响的几大产业,这些产业有纺织、电视机、钢铁、生铁、发电、原油、煤炭、水泥、汽车、集成电路。对这些产业组成的时间序列我们可以看到国民经济的发展状况和变化趋势。但这些原始的数据并不能说明这些产业之间的相关关系以及对国民经济发展的影响。我们利用多元统计分析中的多元线性回归方法来建立线性回归方程,并借助SAS统计分析软件,对我国17年的这几大产业的产量建立多元线性回归方程,得到回归模型,并作进一步的统计分析,得到了它们之间的相关性,并可以利用得到的回归模型预测下一年的产量。
本论文是多元统计在经济分析中的实际应用,也看到SAS统计分析软件在经济分析中的重要作用。对这方面应用的研究,国内外已有不少的成果,但对建立各产业之间的线性回归模型来分析它们之间的相关关系,并不多见。我们主要对几大产业17年产量的原始数据,对选出的变量作出多元线性回归模型来模拟它们之间的关系及其对国民经济的影响我们仅就在这方面作一个初步的研究。
二. 模型描述
从《2003年中国统计年鉴》中主要工业产量数据表我们以17年的主要产业的产量为指标建立的数据如下:

上表和下面的分析中各变量分别表示的意思为:cloth—布匹,colortv—彩色电视机,coal—原煤,crudeoil—原油,electricity—发电量,pigiron—生铁,steel—钢铁,cement—水泥,car—汽车。
我们用reg过程建立多元线性回归模型,并对回归方法得到的结果进行分析。
用reg过程建立回归方程先进行回归模型和回归系数的显著性检验。如果模型显著且回归系数显著,那么得到的回归方程就是正确的;如果模型显著但回归系数不显著的话,那么就要进行变量间的共线性诊断,并用各种共线性处理方法来消除共线性关系,最终得到有实际意义的回归方程;如果模型不显著的话就要考虑改变模型建立其他曲线回归模#p#副标题#e#型。
1.模型建立
我们以steel为因变量,其他变量为自变量。在输入数据后,我们先画出因变量steel与其它变量的分布散点图。从得到的分布图我们可以看到steel与其它自变量之间大致呈线性分布,这说明我们可以建立steel与其它变量的多元线性回归方程。在进行残差分析时,过画出残差图,我们可以看到steel对其他自变量的残差图都是比较正常。这也说明我们要建立的多元线性回归模型是适当的,不需要进行模型的改进或者增加变量或者改为曲线模型。
由reg过程得到的部分回归结果如下:
从上面得到的结果中我们可以看到得到的回归模型是显著的(Pr > F的值<.0001),但在显著性水平 时回归系数却是不显著的(由Pr > |t| 值)。模型显著,但回归系数却不显著,这是由于变量之间存在共线性所致。且由Parameter Estimate的值我们可以看到electricity,cement 和intcircuit的估计系数都为负值,这与实际情况不相符合,这也说明变量之间存在共线性的关系。
2.共线性诊断
从上面的分析中我们看到回归模型显著,但回归系数却不显著,且有变量回归估计系数为负值与实际情况不相符合,这些可能都是由于自变量之间存在共线性的原因。
所谓共线性问题是指拟合多元线性回归时,自变量之间存在线性关系或者近似线性关系。自变量之间的线性关系将会隐蔽变量的显著性,增加参数估计的方差,还会产生一个很不稳定的模型。
共线性诊断的方法是基于对自变量的观测数据构成的矩阵 进行分析,使用各种自变量间相关性的指标。共线性诊断常用统计量由方差膨胀因子VIF、条件指数和方差比例等。
方差膨胀因子VIF是指回归系数的股价由于自变量共线性使得方差增加的一个相对度量。对第 个回归系数 ,它的方差膨胀因子定义为:

其中 是自变量 对模型中其余自变量线性回归模型的 平方。
一般建议:如果 ,则表明模型中的自变量有很强的共线性。
若自变量的交叉乘积矩阵 的特征值为 ,则X的条件数 就是刻画矩阵的奇异性的一个指标,故称 为条件指数。
一般认为,如果条件指数值在10至30之间为弱相关;在30至100之间为中等相关;大于100表明有强相关。
对于大的条件指数,还需要找出那些变量间存在强的线性关系。因为每个条件指数对应一个特征向量,而大的条件指数相应的特征值较小,故构成这一特征向量的变量间有近似的线性关系。在统计中用方差比例来说明各个自变量在构成这个特征向量中的贡献。
一般认为:在大的条件指数中由方差比例大于0.5的自变量组成的变量子集就认为是相关变量。
我们只需在上面reg过程后加上vif collin 选项就可以得到共线
性的诊断结果了。程序如下:
proc reg data=industry corr;
model steel=cloth colortv coal crudeoil electricity pigiron cement car intcircuit/vif collin;
得到的方差膨胀因子见结果1种的variance Inflation列。可以看到所得到的方差膨胀因子的值全部大于10,最大值为1024.20911说明自变量之间存在严重的相关关系。得到的方差比例见结果2。 
可以看到条件指数最大的是433.33507。由其对应的行的方差比(Proportion of Variation)我们可以看到coal,crudeoil,electricity和pigiron的方差比都大于0.5说明它们组成了相关变量集。
3. 共线性的处理
通过前面的共线性诊断,#p#副标题#e#我们看到模型中存在严重的共线性,由于共线性使得回归方程变得很不稳定,有些自变量对因变量的显著性影响被隐蔽了,一些回归系数的符号与实际意义不符合。下面我们用岭回归方法来处理共线性问题。
岭回归方法是处理共线性问题的有效方法,它能在不减少变量的情况下较好的消除共线性关系,对于不能减少变量的问题来说是很有用的一种方法。但是岭回归在岭回归图决定k值时存在一定的主观性,但这也正是发挥定性分析和定量分析的结合之处,在解决多重共线性问题中有着独特作用。
岭回归只需在reg后加上选项ridge。得到的岭回归图如下:

从图上我们可以看到岭迹图中的coal并没有趋向稳定,因此可以考虑剔除该变量重新作岭迹图。剔除coal后作出的岭迹图如下:
输出4 剔除coal后的岭迹图

从图上可以看到岭迹图比较稳定,达到了比较满意的程度。可以看到当k>=0.1后岭迹曲线趋于稳定。由下面的输出结果可以得到最终的回归方程。
输出5 岭回归分析数据集 
由上面obs为22的行后面几个变量的数值可以写出回归方程为:
Steel=-269.03+8.0669cloth+0.4078colortv+0.1379crudeoil+0.154electricity+0.183pigiron+0.0013cement+13.0516car+0.0006intcircuit
这时得到的回归方程的系数的符号都是由意义的;各个系数的方差膨胀因子均小于3(见输出2.1.5中obs为22的行各变量下的系数)说明变量之间已经没有了共线性。
通过岭回归我们很好地解决了自变量共线性的问题,得到的回归方程经过回代检验得到的检验值与实际值基本吻合,如将1978年的数据代入得到的回归方程中得到的钢铁产量值为3274.48,与实际值3178.00相比,误差为3%。这说明得到的回归方程能较好的模拟实际情况,有实际意义。
4.预测
我们还可以通过得到的回归方程来预测某一年个产业的产量值。通过2004年中国统计年鉴我们得到上面各个产业2003的值,将它们代入上面的回归方程,我们可以得到steel的预测值为21240.90,而实际值为22233.60,相差992.7,误差为4%.
通过以上分析我们可以看到用岭回归较好的解决了自变量之间的共线性关系,通过岭回归处理得到的回归方程对实际情况模拟较好。这说明岭回归在解决变量间的共线性关系中有很好的作用
参考文献
[1] 高惠旋.实用统计方法与SAS系统.北京:北京大学出版社,2001.10
[2] 于秀林、任雪松.多元统计分析.北京:中国统计出版社,1999.5
[3] 杨楠.岭回归分析在解决多重共线性问题中的独特作用.统计决策,2004年第三期:15-16
[4] 朱世武.SAS编程技术与金融数据处理.北京:清华大学出版社,2003
[5] 阮桂海等.SAS统计分析与实用大全.北京:清华大学出版社,2003
[6] 景滨杰.回归分析法在经济预测中的应用浅析.山西经济管理干部学院学报,2004,12(3):32-34
[7] 张弛.利用SAS软件对我国工农业产品人均产量的进一步分析.成都师专学报,2000,(2):6-11
[8] 周兴才.第三产业相关评价指标的统计分析及数学模型.铜陵学院院报,2003,(3):73-77
[9] 王冬梅、沈颂东.逐步回归分析法.工业技术经济,1997,16:54-57