统计学试验
一、一元回归分析一、一元回归分析 实例分析(2): 选取中国1978~2002年中国研究经费与中国GDP之间的数量关系, 建立的一 元回归模型如下: y i x i i 其中,yi是中国GDP,xi是中国研究经费 线性回归分析的基本步骤及结果分析: ①绘制散点图①绘制散点图 图图 1 1 ②简单相关分析②简单相关分析 表表 1 1 分析:从表 1 中可得到两变量之间的皮尔逊相关系数为 0.928,双尾检验概率 p 值尾 0.0000.05,故变量之间显著相关。根据“中国研究经费”与“中国 GDP”之 间的散点图与相关分析显示, “中国研究经费”与“中国 GDP”之间存在显著的正相 关关系。 在此前提下进一步进行回归分析,建立一元线性回归方程。 ③线性回归分析③线性回归分析 ((1 1))表2给出了回归模型的拟和优度(R Square)、调整的拟和优度 (Adjusted R Square)、估计标准差(Std. Error of the Estimate)以及Durbin-Watson统计量。 从结果来看,回归的可决系数和调整的可决系数分别为0.860和0.854,即GDP的 85%以上的变动都可以被该模型所解释,拟和优度较高。 表表 2 2 p值为0,所以,拒绝模型整体不显著的原假设,即该模型的整体是显著的。 ((2 2))表3给出了回归模型的方差分析表,可以看到,F统计量为141.616,对应的 表表3 3 ((3 3))表4给出了回归系数、回归系数的标准差、标准化的回归系数值以及各个回 归系数的显著性t检验。 从表中可以看到无论是常数项还是解释变量x, 其t统计 量对应的p值都小于显著性水平0.05,因此,在0.05的显著性水平下都通过了t 检验。变量US经费的回归系数为0.090,即US经费每增加1百万美元,USGDP 就增加0.090个十亿美元。 表表 4 4 ((4 4))为了判断随机扰动项是否服从正态分布,观察图 2 所示的标准化残差的 P -P 图,可以发现,各观测的散点基本上都分布在对角线上,据此可以初步判断 残差服从正态分布。 为了判断随机扰动项是否存在异方差,根据被解释变量y与解释变量x的散点 图,如图1所示,从图1中可以看到,随着解释变量x的增大,被解释变量y的波动 幅度明显增大, 说明随机扰动项可能存在比较严重的异方差问题,应该利用加权 最小二乘法等方法对模型进行修正。 图图 2 2 二、多元回归分析二、多元回归分析 表5给出了Pearson简单相关系数,相关检验t统计量对应的p值。相关系数右上 角有两个星号表示相关系数在0.01的显著性水平下显著。从表中可以看出,3个 指标之间的相关系数都在0.8以上,对应的p值都接近0,表示3个指标具有较强的 正相关关系,而托宾Q值与其他3个变量之间的相关性较弱。 表表 5 5 案例分析(4): 选取美国1978~2002年US研究经费与研究人员与GDP之间的数量关系,建 立的多元回归模型如下: ˆ 0 ˆˆ y i 1xi1 2x e i 其中,Y是中国GDP, Xi1是中国研究经费, Xi2是中国研究人员 线性回归分析的基本步骤及结果分析: ①简单相关分析①简单相关分析 从表6中可得到 USGDP与US经费的皮尔逊相关系数为0.977,双尾检验概率p值尾0.0000.05, USGDP与US人数的皮尔逊相关系数为0.991,双尾检验概率p值尾0.0000.05, US经费与US人数的皮尔逊相关系数为0.987,双尾检验概率p值尾0.0000.05, 故变量之间显著相关。进一步进行回归分析,建立一元线性回归方程。 表表 6 6 ②线性回归分析②线性回归分析 ((1 1))表 7 给出了回归模型的拟和优度(R Square) 、调整的拟和优度(Adjusted R Square) 、估计标准差(Std. Error of the Estimate )以及 Durbin-Watson统计量。 从结果来看,回归的可决系数和调整的可决系数分别为 0.982 和 0.981,即 GDP 的 98%以上的变动都可以被该模型所解释,拟和优度较高。 表表 7 7 ((2 2))表 8 给出了回归模型的方差分析表,可以看到,F 统计量为 610.725,对 应的 p 值为 0,所以,拒绝模型整体不显著的原假设,即该模型的整体是显著 的。 表表 8 8 ((3 3))表9给出了回归系数、回归系数的标准差、标准化的回归系数值以及各 个回归系数的显著性t检验。从表中可以看到无论是常数项还是解释变量x,其t 统计量对应的p值都小于显著性水平0.05,因此,在0.05的显著性水平下都通过了 t检验。 变量US人数的回归系数为6.395,即US人数每增加1人,USGDP就增加6.395 个十亿美元。变量US经费(百万美元)的回归系数为-0.001,及US经费每增加 一百万美元,USGDP就增加十亿美元。 表表 9 9 10.13 各季度季节指数如下: 第一季度 第二季度 第三季度 第四季度 季节指数 0.751728 0.851278 1.234322 1.162672 根据分离后的季节因素后的数据计算的趋势方程为: Yt=2043.392+163.7064t SUMMARY OUTPUT 回归统计 Multiple R 0.882769 R Square 0.779281 Adjusted R 0.773473 标准误差 1031.834 观测值40 方差分析 df 回归分析 残差 总计 SSMS 1 1.43E+08 1.43E+08 38 404578871064681 39 1.83E+08 F Significance F 134.165 4.93E-14 Coefficients 标准误差t StatP-value Lower 95%Upper 95% 下限 95.0% 上限 95.0% Intercept2043.392 332.51026.145353.6E-071370.26 2716.5231370.26 2716.523 X Variable 163.7064 14.13339 11.58296 4.93E-14 135.0949192.318 135.0949192.318 季节成分分离后的啤酒销售量量趋势 10000 9000 8000 7000 6000 5000 4000 3000 2000 1000 0 13579111315171921232527293133353739 y = 163.7x + 2043. R² = 0.779