正交回归正交多项式回归
多项式回归虽然是一种有效的统计方法,但这种方法存在着两个 缺点:一是计算量较大,特别是当自变量个数较多,或者自变量幂较 高时,计算量迅速增加;二是回归系数间存在着相关性,从而剔除一 个变量后还必须重新计算求出回归系数。 当自变量 x 的取值是等间隔时,我们可以利用正交性原理有效地 克服上述缺点。这种多项式回归方法就是本节将要介绍的正交多项式 回归。 一、正交多项式回归的数学模型 设变量 y 和 x 的 n 组观测数据服从以下 k 次多项式 (2-4-17) 令 (2-4-18) …分别是 x 的一次、二次,…k 次多项式,aij是 一些适当选择的常数,如何选择将在下面讨论(i=1,2,…,n)。将(2-4-18) 式代入(2-4-17)式,则有 (2-4-19) 比较(2-4-19)和(2-4-17)式可知,二者系数间存在简单的函数关系, ,就可以求出 … 。只要求出 若把看作新的自变量,则(2-4-19)式就成为一 个 k 元线性模型,其结构矩阵为 (2-4-20) 正规方程为 (2-4-21) (2-4-22) 其中 在上节中我们遇到的困难是解正规方程系数矩阵的工作量太大, 如果我们有办法使其对角线上的元素不为零,而其余元素均为零,那 么计算就大大简化了,而且同时消去了系数间的相关性。 对于 i,…,ak0 使得 …我们可以通过选择系数 a10,a21,a20,…,ak,k- (2-4-23) (2-4-24) 从而使 则正规方程组为 (2-4-29) 回归系数为 (2-4-30) 满足(2-4-23)和(2-4-24)式的多项式组…我们称 之为正交多项式。显然这里关键的问题是如何找出一组正交多项式。 换言之,就是如何选择系数 a10,a21,a20,…,ak,k-i,…,ak0使(2-4-23)和(2-4-24) 式成立。 在正交多项式回归中自变量的选择是等间隔的,设间隔为h,x0=a, 则 (2-4-31) 若令 (2-4-32) 则 (2-4-33) 由此可见, 是 1 至 n 的正整数。只要我们用 代替 x 作为自变 量,问题就变得简单了。在条件许可时,为简便起见我们在选取自变 量时可直接取 x1=1,x2=2,…,xn=n。 当 x1=1,x2=2,…,xn=n 时有 这时可验证以下多项式是正交的,即 (2-4-34) 显然,当 x 取正整数时, 不一定是整数,为了克服这给计算上带 来的困难,取 (2-4-35) 为这样一个系数,它使 x 取正整数时是整数。可以验证用 正交多项式代替所求得的回归方程与用正交多项式 所求得的回归方程是完全一样的。 对于正交多项式有 (2-4-36) 不同的 n 相对应的 ,在时的值以及 Si值都已制成 正交多项式表(见附录),根据正交多项式表,可以计算出回归方程的系 数。令 (2-4-37) 则 回归方程为 (2-4-40) 由于正交多项式回归系数之间不存在相关性,因此某一项如果不 显著,只要将它剔除即可,而不必对整个回归方程重新计算。 二、回归方程与回归系数的显著性检验 正交多项式回归方程与回归系数的显著性检验可利用正交多项式 的性质按表 2-4-5 进行。经检验不显著的高次项可以剔除,将其效应并 入残差平方和,自由度也同时并入,如果对回归方程精度不满意,可 以增加高次项,而已经计算出的结果不必重算。 表 2-4-5正交多项式回归方差分析表 一、应用举例 我们仍以例 2-4-2 为例讨论正交多项回归的应用。由图 2-4-3 我们 知道,y 是 x 的二次函数,现在我们利用正交多项式方法配一个三次多 项式。 首先做变换其中 a=36.5,h=0.5,则 然后查正交多项式表,将 n=13 表中 计算: 数据抄录下来。 将以上结果列于计算表,见表2-4-6。 表 2-4-6计算表 由表 2-4-6 可得 S 总=Lyy= S 残=Lyy-S回=Lyy- =0.8139 b0= 方差分析结果列于表 2-4-7。 表 2-4-7方差分析表 查 F 分布表,F0.01(1,9)=10.6,F0.05(1,9)=5.12,对照表 2-4-7 可知, 一次项显著,二次项高度显著,三次项不显著,故可将三次项剔除, 并将三次项的偏回归平方和并入残差项。 多项式回归方程为 为了利用回归方程进行予报和控制,常需要求出的估计值。当 存在不显著项时,估计方法如下: 本例中 故 二、正交多项式回归分析程序框图 1.数学模型 2.变量及数组说明 J-正确读入数据的控制变量 N-试验组数 M-所取正交多项式项数 X(I)-存自变量数值 Y(I)-存因变量数值 Z(I)-存 Y(I)的平方项 E(I,1)-存在正交多项式一次项 E(I,2)-存在正交多项式二次项 E(I,3)-存在正交多项式三次项 (其中 I=1,…N) S(J)-结构矩阵逆矩阵元素 J=1,2,3 B(J)-常数项矩阵 B J=1,2,3 D(J)-回归系数 J=0,1,2,3 Q(J)-偏回归平方和 J=0,1,2,3 S0-剩余平方和 S-标准离差 S1-总平方和 F(J)-F 检验值 3.程序框图: