正交回归正交多项式回归
多项式回归虽然是一种有效的统计方法,但这种方法存在着两个 缺点一是计算量较大,特别是当自变量个数较多,或者自变量幂较 高时,计算量迅速增加;二是回归系数间存在着相关性,从而剔除一 个变量后还必须重新计算求出回归系数。 当自变量 x 的取值是等间隔时,我们可以利用正交性原理有效地 克服上述缺点。这种多项式回归方法就是本节将要介绍的正交多项式 回归。 一、正交多项式回归的数学模型 设变量 y 和 x 的 n 组观测数据服从以下 k 次多项式 2-4-17 令 2-4-18 分别是 x 的一次、二次,k 次多项式,aij是 一些适当选择的常数,如何选择将在下面讨论i1,2,,n。将2-4-18 式代入2-4-17式,则有 2-4-19 比较2-4-19和2-4-17式可知,二者系数间存在简单的函数关系, ,就可以求出 。只要求出 若把看作新的自变量,则2-4-19式就成为一 个 k 元线性模型,其结构矩阵为 2-4-20 正规方程为 2-4-21 2-4-22 其中 在上节中我们遇到的困难是解正规方程系数矩阵的工作量太大, 如果我们有办法使其对角线上的元素不为零,而其余元素均为零,那 么计算就大大简化了,而且同时消去了系数间的相关性。 对于 i,,ak0 使得 我们可以通过选择系数 a10,a21,a20,,ak,k- 2-4-23 (2-4-24) 从而使 则正规方程组为 2-4-29 回归系数为 2-4-30 满足2-4-23和2-4-24式的多项式组我们称 之为正交多项式。显然这里关键的问题是如何找出一组正交多项式。 换言之,就是如何选择系数 a10,a21,a20,,ak,k-i,,ak0使2-4-23和2-4-24 式成立。 在正交多项式回归中自变量的选择是等间隔的,设间隔为h,x0a, 则 2-4-31 若令 2-4-32 则 2-4-33 由此可见, 是 1 至 n 的正整数。只要我们用 代替 x 作为自变 量,问题就变得简单了。在条件许可时,为简便起见我们在选取自变 量时可直接取 x11,x22,,xnn。 当 x11,x22,,xnn 时有 这时可验证以下多项式是正交的,即 2-4-34 显然,当 x 取正整数时, 不一定是整数,为了克服这给计算上带 来的困难,取 2-4-35 为这样一个系数,它使 x 取正整数时是整数。可以验证用 正交多项式代替所求得的回归方程与用正交多项式 所求得的回归方程是完全一样的。 对于正交多项式有 2-4-36 不同的 n 相对应的 ,在时的值以及 Si值都已制成 正交多项式表见附录,根据正交多项式表,可以计算出回归方程的系 数。令 2-4-37 则 回归方程为 2-4-40 由于正交多项式回归系数之间不存在相关性,因此某一项如果不 显著,只要将它剔除即可,而不必对整个回归方程重新计算。 二、回归方程与回归系数的显著性检验 正交多项式回归方程与回归系数的显著性检验可利用正交多项式 的性质按表 2-4-5 进行。经检验不显著的高次项可以剔除,将其效应并 入残差平方和,自由度也同时并入,如果对回归方程精度不满意,可 以增加高次项,而已经计算出的结果不必重算。 表 2-4-5正交多项式回归方差分析表 一、应用举例 我们仍以例 2-4-2 为例讨论正交多项回归的应用。由图 2-4-3 我们 知道,y 是 x 的二次函数,现在我们利用正交多项式方法配一个三次多 项式。 首先做变换其中 a36.5,h0.5,则 然后查正交多项式表,将 n13 表中 计算 数据抄录下来。 将以上结果列于计算表,见表2-4-6。 表 2-4-6计算表 由表 2-4-6 可得 S 总=Lyy S 残=Lyy-S回=Lyy- 0.8139 b0 方差分析结果列于表 2-4-7。 表 2-4-7方差分析表 查 F 分布表,F0.011,910.6,F0.051,95.12,对照表 2-4-7 可知, 一次项显著,二次项高度显著,三次项不显著,故可将三次项剔除, 并将三次项的偏回归平方和并入残差项。 多项式回归方程为 为了利用回归方程进行予报和控制,常需要求出的估计值。当 存在不显著项时,估计方法如下 本例中 故 二、正交多项式回归分析程序框图 1.数学模型 2.变量及数组说明 J-正确读入数据的控制变量 N-试验组数 M-所取正交多项式项数 XI-存自变量数值 YI-存因变量数值 ZI-存 YI的平方项 EI,1-存在正交多项式一次项 EI,2-存在正交多项式二次项 EI,3-存在正交多项式三次项 其中 I1,N SJ-结构矩阵逆矩阵元素 J1,2,3 BJ-常数项矩阵 B J1,2,3 DJ-回归系数 J0,1,2,3 QJ-偏回归平方和 J0,1,2,3 S0-剩余平方和 S-标准离差 S1-总平方和 FJ-F 检验值 3.程序框图