偏最小二乘法回归建模案例
《人工智能》课程论文 论文题目:论文题目:偏最小二乘算法(PLS)回归建模 学生姓名:学生姓名: 学学号:号: 专专业:业:机械制造及其自动化 所在学院:所在学院:机械工程学院 年月日 目录 偏最小二乘回归 . - 2 - 摘要. - 2 - §1 偏最小二乘回归原理 - 2 - §2 一种更简洁的计算方法 - 6 - §3 案例分析 . - 7 - 致谢 - 16 - 附件: - 17 - 偏最小二乘回归 摘要 在实际问题中, 经常遇到需要研究两组多重相关变量间的相互依赖关系,并 研究用一组变量(常称为自变量或预测变量)去预测另一组变量(常称为因变量 或响应变量) ,除了最小二乘准则下的经典多元线性回归分析(MLR) ,提取自变 量组主成分的主成分回归分析(PCR)等方法外,还有近年发展起来的偏最小二 乘(PLS)回归方法。 偏最小二乘回归提供一种多对多线性回归建模的方法, 特别当两组变量的个 数很多,且都存在多重相关性,而观测数据的数量(样本量)又较少时,用偏最 小二乘回归建立的模型具有传统的经典回归分析等方法所没有的优点。 偏最小二乘回归分析在建模过程中集中了主成分分析, 典型相关分析和线性 回归分析方法的特点,因此在分析结果中, 除了可以提供一个更为合理的回归模 型外, 还可以同时完成一些类似于主成分分析和典型相关分析的研究内容,提供 更丰富、深入的一些信息。 本文介绍偏最小二乘回归分析的建模方法; 通过例子从预测角度对所建立的 回归模型进行比较。 关键词:关键词: 主元分析、主元回归、回归建模 1 1偏最小二乘回归原理偏最小二乘回归原理 考虑 p 个变量y 1 , y 2 ,.y p 与 m 个自变量x 1 ,x 2 ,.x m 的建模问题。偏最小二乘 回归的基本作法是首先在自变量集中提出第一成分t₁(t₁是 x 1 ,x 2 ,.x m 的线性组合,且尽可能多地提取原自变量集中的变异信息) ;同时在因变量集中 也提取第一成分u₁,并要求t₁与 u₁相关程度达到最大。然后建立因变量 y 1 , y 2 ,.y p 与 t₁的回归,如果回归方程已达到满意的精度,则算法中止。否则 继续第二对成分的提取,直到能达到满意的精度为止。若最终对自变量集提取r 个成分 t 1 ,t 2 ,.t r ,偏最小二乘回归将通过建立 y 1 ,y 2 ,.y p 与t 1 ,t 2 ,.t r 的回归 式,然后再表示为 y 1 , y 2 ,.y p 与原自变量的回归方程式,即偏最小二乘回归方 程式。 为了方便起见,不妨假定 p 个因变量y 1 , y 2 ,.y p 与 m 个自变量x 1 ,x 2 ,.x m 均为 标准化变量。因变量组和自变量组的 n 次标准化观测数据阵分别记为: y 11y1p F 0 :, y n1ynp x 11x1m E 0 : x n1xnm 偏最小二乘回归分析建模的具体步骤如下: (1)分别提取两变量组的第一对成分,并使之相关性达最大。 (2)假设从两组变量分别提出第一对 t₁和 u₁,t₁是自变量集X x 1 ,.,x m ,的 T 线性组合:t 1 w 11 x 1 . w 1m x m w 1 TX,u₁是因变量集Y y 1,,yp 的线性组合: T u 1 v 11 y 1 .v 1p y p v 1 TY。为了回归分析的需要,要求: ① t1 和 u1 各自尽可能多地提取所在变量组的变异信息; ② t1 和 u1 的相关程度达到最大。 由两组变量集的标准化观测数据阵E 0 和F 0 ,可以计算第一对成分的得分向量, 记 为t1和u1: x 11.x1m w 11 t 11 : : t 1 E 0 w 1 : w 1m t n1 x n1.xnm y 11y1p v 11 u 11 u 1 F 0v1 : : : y n1ynp u n1 v 1p 第一对成分t 1 和u 1 的协方差Cov(t 1 ,u 1 )可用第一对成分的得分向量 t 1和u1的内积 来计算。故而以上两个要求可化为数学上的条件极值问题: TT t 1 ,u 1 E 0 w 1 ,Y 0v1 w 1 E 0 F 0 x 1 max T 22 Tw w w1,v v v1 1111 1 利用 Lagrange 乘数法,问题化为求单位向量w 1 和v 1 ,使 1 w 1 TE 0 TF 0V1 最大。 问题的求解只须通过计算mm矩阵M E 0 TF 0 F 0 TE 0 的特征值和特征向量,且 M 的最大特征值为 1 2,相应的单位特征向量就是所求的解w 1 , 而v 1 可由w 1 计算得到 v 1 1 1 F 0 TE 0 w 1 。 (3)建立 y 1 ,y 2 ,.y p ,对t 1的回归及 x 1 ,.,x m ,对t1的回归。 假定回归模型为: T E t 0 1 1 E 1 T F 0 u 1 1 F 1 其中 1 11 ,., 1m , 1 11 ,., 1p T T分别是多对一的回归模型中的参数向 量,E 1 和F 1 是残差阵。回归系数向量 1 , 1 的最小二乘估计为: 2 T 1 E 0 t 1/ t1 2 FTt 1/ t1 10 称 1 , 1 为模型效应负荷量。 (4)用残差阵E 1 和F 1 代替E 0 和F 0 重复以上步骤。 记E 0 t 1 ,F 0 t 1 ,则残差阵E 1 E 0 E 1 ,F 1 F 0 F 0 。如果残差阵 T 1 T 1 F 1中元素的绝对值近似为 0, 则认为用第一个成分建立的回归式精度已满足需要 了,可以停止抽取成分。否则用残差阵 E 1 和F 1 代替E 0 和F 0 重复以上步骤即 得: TTw 2 w 21 ,.,w 2m ;v 2 v 21 ,.,v 2m 分 别 为 第 二 对 成 分 的 权 数 。 而 t 1 E 1w2 ,u 2 F 1v2 为第二对成分的得分向量。 2 E t 2 / t 2 , 2 F t 2 / t 2 分别为 X,Y 的第二对成分的负荷量。这时有 T 1 T 1 TT E t 0 1 1 t 2 2 E 2 TT F t t F 2 12 012 2 2 (5)设 n×m 数据阵 E 0的秩为 r0 表示在主对角线上方,k0 表示在主对角线下方。 (在这 对角线元素就是特征值λi) [va