交互作用分析
交互作用分析 一、交互作用的概念 简单地说,交互作用指当 两个因素都存在时,它们的作用大于(协同)或小于(拮 抗)各自作用的和。 要理解交互作用首先要区 别于混杂作用。 混 杂作用 以吸烟(SMK)和饮酒(ALH)对收缩压(SBP)的影响为例,可以建立以下二个模 型: 模型 1:SBP = β0+β2 ’SMK 模型 2:SBP = β0+β1ALH+β2SMK 假设从模型 1 估计的 SMK 的作用为β2 ’,从模型 2 估计的 SMK 的作用为β2。如吸烟 与饮酒有关(假设吸烟者也 多饮酒),而且饮酒与血压有关,这时可以假想两种可 能: 1. 吸烟与血压无关,但因为饮酒的原因,模型 1 中的β2 ’会显著,而模型 2 控制了 ALH 的作用后,SMK 的作用β2将不显著。 2. 吸烟与血压有关,模型 1 中估计的 SMK 的作用β2 ’一部分归功于饮酒,模型 2 估 计的β2是控制了 ALH 的作用后 SMK 的作用,因此β2 ’不等于β2。 是不是β2不等于β2 ’ 就意味着有交互作用呢?不是的,这 只是意味着β2’中有饮酒 的混杂作用。 那么什么是交互作用呢? 根据吸烟与饮酒将研究对 象分成四组,各组 SBP 的均数可用下表表示: 不饮酒 饮酒 不吸烟 β0 β0+ β1 吸烟 β0+β2 β0+ β1+β2+β12 吸烟与饮酒对 SBP 的影响,有无交互作用反映在β12上,检验β12是否等于零就是检验 吸烟与饮酒对 SBP 的影响有无交互作用。而上面的模型 2 是假设β12等于零所做的回 归方程。 交互作用的理解看上去很 简单,但需要意识到的是交互作用的评价与作用的测量方法 有关。以高血压发病率为例,看吸烟与饮酒对高血压发病率的影响就有两种情况。 I、相加模型: 不饮酒 饮酒 不吸烟 I0 I0+ Ia 吸烟 I0+Is I0+Ia+Is+Isa II、相乘模型: 不饮酒 饮酒 不吸烟 I0 I0*A 吸烟 I0*S I0*S*A*B 相加模型检验 Isa 是否等于零,相乘模型检验 B 是否等于 1,可以想象 Isa 等于零时 B 不一定等于 1,因此会出现按不同的模型检验得出 的结论不同。在报告交互作用检验 结果时,要清楚所用的是什么模型。一般的线性回归的回归系数直接反映应变量的变 化,是相加模型,而 Logistic 回归的回归系数反映比值比的变化, 属相乘模型。 二、交互作用的检验 交互作用检验有两种方法,一是对交 互作用项回归系数的检验(Wald test),二是比 较两个回归模 型,一个有交互作用项,另一个没有交互作用项,用似然比检验。本系 统采用似然比检验(Log likelihood ratio test)方法。 如以吸烟与饮酒两个两分类变量为 例,可以形成回归方程: 方程 1:F(Y)= β0+β1ALH+β2SMK+β12SMK*ALH 计算该方程似然数(likelihood),似然数表示按得出的模型抽样, 获得所观察的样本 的概率。它是一个很小的数,因此一般取对数表示,即 Log likelihood,似然数可以简 单地理解为拟合度。 如果我们假定吸烟与饮酒 无交互作用,β12等于零,则方程为: 方程 2:F(Y)= β0+β1ALH+β2SMK 如果方程 1 和方程 2 得到的似然数没有显著差别,表明β12是多余的,或者说β12与零 无显著性差异,吸烟与饮酒对 f(Y)无交互作用。反之,吸烟与饮酒对 f(Y)有交互 作用。 三、交互作用分 析 交互作用分析也可以理解为,在分层 分析基础上对分层变量的不同层级水平上,危险 因素对结果变量的作用的回归系数差异进行统计学检验。如上表中可以看出,在不吸 烟组,饮酒的作用是β1,在吸烟组中饮酒的作用是β1+β12,如β12=0 则表示饮酒的作 用 在吸烟组与不吸烟组都一样。分析交互作用主要回答的问题是:有哪些因素影响危 险因素(X)与结果变量(Y)的关系”?有没有效应修饰因子?参看流行病学 假设检验的思路。 发现效应修饰因子对助于 我们进一步理解危险因素对结果变量的作用通路。 危险因素可以是连续性变 量,也可以是分类型变量。本系统多要分析的可能的效应修 饰因子限于分类型变量。 系统将自动检测结局变量 的类型(如两分类变量、连续变量),再自动默认选择合适 的回归模型(如 Logistic 回归或线性回归模型)。用户可以对 分布类型和联系函数自 行定义。 用户可以定义表格输出格 式,包括要报告的结果、行列编排、小数点位置等。 如果危险因素是分类型变 量,系统将: 1. 列出危险因素与效应修饰因子的每种 层级组合(联合亚组),如危险因素分 3 组,效应修饰因子分 2 组,联合亚组就有 6 组。 2. 如果结果是一个连续性的变量,统计 每个联合亚组内结果变量的均数与标准 差;如果结果是一个二分类的变量,统计频数(百分数)。 3. 运行两种回归模型: A 和 B • 模型 A 按联合亚组生成指示变量,放入模型 中(如有 6 个联合亚组,把一组 作为参照组,放 入 5 个指示变量于模型中); • 模型 B 不考虑危险因素与效应修饰因子的联 合,分别产生指示变量放入模型 中,如危险因素分 3 组,把一组作为参照,放入 2 个指示变量于模型中,效应 修饰因子 分 2 组,一组为参照,放入一个指示变量 于模型中,共 3 个指示变 量。 然后进行似然比检验比较模型 A 与模型 B,报告 P 值,即交互作用的 P 值。 如果危险因素是连续性变 量,系统将: 1. 运行两种回归模型: A 和 B。 • 模型 A 按效应修饰因子的每个层级产生危险 因素参数。如效应修饰因子为 SMK 分 2 组(吸烟与不吸烟),危险因素为 BMI(体重指数),产生 2 个 BMI(BMI1 与 BMI2),当 SMK=0(不吸烟)时,BMI1=BMI, BMI2=0;当 SMK=1(吸烟)时,BMI2=BMI, BMI1=0。把 BMI1 与 BMI2 同时放入模型中。 • 模型 B 只有一个危险因素参数。 然后进行似然比检验比较模 A 与模型 B,报告 P 值,即交互作用的 P 值。 系统将自动检测结局变量 的类型(如两分类变量、连续变量),再自动默认选择合适 的回归模型(如 Logistic 回归或线性回归模型)。用户可以对 分布类型和联系函数自 行定义。 用户可以定义表格输出格 式,包括要报告的结果、行列编排、小数点位置等。 例 1: 输出结果: 交互作用检验 吸烟 - N 否 是 合计 交互作用 的 P 值 性 别 = 男 一秒肺活 量 366 -0.05 (-0.06, -0.04) 0.001 -0.06 (-0.07, -0.05) 0.001 -0.06 (-0.07, -0.05) 0.001 0.039 最大肺活 量 366 -0.04 (-0.05, -0.02) 0.001 -0.05 (-0.06, -0.04) 0.001 -0.05 (-0.05, -0.04) 0.001 0.029 性 别 = 女 一秒肺活 量 364 -0.03 (-0.04, -0.02) 0.001 -0.03 (-0.05, 0.00) 0.0