最新SPSS详细操作:广义估计方程汇编
SPSS 详细操作:广义估计方程 SPSS 详细操作:广义估计方程 2017-03-18 17:40 一、问题与数据 在临床研究中,经常会比较两种治疗方式对患者结局的影 响,并且多次测量结局。例如,为了研究两种降压药物对血 压的控制效果是否存在差异,研究者会对两个人群服药后在 不同时间点记录血压值,然后评价降压效果。或者对两组动 物分别施加两种干预,连续记录多个时间点的结局,然后比 较两种干预的效果。 这种设计可以用如下示意图表示: 另外,有时研究只需要收集一个时间点的数据,但是一个研 究对象会提供多个部位的数据点。例如,研究者想评价冠心 病患者在冠脉搭桥术后应用阿司匹林是否可以有效降低患 者血管的再堵塞,评价的方法是术后1 年做冠脉造影观察血 管是否堵塞,但是每个患者可能会在同一次手术中对多条冠 状动脉血管进行搭桥,因此有的患者可能会贡献多组数据。 这种设计可以用如下示意图表示: 以上两种设计,不管是临床试验还是动物试验都非常常见, 它的特点在于数据间非独立,同一个体间数据具有相关性。 对于这样的设计类型,该如何分析呢? 今天我们来介绍另外一种非常好的方法——广义估计方程 (GEE) 。GEE 既可以处理连续型结局变量也可以处理分类 型结局变量,它实际上代表了一种模型类别,即在传统模型 的基础上对相关性数据进行了校正, 可以拟合 Logistic 回归、 泊松回归、Probit 回归、一般线性回归等广义线性模型。 本文将以阿司匹林预防冠脉搭桥后血管再堵塞为例介绍运 用 SPSS 进行 GEE 的操作方法。以下为数据格式: 表 1. 数据格式 每名患者贡献数据量不等。如编号为1 的患者只对一根血管 进行了搭桥手术,编号为2 的患者则有两根血管进行搭桥手 术。 表 2. 变量赋值 (注:本例中数据纯属虚构,分析结果不能产生任何结论。 性别为待调整变量。 ) 二、SPSS 分析方法 1. 数据录入 SPSS 首先在 SPSS 变量视图(Variable View)中新建上述表 2 中 变量,然后在数据视图(Data View)中录入数据。 2. 选择 Analyze → Generalized Linear Models → Generalized Estimating Equations 3. 选项设置 ① 在 Repeated 模块中,将患者 ID 选入 Subject variables 框,搭桥血管 Num 选入 Within-subject variables 框。在 Working Correlation Matrix 的 Structure 下拉列表中选择同 一患者贡献数据的相关性结构。其有 5 个选项,分别为: Independent:各数据间独立,即同一患者贡献的数据可以 视为来源于不同个体。 AR(1):自相关,用于不同时间点的数据,相邻时间点相关 性最大,时间间距越大相关性越小。 Exchangeable:等相关,各数据点的相关性均相等。 M-dependent:相邻相关,仅临近的 M+1 个数据相关。 Unstructured:不限定相关结构,由数据本身决定。 本例中,同一患者搭桥的血管互相之间应等同看待,两两间 相关性应相等,因此选择等相关更合适。其他维持默认。 ② 在 Type of Model 模块中设置模型类型 在此界面有 6 种模型类型可选: Scale Response:结局变量为连续型变量 Ordinal Response:结局变量为有序分类变量 Counts:结局变量为计数 Binary Response or Events/Trials Data:结局变量为二分类 变量 Mixture:结局变量为 Tweedie 分布变量 Custom:自定义 以上 6 大类类型下还需选择连接函数。本例中结局变量为二 分类变量, Logistic 回归应用更加普遍, 因此我们选择 Binary logistic 来拟合校正数据相关性的 Logistic 回归模型。 ③ 在 Response 模块指定结局变量 将 Outcome 变量选入 Dependent Variable,在 Reference Category 中选择最小值作为参考值(本例中 0 为最小值,代 表未发生结局) 。 ④ 在 Predictors 模块中将要纳入模型的 Treatment 和 Sex 变量选入 Covariates 中。Covariates 应放入连续型变量, Factors 中放入分类变量,但是本例中两自变量均为二分类 变量,放入 Covariates 处也可。 ⑤ 在 Model 模块中将 Treatment 和 Sex 选入 Model 框内, 还可纳入交互项,本例中不纳入。 ⑥ 在 Statistics 模块中除默认外,另外勾选 Include exponential parameter estimates 以获得 OR 值,然后点击 OK。 三、结果解读 结果中首先给出的是一些模型基本信息,在此略过。这里仅 介绍模型参数估计值结果: 从结果可以看到,Treatment 变量的系数值(B)为-1.077, Exp(B)为 0.341,即 OR 值,P=0.046,说明术后使用阿司 匹林的患者 1 年后发生血管再堵塞的风险是使用安慰剂组的 0.341 倍且有统计学意义,即阿司匹林具有保护作用。另外 我们纳入校正的性别变量 Sex OR 值为 0.692,但 P=0.531 未达显著水平。 如果我们不考虑数据间的相关性,直接采用传统的 Logistic 回归模型,那么将得到以下结果: 从结果中可以看到,尽管 Treatment 的 OR 值与 GEE 模型 中相差不大,但其P 值却不再显著。从本例中可以看到,如 果在数据分析中方法选用错误将可能得不到正确结论。 四、结果汇总 冠脉搭桥术后患者应用阿司匹林可以有效降低发生血管堵 塞的风险。服用阿司匹林组患者发生血管堵塞风险是服用安 慰剂组患者的 0.341 倍(P=0.046) 。 五、总结与拓展 对于文首提及的两个例子,常见的分析方法有重复测量方差 分析和多水平模型,但是重复测量方差分析要求结局变量为 连续变量,不适用于分类变量。多水平模型处理相关性数据 时非常灵活,结局可以为连续变量,也可以为分类变量,应 用非常广泛。 GEE 的应用似乎没有前两种广泛,但其具有非常好的特性。 GEE 既可以处理连续型结局变量也可以处理分类型结局变 量, 其优势在于, 即使设定的数据间相关结构与实际有偏差, 在样本量较大时其模型估计参数仍然具有无偏性。 GEE 模型 中自变量系数估计值准确性的论证相较于多水平模型更加 充分,因此部分研究者更加推荐使用 GEE。 虽然 GEE 模型中数据间相关结构指定错误时模型系数也具 有无偏性,但前提是样本量要足够大。在同样的样本量下, 正确的相关结构更可能得到准确的参数估计和置信区间,因 此应仔细分析数据类型,选择最可能正确的相关结构。 关于 GEE 的内容较为复杂,在此无法详述,对 GEE 有兴趣 的读者或需要使用 GEE 模型的读者,推荐阅读专业书籍和 文献。SPSS 详细操作:广义估计方程 2017-03