spss_数据正态分布检验方法及意义
SPSS数据正态分布检验方法及意义判读 要观察某一属性的一组数据是否符合正态分布,可以有两种方法目前我知道这两种,并且这两种方法只是直观观察,不是定量的正态分布检验 1在spss里的基本统计分析功能里的频数统计功能里有对某个变量各个观测值的频数直方图中可以选择绘制正态曲线。具体如下AnalyzeDescriptive S tatistics-Frequencies,打开频数统计对话框,在Statistics里可以选择获得各种描述性的统计量,如均值、方差、分位数、峰度、标准差等各种描述性统 计量。在Charts里可以选择显示的图形类型,其中Histograms选项为柱状图也就是我们说的直方图,同时可以选择是否绘制该组数据的正态曲线With nor ma curve,这样我们可以直观观察该组数据是否大致符合正态分布。如下图 Histogram Ausnbu上 从上图中可以看出,该组数据基本符合正态分布。 2正态分布的Q-Q图在spss里的基本统计分析功能里的探索性分析里面可以通过观察数据的q-q图来判断数据是否服从正态分布。 具体步骤如下AnalyzeDescriptive StatisticsExplore打开对话框,选择Plots选项,选择Normality plots with tests选项,可以绘制该组数据的q-q 图。图的横坐标为改变量的观测值,纵坐标为分位数。若该组数据服从正态分布,则图中的点应该靠近图中直线。 纵坐标为分位数,是根据分布函数公式Fxi/n1得出的.i为把一组数从小到大排序后第i个数据的位置,n为样本容量。若该数组服从正态分布则其q-q图应 该与理论的q-q图也就是图中的直线基本符合。对于理论的标准正态分布,其q-q图为yx直线。非标准正态分布的斜率为样本标准差,截距为样本均值。 如下图 Normal Q-Q Plot of WiL (坦氏) 侦 alloy* It 都 -2E.10N pauOJdxUJ 1.S00152015*0 Observed Value 如何在SpSS中进行正态分布检验12009-07-22 111157 标签 一、图示法 1、P-P 图 以样本的累计频率作为横坐标,以安装正态分布计算的相应累计概率作为纵坐标,把样 本值表现为直角坐标系中的散点。如果资料服从整体分布,则样本点应围绕第一象限的对角 线分布。 2、Q-Q 图 以样本的分位数作为横坐标,以按照正态分布计算的相应分位点作为纵坐标,把样本表 现为指教坐标系的散点。如果资料服从正态分布,则样本点应该呈一条围绕第一象限对角线 的直线。 以上两种方法以Q-Q图为佳,效率较高。 3、直方图 判断方法是否以钟形分布,同时可以选择输出正态性曲线。 4、箱式图 判断方法观测离群值和中位数。 5、茎叶图 类似与直方图,但实质不同。 二、计算法 1、偏度系数Skewness和峰度系数Kurtosis 计算公式 偏度计算公式u 蜂度计rz公式 gl表示偏度,g2表示峰度,通过计算gl和g2及其标准误。gi及。号2然后作U检验。两 种检验同时得出UU0051.96,即p0.05的结论时,才可以认为该组资料服从正态分布。由 公式可见,部分文献中所说的“偏度和峰度都接近0可以认为近似服从正态分布” 并不严谨。 2、非参数检验方法 非参数检验方法包括Kolmogorov-Smirnov检验(D检验)和Shapiro- Wilk (W检验)。 SAS中规定当样本含量n W2000时,结果以Shapiro - Wilk (W检验)为准,当样 本含量n 2000时,结果以Kolmogorov - Smirnov (D检验)为准。 SPSS中则这样规定(1)如果指定的是非整数权重,则在加权样本大小位于3和50之 间时,计算Shapiro-Wilk统计量。对于无权重或整数权重,在加权样本大小位于3和5000 之间时,计算该统计量。由此可见,部分SPSS教材里面关于“Shapiro - Wilk适用于样本 量3-50之间的数据的说法是在是理解片面,误人子弟。(2)单样本Kolmogorov-Smirnov 检验可用于检验变量(例如income)是否为正态分布。 对于此两种检验,如果P值大于0.05,表明资料服从正态分布。 三、SPSS操作示例 SPSS中有很多操作可以进行正态检验,在此只介绍最主要和最全面最方便的 操作 2、选择要分析的变量,选入因变量框内,然后点选图表,设置输出茎叶图 和直方图,选择输出正态性检验图表,注意显示(Display)要选择双项(Both)。 7500 5 盐 Explore Plot* O|P・tk4MhM Of WE2SS5ESSE23ZZ Oi 0 曰SLaa4*l.・f Okie。 Tc SotBWfiE 1 3 3 2 1| 36 57 48 - 0 0 0; it --46IQCI 49 00 20 00* 77 00 1 -i| 3、Output 结果 1 Descriptives描述中有峰度系数和偏度系数,根据上述判断标准,数 据不符合正态分布。 Sk0, K『0时,分布呈正态,Sk0时,分布呈正偏态,Sk0时,分布呈负偏 态,时,Ku0曲线比较陡峭,Ku0时曲线比较平坦。由此可判断本数据分布为 正偏态朝左偏,较陡峭。 Descriptives Statistic Std Error Years at current address Mean 95 Confidence InteivalLower Bound for Mean.,_ Upper Bound 5 Trimmed Mean Median Variance Std Deviation Minimum Maximum Range Interquartile Range 11.55 10 93 12.18 10.74 9.00 101.741 10.087 0 55 55 15 .319 Skewness Kurtosis 1.106 860 .077 155 2 Tests of Normality D检验和w检验均显示数据不服从正态分布,当然 在此,数据样本量为1000,应以W检验为准。 Tests of Normality Kolmogorov-Smirnov Shapiro-Wilk Statistic at Statistic df SIU. Years at current address .131 1000 L..QQQ1 .897 1000 a Lilhefors Significance Correction 3