spss_大数据正态分布检验方法及意义
实用标准 spss 数据正态分布检验方法及意义判读 要观察某一属性的一组数据是否符合正态分布,可以有两种方法(目前我知道这两种,并且这两种方法只是直观观察,不是定量的正态分布检验) 1在 spss 里的基本统计分析功能里的频数统计功能里有对某个变量各个观测值的频数直方图中可以选择绘制正态曲线。具体如下Analyze-----Descriptiv e Statistics-----Frequencies,打开频数统计对话框,在 Statistics 里可以选择获得各种描述性的统计量,如均值、方差、分位数、峰度、标准差等各种 描述性统计量。在Charts 里可以选择显示的图形类型,其中Histograms 选项为柱状图也就是我们说的直方图,同时可以选择是否绘制该组数据的正态曲线(W ith norma curve),这样我们可以直观观察该组数据是否大致符合正态分布。如下图 从上图中可以看出,该组数据基本符合正态分布。 2正态分布的 Q-Q 图在 spss 里的基本统计分析功能里的探索性分析里面可以通过观察数据的 q-q 图来判断数据是否服从正态分布。 具体步骤如下Analyze-----Descriptive Statistics-----Explore 打开对话框,选择 Plots 选项,选择 Normality plots with tests 选项,可以绘制该组 数据的 q-q 图。图的横坐标为改变量的观测值,纵坐标为分位数。若该组数据服从正态分布,则图中的点应该靠近图中直线。 纵坐标为分位数,是根据分布函数公式Fxi/n1 得出的.i 为把一组数从小到大排序后第 i 个数据的位置,n 为样本容量。若该数组服从正态分布则其q-q 图 应该与理论的 q-q 图(也就是图中的直线)基本符合。对于理论的标准正态分布,其 q-q 图为 yx 直线。非标准正态分布的斜率为样本标准差,截距为样本均 值。 如下图 文档大全 实用标准 如何在如何在 spssspss 中进行正态分布检验中进行正态分布检验 11转转 2009-07-22 111157 标签杂谈 一、图示法一、图示法 1、P-P 图 以样本的累计频率作为横坐标, 以安装正态分布计算的相应累计概率作为纵坐标, 把样 本值表现为直角坐标系中的散点。 如果资料服从整体分布, 则样本点应围绕第一象限的对角 线分布。 2、Q-Q 图 以样本的分位数作为横坐标, 以按照正态分布计算的相应分位点作为纵坐标, 把样本表 现为指教坐标系的散点。 如果资料服从正态分布, 则样本点应该呈一条围绕第一象限对角线 的直线。 以上两种方法以 Q-Q 图为佳,效率较高。 3、直方图 判断方法是否以钟形分布,同时可以选择输出正态性曲线。 4、箱式图 判断方法观测离群值和中位数。 5、茎叶图 类似与直方图,但实质不同。 二、计算法二、计算法 1、偏度系数(Skewness)和峰度系数(Kurtosis) 文档大全 实用标准 计算公式 g g 1 1表示偏度,g g2 2 表示峰度,通过计算 g1g1 和 g2g2 及其标准误σσ g1g1 及σσ g2g2 然后作 U U 检验。两种 检验同时得出 U0.05 的结论时,才可以认为该组资料服从正态分布。由公 式可见,部分文献中所说的“偏度和峰度都接近0可以认为近似服从正态分布”并 不严谨。 2、非参数检验方法 非参数检验方法包括 Kolmogorov-SmirnovKolmogorov-Smirnov 检验(D 检验)和 Shapiro-Shapiro- WilkWilk(W检验) 。 SASSAS 中规定当样本含量n n≤≤20002000时,结果以 ShapiroShapiro –– Wilk Wilk(W检验)为准,当样 本含量n 2000n 2000时,结果以 KolmogorovKolmogorov –– Smirnov Smirnov(D检验)为准。 SPSSSPSS 中则这样规定 (1)如果指定的是非整数权重,则在加权样本大小位于3 和 50 之 间时, 计算 Shapiro-WilkShapiro-Wilk 统计量。 对于无权重或整数权重, 在加权样本大小位于3 和 5000 之间时,计算该统计量。由此可见,部分 SPSS 教材里面关于“ShapiroShapiro –– Wilk Wilk 适用于样 本量 3-50 之间的数据” 的说法是在是理解片面, 误人子弟。(2) 单样本 Kolmogorov-SmirnovKolmogorov-Smirnov 检验可用于检验变量(例如incomeincome)是否为正态分布。 对于此两种检验,如果P P 值大于 0.05,表明资料服从正态分布。 三、三、SPSSSPSS 操作示例操作示例 SPSSSPSS 中有很多操作可以进行正态检验, 在此只介绍最主要和最全面最方便的 操作 1、工具栏--分析描述性统计探索性 2、选择要分析的变量,选入因变量框内,然后点选图表,设置输出茎叶图 和直方图, 选择输出正态性检验图表, 注意显示 (Display) 要选择双项 (Both) 。 文档大全 实用标准 3、Output 结果 ((1 1))DescriptivesDescriptives描述中有峰度系数和偏度系数,根据上述判断标准, 数据不符合正态分布。 S S k k0 0,,K K u u0 0 时,分布呈正态,Sk0Sk0 时,分布呈正偏态,Sk0 曲线比较陡峭,KuIndependent-Samples T Test 运行结果 经方差齐性检验 F 0.393P0.532,即两方差齐。(因为 p 大于 0.05) 所以选用 t 检验的第一行方差齐情况下的 t 检验的结果 就是选用方差假设奇的结果 所以,t0.644,p0.522, 没有显著性差异。 (因为p Independent-samples T Test 再看看结果中 p 值的大小是否Descriptive Statistics-Frequencies,把 hstarts 选入 Variables,取消在 Display Frequency table 前的勾,在Chart 里面 histogram,在Statistics 选项中如图 1 文档大全 实用标准 图图 1 1 分别选好均数Mean,中位数Median,众数Mode,总数Sum,标准差Std. deviation,方差Variance,范围range,最小值Minimum,最大值 Maximum,偏度系数Skewness,峰度系数Kutosis,按 Continue 返回,再 按 OK,出现结果如图 2 图图 2 2 表中,中位数与平均数接近,与众数相差不大,分布良好。标准差大,即数据间 的变化差异还还小。峰度和偏度都接近 0,则数据基本接近于正态分布。下面图 3 的频率分布图就更直观的观察到这样的情况 文档大全 实用标准 图图 3 3 二.采用各种图直观观察数据分布情况,如采用柱型图观察归类的比例等。采用各种