《卫生统计学》考试重点复习资料打印
1 《卫生统计学》复习资料 第一章 绪论 统计学:是一门通过收集、整理和分析数据来认识社会和自然现象数量特征的方法论科学。 其目的是通过研究随机事件的局部外在数量 特征和数量关系, 从而探索事件的总体内在规律性,而随机性的数量化,是通过概率表现出来。 总体:总体是根据研究目的确定的同质的观察单位的全体,更确切的说,是同质的所有观察单位某种观察值(变量值)的集合。总体可 分为有限总体和无限总体。总体中的所有单位都能够标识者为有限总体,反之为无限总体。 样本:从总体中随机抽取部分观察单位,其测量结果的集合称为样本(sample) 。样本应具有代表性。所谓有代表性的样本,是指用随 机抽样方法获得的样本。 抽样:从研究总体中抽取少量有代表性的个体,称为抽样。 概率:概率(probability)又称几率,是度量某一随机事件 A 发生可能性大小的一个数值,记为 P(A) ,P(A)越大,说明 A 事件发生的 可能性越大。0﹤P(A)﹤1。 频率:在相同的条件下,独立重复做 n 次试验,事件 A 出现了 m 次,则比值 m/n 称为随机事件 A 在 n 次试验中出现的频率(freqency)。 当试验重复很多次时 P(A)= m/n。 变量:表现出个体变异性的任何特征或属性。 随机变量:随机变量(random variable)是指取指不能事先确定的观察结果。随机变量的具体内容虽然是各式各样的,但共同的特点是 不能用一个常数来表示,而且,理论上讲,每个变量的取值服从特定的概率分布。 系统误差:系统误差(systematic error)是指由于仪器未校正、测量者感官的某种偏差、医生掌握疗效标准偏高或偏低等原因,使观察值 不是分散在真值的两侧,而是有方向性、系统性或周期性地偏离真值。系统误差可以通过实验设计和完善技术措施来消除或使之减少。 随机误差:随机误差(random error)又称偶然误差,是指排除了系统误差后尚存的误差。它受多种因素的影响,使观察值不按方向性 和系统性而随机的变化。误差变量一般服从正态分布。随机误差可以通过统计处理来估计。 变异:在自然状态下,个体间测量结果的差异称为变异(variation) 。变异是生物医学研究领域普遍存在的现象。严格的说,在自然状 态下,任何两个患者或研究群体间都存在差异,其表现为各种生理测量值的参差不齐。 抽样误差: (消除了系统误差,并将随机测量误差控制在允许范围内)由于个体变异的存在,在抽样过程中产生的样本统计量与总体参 数之间的差异。 分布:随机现象的规律性通过概率来刻画,而随机事件的所有结局及对应概率的排列称为分布。 第二章 定量资料的统计描述 算术均数:描述一组数据在数量上的平均水平。总体均数用μ表示,样本均数用表示。适用条件:对称分布或正态分布的资料。 几何均数:用以描述对数正态分布或数据呈倍数变化资料的水平。记为 G。适用条件:对于变量值呈倍数或等比关系、或呈对数正态分 布(正偏态分布)的资料。 中位数:将一组观察值由小到大排列,n 为奇数时取位次居中的变量值;为偶数时,取位次居中的两个变量的平均值。适用条件:①变 量值中出现个别特小或特大的数值;②资料的分布呈明显偏态,即大部分的变量值偏向一侧;③变量值分布一端或两端无确定数值,只有 小于或大于某个数值;④资料的分布不清。 百分数适用条件: (1)描述一组资料在某百分位置上的水平; (2)用于确定正常值范围; (3)计算四分位数间距。 众数:众数原指总体中出现机会最高的数值。样本众数则是在样本中出现次数最多的数值。 极差:亦称全距,即最大值与最小值之差,用于资料的粗略分析,其计算简便但稳定性较差。极差越大意味着数据越离散,或者说数据 间变异越大。特点:计算简单,容易理解,应用广泛。但不稳定,不全面,易受极端值影响。可用于各种分布类型的资料。 四分位数间距:是由第 3 四分位数和第 1 四分位数相减计算而得,常与中位数一起使用,描述偏态分布资料的分布特征,较极差稳定。 特点:比极差稳定,只反映中间 50%数据的两端值的差异。计算不太方便。可用于各种分布的资料。主要用于偏态分布的资料。 方差:方差表示一组数据的平均离散情况,由离均差的平方和除以样本个数得到。特点:充分反映每个数据间的离散状况,意义深刻; 指标稳定,应用广泛,但计算较为复杂,不易理解;方差的单位与原数据不同,是原单位的平方。有时使用时不太方便;在方差分析中 应用甚广而极为重要。 标准差:是方差的正平方根,使用的量纲与原量纲相同,适用于近似正态分布的资料,大样本、小样本均可,最为常用。特点:意义同 方差,是方差的开平方;标准差的单位与原数据相同,使用方便,意义深刻,应用广泛;故一般已作为医学生物学领域中反映变异的标 准,故称标准差。 2 变异系数:用于观察指标单位不同或均数相差较大时两组资料变异程度的比较,用 CV 表示。应用条件:(1)变异系数为无量纲单位,可 以比较不同单位指标间的变异度;(2)变异系数消除了均数的大小对标准差的影响,所以可以比较两均数相差较大时指标间的变异度。 注意:CV 一般不大于 20-30%。否则,说明指标不太稳定。 问答题 常见的描述集中趋势的指标有哪些,概念分别是什么? 答:常见的描述集中趋势的指标有算数均数、几何均数、中位数和众数。概念见名解。 常见的描述离散趋势的指标有哪些,概念分别是什么? 答:常见的描述离散趋势的指标有极差、四分位数间距、方差、标准差和变异系数。概念见名解。 统计表和统计图 统计表:将统计资料及其指标以表格形式列出,称为统计表(statistical table) 。狭义的统计表只表示统计指标。 统计图:统计图(statistical graph)是将统计指标用几何图形表达,即以点的位置、线段的升降、直条的长短或面积的大小等形式直观的表 示事物间的数量关系。 箱式图用于描述连续型变量的分布特征。涉及到的各个取值:由大到小的次序为:极大值、 P75、中位数、P25 和极小值。 问答题 常用统计图的定义和制图要求。 名 称 定 义 制 图 要 求 条 图 用等宽直条的长短来表示相互独立的 各统计指标的数值大小 起点为0 的等宽直条, 条间距相等,按高低顺序 排列。 普通线图 适用于连续性资料。用线段的升降来 表示一事物随另一事物变化的趋势。 纵横两轴均为算术尺度,相邻两点应以折线相 连。图内线条不宜超过3 条。 半对数线图 用线段的升降来表示一事物随另一事 物变化的速度。 横轴为算术尺度,纵轴为对数尺度。余同普通线 图。 圆 图 以圆面积表示事物的全部,用扇形面 积表示各部分的比重 以圆面积为 100%,将各构成比分别乘以 3.6 度 得圆心角度数后再绘扇形面积。通常以12 点为 始边依次绘图。 直方图 用矩形的面积来表示某个连续型变量 的频数分布 常以横轴表示连续型变量的组段(要求等距) , 纵轴表示频数或频率,其尺度从“0”开始,各 直条间不留空隙。 散点图 以点的密集程度和趋势表示两种事物 间的相关关系 绘制方法同线图,只是点与点之间不连接。 第三章 定性资料的统计描述 相对数:是两个有联系的指标之比,是分类变量常用的描述性统计指标,常用