《卫生统计学》考试重点复习资料打印
1 卫生统计学复习资料 第一章 绪论 统计学是一门通过收集、整理和分析数据来认识社会和自然现象数量特征的方法论科学。 其目的是通过研究随机事件的局部外在数量 特征和数量关系, 从而探索事件的总体内在规律性,而随机性的数量化,是通过概率表现出来。 总体总体是根据研究目的确定的同质的观察单位的全体,更确切的说,是同质的所有观察单位某种观察值(变量值)的集合。总体可 分为有限总体和无限总体。总体中的所有单位都能够标识者为有限总体,反之为无限总体。 样本从总体中随机抽取部分观察单位,其测量结果的集合称为样本(sample) 。样本应具有代表性。所谓有代表性的样本,是指用随 机抽样方法获得的样本。 抽样从研究总体中抽取少量有代表性的个体,称为抽样。 概率概率probability又称几率,是度量某一随机事件 A 发生可能性大小的一个数值,记为 P(A) ,P(A)越大,说明 A 事件发生的 可能性越大。0﹤P(A)﹤1。 频率在相同的条件下,独立重复做 n 次试验,事件 A 出现了 m 次,则比值 m/n 称为随机事件 A 在 n 次试验中出现的频率freqency。 当试验重复很多次时 P(A) m/n。 变量表现出个体变异性的任何特征或属性。 随机变量随机变量(random variable)是指取指不能事先确定的观察结果。随机变量的具体内容虽然是各式各样的,但共同的特点是 不能用一个常数来表示,而且,理论上讲,每个变量的取值服从特定的概率分布。 系统误差系统误差systematic error是指由于仪器未校正、测量者感官的某种偏差、医生掌握疗效标准偏高或偏低等原因,使观察值 不是分散在真值的两侧,而是有方向性、系统性或周期性地偏离真值。系统误差可以通过实验设计和完善技术措施来消除或使之减少。 随机误差随机误差(random error)又称偶然误差,是指排除了系统误差后尚存的误差。它受多种因素的影响,使观察值不按方向性 和系统性而随机的变化。误差变量一般服从正态分布。随机误差可以通过统计处理来估计。 变异在自然状态下,个体间测量结果的差异称为变异(variation) 。变异是生物医学研究领域普遍存在的现象。严格的说,在自然状 态下,任何两个患者或研究群体间都存在差异,其表现为各种生理测量值的参差不齐。 抽样误差 (消除了系统误差,并将随机测量误差控制在允许范围内)由于个体变异的存在,在抽样过程中产生的样本统计量与总体参 数之间的差异。 分布随机现象的规律性通过概率来刻画,而随机事件的所有结局及对应概率的排列称为分布。 第二章 定量资料的统计描述 算术均数描述一组数据在数量上的平均水平。总体均数用μ表示,样本均数用表示。适用条件对称分布或正态分布的资料。 几何均数用以描述对数正态分布或数据呈倍数变化资料的水平。记为 G。适用条件对于变量值呈倍数或等比关系、或呈对数正态分 布正偏态分布的资料。 中位数将一组观察值由小到大排列,n 为奇数时取位次居中的变量值;为偶数时,取位次居中的两个变量的平均值。适用条件①变 量值中出现个别特小或特大的数值;②资料的分布呈明显偏态,即大部分的变量值偏向一侧;③变量值分布一端或两端无确定数值,只有 小于或大于某个数值;④资料的分布不清。 百分数适用条件 (1)描述一组资料在某百分位置上的水平; (2)用于确定正常值范围; (3)计算四分位数间距。 众数众数原指总体中出现机会最高的数值。样本众数则是在样本中出现次数最多的数值。 极差亦称全距,即最大值与最小值之差,用于资料的粗略分析,其计算简便但稳定性较差。极差越大意味着数据越离散,或者说数据 间变异越大。特点计算简单,容易理解,应用广泛。但不稳定,不全面,易受极端值影响。可用于各种分布类型的资料。 四分位数间距是由第 3 四分位数和第 1 四分位数相减计算而得,常与中位数一起使用,描述偏态分布资料的分布特征,较极差稳定。 特点比极差稳定,只反映中间 50数据的两端值的差异。计算不太方便。可用于各种分布的资料。主要用于偏态分布的资料。 方差方差表示一组数据的平均离散情况,由离均差的平方和除以样本个数得到。特点充分反映每个数据间的离散状况,意义深刻; 指标稳定,应用广泛,但计算较为复杂,不易理解;方差的单位与原数据不同,是原单位的平方。有时使用时不太方便;在方差分析中 应用甚广而极为重要。 标准差是方差的正平方根,使用的量纲与原量纲相同,适用于近似正态分布的资料,大样本、小样本均可,最为常用。特点意义同 方差,是方差的开平方;标准差的单位与原数据相同,使用方便,意义深刻,应用广泛;故一般已作为医学生物学领域中反映变异的标 准,故称标准差。 2 变异系数用于观察指标单位不同或均数相差较大时两组资料变异程度的比较,用 CV 表示。应用条件1变异系数为无量纲单位,可 以比较不同单位指标间的变异度;2变异系数消除了均数的大小对标准差的影响,所以可以比较两均数相差较大时指标间的变异度。 注意CV 一般不大于 20-30。否则,说明指标不太稳定。 问答题 常见的描述集中趋势的指标有哪些,概念分别是什么 答常见的描述集中趋势的指标有算数均数、几何均数、中位数和众数。概念见名解。 常见的描述离散趋势的指标有哪些,概念分别是什么 答常见的描述离散趋势的指标有极差、四分位数间距、方差、标准差和变异系数。概念见名解。 统计表和统计图 统计表将统计资料及其指标以表格形式列出,称为统计表(statistical table) 。狭义的统计表只表示统计指标。 统计图统计图statistical graph是将统计指标用几何图形表达,即以点的位置、线段的升降、直条的长短或面积的大小等形式直观的表 示事物间的数量关系。 箱式图用于描述连续型变量的分布特征。涉及到的各个取值由大到小的次序为极大值、 P75、中位数、P25 和极小值。 问答题 常用统计图的定义和制图要求。 名 称 定 义 制 图 要 求 条 图 用等宽直条的长短来表示相互独立的 各统计指标的数值大小 起点为0 的等宽直条, 条间距相等,按高低顺序 排列。 普通线图 适用于连续性资料。用线段的升降来 表示一事物随另一事物变化的趋势。 纵横两轴均为算术尺度,相邻两点应以折线相 连。图内线条不宜超过3 条。 半对数线图 用线段的升降来表示一事物随另一事 物变化的速度。 横轴为算术尺度,纵轴为对数尺度。余同普通线 图。 圆 图 以圆面积表示事物的全部,用扇形面 积表示各部分的比重 以圆面积为 100,将各构成比分别乘以 3.6 度 得圆心角度数后再绘扇形面积。通常以12 点为 始边依次绘图。 直方图 用矩形的面积来表示某个连续型变量 的频数分布 常以横轴表示连续型变量的组段(要求等距) , 纵轴表示频数或频率,其尺度从“0”开始,各 直条间不留空隙。 散点图 以点的密集程度和趋势表示两种事物 间的相关关系 绘制方法同线图,只是点与点之间不连接。 第三章 定性资料的统计描述 相对数是两个有联系的指标之比,是分类变量常用的描述性统计指标,常用