千锤百炼-高考数学100个热点问题——第95炼统计初步
第 95 炼 高中涉及的统计学知识 一、基础知识: (一)随机抽样: 1、抽签法:把总体中的N个个体编号,把号码写在号签上,将号签放在一个容器中搅拌均匀 后,每次从中抽取一个号签,连续抽取n次,就得到容量为n的样本 2、系统抽样:也称为等间隔抽样,大致分为以下几个步骤: (1)先将总体的N个个体编号 (2)确定分段间隔k,设样本容量为n,若 NN 为整数,则k nn (3)在第一段中用简单随机抽样确定第一个个体编号l,则后面每段所确定的个体编号与前 一段确定的个体编号差距为k,例如:第2 段所确定的个体编号为l k,第m段所确定的个 体编号为l m1k,直至完成样本 注: (1)若 N 不是整数,则先用简单随机抽样剔除若干个个体,使得剩下的个体数能被n整 n 除, 再进行系统抽样。 例如 501 名学生所抽取的样本容量为10, 则先随机抽去 1 个, 剩下的500 个个体参加系统抽样 (2)利用系统抽样所抽出的个体编号排成等差数列,其公差为k 3、分层抽样:也称为按比例抽样,是指在抽样时,将总体分成互不交叉的层,然后按照一定 的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本。 分层抽样后样本中各层的比例与总体中各个层次的比例相等,这条结论会经常用到 (二)频率分布直方图: 1、频数与频率 (1)频数:指一组数据中个别数据重复出现的次数或一组数据在某个确定的范围内出现的数 据的个数. (2)频率:是频数与数据组中所含数据的个数的比,即频率=频数/总数 (3)各试验结果的频率之和等于1 2、频率分布直方图:若要统计每个小组数据在样本容量所占比例大小,则可通过频率分布表 (表格形式)和频率分布直方图(图像形式)直观的列出 (1)极差:一组数据中最大值与最小值的差 (2)组距:将一组数据平均分成若干组(通常5-12 组) ,则组内数据的极差称为组距,所以 - 1 - 有组距=极差/组数 (3)统计每组的频数,计算出每组的频率,便可根据频率作出频率分布直方图 (4)在频率分布直方图中:横轴按组距分段,纵轴为“频率/组距” (5)频率分布直方图的特点: ① 频率= 频率 组距,即分布图中每个小矩形的面积 组距 ② 因为各试验结果的频率之和等于 1,所以可得在频率分布直方图中,各个矩形的面积和为 1 (三)茎叶图:通常可用于统计和比较两组数据,其中茎是指中间的一列数,通常体现数据 中除了末位数前面的其他数位,叶通常代表每个数据的末位数。并按末位数之前的数位进行 分类排列,相同的数据需在茎叶图中体现多次 (四)统计数据中的数字特征: 1、众数:一组数据中出现次数最多的数值,叫做众数 2、中位数:将一组数据从小到大排列,位于中间位置的数称为中位数,其中若数据的总数为 奇数个,则为中间的数;若数据的总数为偶数个,则为中间两个数的平均值。 3、平均数:代表一组数据的平均水平,记为x,设一组数据为:x 1,x2, ,x n ,则有: x x 1 x 2 n 2 x n 4、方差:代表数据分布的分散程度,记为s,设一组数据为:x 1,x2, 则有:s 2 ,x n ,其平均数为x, 1 x 1 x n 2 x 2 x 2 2 x n x ,其中s2越小,说明数据越集中 5、标准差:也代表数据分布的分散程度,为方差的算术平方根 二、典型例题 例 1:某校高中部有三个年级,其中高三有学生1000人,现采用分层抽样法抽取一个容量为 185的样本, 已知在高一年级抽取了75人, 高二年级抽取了60人, 则高中部共有学生_______ 人. 思路:分层抽样即按比例抽样,由高一年级和高二年级的人数可得高三人数为 185 75 60 50人,所以抽样比为 答案:3700 5011 = ,从而总人数为185 3700人 10002020 例 2:某企业三月中旬生产,A.B.C 三种产品共 3000 件,根据分层抽样的结果;企业统计 - 2 - 员制作了如下的统计表格: 产品类别AB 1300 130 C 产品数量(件) 样本容量(件) 由于不小心,表格中 A.C 产品的有关数据已被污染看不清楚,统计员记得A 产品的样本容量 比 C 产品的样本容量多 10,根据以上信息,可得 C 的产品数量是件. 1301 ,所以若 A 产品的样本容量比 C 产品的样本容量多 130010 1 100, 且A,C 产 品 数 量 和 为10 , 则 A 产 品 的 数 量 比 C 产 品 的 数 量 多10 10 思路:由B产品可得抽样比为 3 0 0 0 1 3 0 0 答案:800 1,从而可解得7 0C产品的数量为800 例 3:某棉纺厂为了了解一批棉花的质量,从中随机抽测了100 根棉花纤维的长度(棉花纤维 所得数据均在区间5,40 中,其频率分布直方图如图所示,则在抽测的100 根中___________ 根棉花纤维的长度小于 15mm. 思 路 : 由 频 率 直 方 图 的 横 纵 轴 可 得 : 组 距 为 5mm , 所 以 小 于 15mm 的 频 率 为 0.010.015 0.1,所以小于 15mm 共有100 0.1=10根 答案:10 例 4:某班甲、乙两位同学升入高中以来的5 次数学考试成绩的茎叶图如图,则乙同学这5 次 数学成绩的中位数是;已知两位同学这 5 次成绩的平均数都是 84,成绩比较稳定的 是(第二个空填“甲”或“乙” ) . - 3 - 思路:由茎叶图可读出, 乙同学的成绩为79,80,82,88,91,甲同学的成绩为81,82,83,84,91, 所以乙同学的成绩的中位数为82,相比较而言,甲同学的成绩比较集中,所以比较稳定的是 甲 答案:82,甲 小炼有话说:在求中位数时要注意先将数据从小到大排列,判断成绩稳定,本题甲,乙稳定 性的判断定量上要依靠方差,但因为本题从茎叶图上看出甲,乙数据稳定性差距较大,所以 定性的判断。 例 6:某校从参加高三年级期末考试的学生中随机抽取100 名学生,将其数学成绩分成五段: 50,70,70,90,90,110,110,130,130,150,它的频率分布直方图如图所示,则该批学 生中成绩不低于 90 分的人数是_____. 思路:90,100的高度未知,但由于直方图体现的是全部样本的情况,所以各部分频率和为 1,可以考虑间接法。从图中可观察到 50,90的频率为0.00250.015020 0.35,所 以不低于 90 分的频率为1 0.35 0.65,故人数为100 0.65 65(人) 答案:65 - 4 - 例 7:从某小区抽取 100 户居民进行月用电量调查,发现其用电量都在 50 到 350 度之间,频率 分布直方图所示. (1)直方图中x的值为___________; (2)在这些用户中,用电量落在区间100,250 内的户数为_____________. 思路:(1)依题意可得频率直方图中的频率和等于1,由图可得组距为50,