定性数据分析第二章课后答案

其次章课后作业【第1题】解：由题可知消费者对糖果颜色的偏好状况（即糖果颜色的概率分布），调查者取500块糖果作为探讨对象，则以消费者对糖果颜色的偏好作为依据，500块糖果的颜色分布如下表1.1所示：表1.1 理论上糖果的各颜色数橙色黄色红色棕色绿色蓝色 150 100 100 50 50 50 由题知r=6，n=500，我们假设这些数据与消费者对糖果颜色的偏好分布是相符，所以我们进行以下假设: 原假设：类所占的比例为其中为对应的糖果颜色，已知，则检验的计算过程如下表所示：颜色类别 172 150 3.2267 124 100 5.7600 85 100 2.2500 41 50 1.6200 36 50 3.9200 42 50 1.2800 合计 500 500 在这里。检验的p值等于自由度为5的变量大于等于18.0567的概率。在Excel中输入“”，得出对应的p值为，故拒绝原假设，即这些数据与消费者对糖果颜色的偏好分布不相符。【第2题】解：由题可知，r=3，n=200，假设顾客对这三种肉食的喜好程度相同，即顾客选择这三种肉食的概率是相同的。所以我们可以进行以下假设：原假设则检验的计算过程如下表所示：肉食种类猪肉 85 66.67 5.03958 牛肉 41 66.67 9.88374 羊肉 74 66.67 0.80589 合计 200 200 在这里。检验的p值等于自由度为2的变量大于等于15.72921的概率。在Excel中输入“”，得出对应的p值为，故拒绝原假设，即认为顾客对这三种肉食的喜好程度是不相同的。【第3题】解：由题可知，r=10，n=800，假设学生对这些课程的选择没有倾向性，即选各门课的人数的比例相同,则十门课程每门课程被选择的概率都相等。所以我们可以进行以下假设：原假设则检验的计算过程如下表所示：类别（课程） 1 74 80 0.4500 2 92 80 1.8000 3 83 80 0.1125 4 79 80 0.0125 5 80 80 0.0000 6 73 80 0.6125 7 77 80 0.1125 8 75 80 0.3125 9 76 80 0.2000 10 91 80 1.5125 合计 800 800 在这里。检验的p值等于自由度为9的变量大于等于5.125的概率。在Excel中输入“”，得出对应的p值为，故接受原假设，即学生对这些课程的选择没有倾向性，各门课选课人数的频率为0.1。【第4题】解：（1）由题可知，r=3，n=5606，假设1997年8月中国股民投资状况的调查数据和比较流行的说法是相符合。所以我们可以进行以下假设：原假设：类所占的比例为其中为股票投资中对应的赢、持平和亏，已知，则检验的计算过程如下表所示：股票投资状况 1697 560.6 2303.61213 1780 1121.2 387.10082 2129 3924.2 821.24842 合计 5606 5606 在这里。检验的p值等于自由度为2的变量大于等于3511.96137的概率。在Excel中输入“”，得出对应的p值为，故拒绝原假设，即认为1997年8月中国股民投资状况的调查数据和比较流行的说法是不相符合的。（2）解：由题知股票投资中，赢包括盈利10%及以上、盈利10%以下，符合条件的股民共有151+122=273人；持平可以指基本持平，符合条件的股民共有240人；亏包括亏损不足10%和亏损10%及以上，符合条件的股民共有517+240=757人。由题可知，r=3，n=1270，假设2003年2月上海青年报上的调查数据和比较流行的说法是相符合。所以我们可以进行以下假设：原假设：类所占的比例为其中为股票投资中对应的赢、持平和亏，已知，则检验的计算过程如下表所示：股票投资状况 273 127 167.84252 240 254 0.77165 757 889 19.59955 合计 1270 1270 在这里。检验的p值等于自由度为2的变量大于等于188.21372的概率。在Excel中输入“”，得出对应的p值为，故拒绝原假设，即认为2003年2月上海青年报上的调查数据和比较流行的说法是不相符合的。【第5题】解：由题意，我们将“开红花”、“开白花”和“开粉红色花”分别记为，并记所占的比例为，本题所要检验的原假设为：其中，这些都依靠一个未知参数。在原假设成立时的似然函数为则对L(p)取对数得从而有对数似然方程即。据此求得p的极大似然估计，从而得到的极大似然估计。它们分别为0.2025、0.3025和0.495。由此得各类的期望频数的估计值。它们分别为24.3、36.3、132.20和59.4。所以统计量的值为这里r=3，m=1，r-m-1=1。检验的p值等于自由度为1的变量。利用Excel可以算出p值，故接受原假设，即我们认为以上数据在0.05的水平下与遗传学理论是相符的。【第6题】解：由题意，我们可以得到以下信息： ① 遗传因子的分布律为：（其中p+q+r=1）遗传因子概率 ②血型的分布律为：血型概率将“O”血型、“A”血型、“B”血型和“AB”血型这四类血型分别记为，并记所占的比例为，本题所要检验的原假设为：这些都依靠两个未知参数。在原假设成立时的似然函数为则对L(p,q)求对数得对求偏导数得利用Mathematica软件求解(程序编码及运行结果见附录) 解得p和q的极大似然估计为，从而得的极大似然估计。它们分别为0.37332、0.43668、0.13220和0.05780。由此得各类的期望频数的估计值。它们分别为373.32、436.68、132.20和57.80。所以统计量的值为这里r=4，m=2，r-m-1=1。检验的p值等于自由度为1的变量。有Excel可以算出p值为，故接受，我们认为以上数据与遗传学理论是相符的。附录 ①程序代码： NSolve[{(-748)/(1-p-q)+436/p+(-436)/(2-p-2*q)+0+(-264)/(2-q-2*p)+58/p==0,(-748)/(1-p-q)+0+(-872)/(2-p-2*q)+132/q+(-132)/(2-q-2*p)+58/q==0},{p,q}]//Matrix ②利用Mathematica软件运行结果: Out[21]