- 437.06 KB
- 2021-04-12 发布
1
统计案例
了解独立性检验(只要求 2×2 列联表)的基本思想、方法及其简单应用,并能解决一些实际问题.
1. 列联表
设 X,Y 为两个变量,它们的取值分别为 和 ,其样本频数列联表( 列联表)如下:
总计
a b a+b
c d c+d
总计 a+c b+d
2.独立性检验
利用随机变量 (也可表示为 ) (其中 为样本容量)来
判断“两个变量有关系”的方法称为独立性检验.
3.独立性检验的一般步骤
(1)根据样本数据列出 列联表;
(2)计算随机变量 的观测值 k,查下表确定临界值 k0:
(3)如果 ,就推断“X 与 Y 有关系”,这种推断犯错误的概率不超过 ;否则,就认为在犯
错误的概率不超过 的前提下不能推断“X 与 Y 有关系”.
【注意】(1)通常认为 时,样本数据就没有充分的证据显示“X 与 Y 有关系”.
(2)独立性检验得出的结论是带有概率性质的,只能说结论成立的概率有多大,而不能完全肯定一个结论,
因此才出现了临界值表,在分析问题时一定要注意这点,不可对某个问题下确定性结论,否则就可能对
统计计算的结果作出错误的解释.
2 2
1 2{ }x x, 1 2{ }y y, 2 2
1y 2y
1x
2x
a b c d
2K 2
2( )
( )( )( )( )
n ad bc
a b c d a c b d
n a b c d
2 2
2K
2
0( )P K k 0.50 0.40 0.25 0.15
0.100 0.050
0.025
0.010
0.005 0.001
0k 0.455 0.708 1.323
2.072 2.706
3.841 5.024 6.635
7.879 10.828
0k k 2
0P K k
2
0P K k
2.706k
2
(3)独立性检验是对两个变量有关系的可信程度的判断,而不是对其是否有关系的判断.
考向一 两类变量相关性的判断
已知分类变量的数据,判断两类变量的相关性.可依据数据及公式计算 ,然后作出判断.
典例 1 利用独立性检验来考查两个分类变量 和 是否有关系时,通过查阅下表来确定“ 和 有关系”的
可信度.如果 ,那么就有把握认为“ 和 有关系”的百分比为
A. B.
C. D.
【答案】D
【解析】∵k>5.024,而在观测值表中对应于 5.024 的是 0.025,1﹣0.025=0.975=97.5%,
∴有 97.5%的把握认为“X 和 Y 有关系”.
故选 D.
【名师点睛】本题考查独立性检验的应用,属于基础题,根据所给的观测值,与所给的临界值表中的数据
进行比较,而在观测值表中对应于 5.024 的是 0.025,从而得到结果.
典例 2 有人发现,多看电视容易使人变冷漠,下表是一个调査机构对此现象的调查结果:
附表:
则认为多看手机与人冷漠有关系的把握大约为
2K
X Y X Y
5.024k X Y
2P K k 0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001
K 0.455 0.708 1.323 2.072 2.706 3.84 5.024 6.635 7.879 10.828
25% 75%
2.5% 97.5%
2P K k
0.05
0.025
0.010
0.005 0.001
K
3.84
5.024 6.635
7.879 10.828
3
A. B.
C. D.
【答案】A
【解析】由题可得 K2= ≈11.377.
∵11.377>10.828,∴有 99.9%的把握认为看电视与人变冷漠有关系.
故答案为 A.
【名师点睛】本题主要考查独立性检验,意在考查学生对该知识的掌握水平和解决实际问题的能力.把所给
的数据代入求独立性检验的观测值的公式,求出观测值,把观测值同独立性检验的临界值表进行比较,得
到所求的值大于 10.828,得到有 99.9%的把握认为看电视与人变冷漠有关系.
1.为了解高中生作文成绩与课外阅读量之间的关系,某研究机构随机抽取 60 名高中生做问卷调查,得到
以下数据:
作文成绩优秀 作文成绩一般 总计
课外阅读量较大 22 10 32
课外阅读量一般 8 20 28
总计 30 30 60
由以上数据,计算得到 的观测值 ,根据临界值表,以下说法正确的是
附:
P(K2≥k0) 0.50 0.40 0.25 0.15 0.10 0.05 0.05 0.010 0.005
k0 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879
A.在样本数据中没有发现足够证据支持结论“作文成绩优秀与课外阅读量大有关”
B.在犯错误的概率不超过 0.001 的前提下,认为作文成绩优秀与课外阅读量大有关
C.在犯错误的概率不超过 0.05 的前提下,认为作文成绩优秀与课外阅读量大有关
D.在犯错误的概率不超过 0.005 的前提下,认为作文成绩优秀与课外阅读量大有关
考向二 独立性检验与概率统计的综合
独立性检验是一种统计案例,是高考命题的一个热点,多以解答题的形式出现,试题难度不大,多为中档
99.9% 97.5%
95% 90%
2168 68 38-20 42
88 80 110 58
( )
2K 9.643k
4
题,高考中经常是将独立性检验与概率统计相综合进行命题,解题关键是根据独立性检验的一般步骤,作
出判断,再根据概率统计的相关知识求解问题.
典例 3 某中学对高三甲、乙两个同类班级进行“加强‘语文阅读理解’训练对提高‘数学应用题’得分率作用”
的试验,其中甲班为试验班(加强语文阅读理解训练),乙班为对比班(常规教学,无额外训练),在试验前的
测试中,甲、乙两班学生在数学应用题上的得分率基本一致,试验结束后,统计几次数学应用题测试的平
均成绩(均取整数)如下表所示:
现规定平均成绩在 80 分以上(不含 80 分)的为优秀.
(1)试分别估计两个班级的优秀率;
(2)由以上统计数据填写下面 列联表,并问是否有 的把握认为“加强‘语文阅读理解’训练对提高‘数
学应用题’得分率”有帮助?
参考公式及数据:
,其中 .
【答案】(1)甲、乙两班的优秀率分别为 和 ;(2)列联表见解析,没有 的把握认为“加强‘语
文阅读理解’训练对提高‘数学应用题’得分率”有帮助.
【解析】(1)由题意知,甲、乙两班均有学生 50 人,
甲班优秀人数为 30 人,优秀率为 ,
2 2 75%
2
2 ( )
( )( )( )( )
n ad bcK a b c d a c b d
n a b c d
2
0( )P K k 0.40 0.25 0.15
0.100 0.050
0.025
0.010
0k 0.708 1.323
2.072 2.706
3.841 5.024 6.635
60% 50% 75%
30 60%50
5
乙班优秀人数为 25 人,优秀率为 ,
所以甲、乙两班的优秀率分别为 和 .
(2) 列联表如下:
因为 ,
所以由参考数据知,没有 的把握认为“加强‘语文阅读理解’训练对提高‘数学应用题’得分率”有帮助.
典例 4 为调查某社区居民的业余生活状况,研究这一社区居民在 20:00~22:00 时间段的休闲方式与性别
的关系,随机调查了该社区 80 人,得到下面的数据表:
(1)根据以上数据,能否有 99%的把握认为“在 20:00~22:00 时间段居民的休闲方式与性别有关系”?
(2)将此样本的频率估计为总体的概率,在该社区的所有男性中随机调查 3 人,设调查的 3 人在这一时间
段以看书为休闲方式的人数为随机变量 ,求 的数学期望和方差.
附:
0.050 0.010 0.001
3.841 6.635 10.828
【答案】(1)有 99%的把握认为“在 20:00~22:00 时间段居民的休闲方式与性别有关”;(2)
.
【解析】(1)根据样本提供的 2×2 列联表得:
.
25 50%50
60% 50%
2 2
2
2 100 (30 25 20 25) 100 1.010 1.32350 50 55 45 99K
75%
X X
2
2 ( )
( )( )( )( )
n ad bcK a b c d a c b d
2( )P K k
k
5( ) ,2E X
5( ) 12D X
2
2 80 (10 10 10 50) 80 8.889 6.63560 20 20 60 9K
6
所以有 99%的把握认为“在 20:00~22:00 时间段居民的休闲方式与性别有关”.
(2)由题意得: ,且 ,
所以 .
【解题必备】本题主要考查独立性检验及其应用、二项分布的期望与方差,考查了分析问题与解决问题的
能力.其中使用统计量 作 2×2 列联表的独立性检验的步骤是:
①检查 2×2 列联表中的数据是否符合要求;
②由公式 计算 的值;
③将 的值与临界值表中的数据进行对比.另外需要注意回归分析也常在高考中出现.
2.高中生在被问及“家,朋友聚集的地方,个人空间”三个场所中“感到最幸福的场所在哪里?”这个问题时,
从中国某城市的高中生中随机抽取了 55 人,从美国某城市的高中生中随机抽取了 45 人进行答题.中国高
中生答题情况是:选择家的占 、朋友聚集的地方占 、个人空间占 .美国高中生答题情况是:朋友
聚集的地方占 、家占 、个人空间占 .如下表:
在家里最幸福 在其他场所幸福 合计
中国高中生
美国高中生
合计
(1)请将 列联表补充完整,试判断能否有 的把握认为“恋家”与否与国别有关;
(2)从被调查的不“恋家”的美国学生中,用分层抽样的方法选出 4 人接受进一步调查,再从 4 人中随机
抽取 2 人到中国交流学习,求 2 人中含有在“个人空间”感到幸福的学生的概率.
附: ,其中 .
0.050 0.025 0.010 0.001
3.841 5.024 6.635 10.828
5~ (3, )6X B 3
3
1 5( ) C , 0,1,2,36( ) (6)k k kP X k k
5 5( ) 3 ,6 2E X 5 1 5( ) 3 6 6 12D X
2K
2
2 ( )
( )( )( )( )
n ad bcK a b c d a c b d
2K
2K
2
5
3
10
3
10
3
5
1
5
1
5
2 2 95%
2
2 n ad bck a b c d a c b d
n a b c d
2
0P k k
0k
7
1.观察如图所示的等高条形图,其中最有把握认为两个分类变量 x,y 之间有关系的是
A. B.
C. D.
2.在研究打酣与患心脏病之间的关系中,通过收集数据、整理分析数据得“打酣与患心脏病有关”的结论,
并且有 以上的把握认为这个结论是成立的.下列说法中正确的是
A.100 个心脏病患者中至少有 99 人打酣
B.1 个人患心脏病,那么这个人有 99%的概率打酣
C.在 100 个心脏病患者中一定有打酣的人
D.在 100 个心脏病患者中可能一个打酣的人都没有
3.已知两个统计案例如下:
①为了探究患肺炎与吸烟的关系,调查了 名 岁以上的人,调查结果如下表:
患肺炎 未患肺炎 总计
吸烟 43 162 205
不吸烟 13 121 134
总计 56 283 339
②为了解某地母亲与女儿身高的关系,随机测得 10 对母女的身高如下表:
母亲身高(cm) 159 160 160 163 159 154 159 158 159 157
女儿身高(cm) 158 159 160 161 161 155 162 157 162 156
则对这些数据的处理所应用的统计方法是
A.①回归分析,②取平均值 B.①独立性检验,②回归分析
C.①回归分析,②独立性检验 D.①独立性检验,②取平均值
99%
339 50
8
4.某村庄对该村内 50 名老年人、年轻人每年是否体检的情况进行了调查,统计数据如表所示:
每年体检 每年未体检 合计
老年人 7
年轻人 6
合计 50
已知抽取的老年人、年轻人各 25 名.则完成上面的列联表数据错误的是
A. B.
C. D.
5.为了解某班学生喜爱打篮球是否与性别有关,对本班 人进行了问卷调查得到了下表:
喜爱打篮球 不喜爱打篮球 合计
男生
女生
合计
参考公式:
,其中 .
临界值表:
根据表中的数据你认为喜爱打篮球与性别之间有关系的把握是
A. B.
C. D.
6.为了普及环保知识,增强环保意识,某大学从理工类专业的 A 班和文史类专业的 B 班各抽取 20 名同学
参加环保知识测试.统计得到成绩与专业的列联表:
a c
b d
e f
18a 19b
50c d 1f e
50
25 10 35
5 10 15
30 20 50
2
2 ( )
( )( )( )( )
n ad bcK a b c d a c b d
n a b c d
2
0( )P K k
0.100 0.050 0.025 0.010
0.005 0.001
0k
2.706 3.841 5.024 6.635 7.879
10.828
97.5% 99%
99.5% 99.9%
9
优秀 非优秀 总计
A 班 14 6 20
B 班 7 13 20
总计 21 19 40
附:参考公式及数据:
(1)统计量:
,其中 .
(2)独立性检验的临界值表:
P(K2≥k0) 0.050 0.010
k0 3.841 6.635
则下列说法正确的是
A.有 99%的把握认为环保知识测试成绩与专业有关
B.有 99%的把握认为环保知识测试成绩与专业无关
C.有 95%的把握认为环保知识测试成绩与专业有关
D.有 95%的把握认为环保知识测试成绩与专业无关
7.假设有两个分类变量 和 的 列联表为:
总计
总计
对同一样本,以下数据能说明 与 有关系的可能性最大的一组为
A. B.
C. D.
参考公式: ,其中 .
2
2 ( )
( )( )( )( )
n ad bcK a b c d a c b d
n a b c d
X Y 2 2
X Y 1y 2y
1x 5 b 5 b
2x 15 d 15 d
20 40 60
X Y
5, 35b d 15, 25b d
20, 20b d 30, 10b d
2
2 ( )
( )( )( )( )
n ad bcK a b c d a c b d
n a b c d
10
8.某学校为判断高三学生选修文科是否与性别有关,现随机抽取 50 名学生,得到如下 列联表:
理科 文科 合计
男 13 10 23
女 7 20 27
合计 20 30 50
根 据 表 中 数 据 得 到 , 已 知 ,
.现作出结论“选修文科与性别相关”,估计这种判断出错的可能性约为
A. B.
C. D.
9.某学校为了制定治理学校门口上学、放学期间家长接送孩子乱停车现象的措施,对全校学生家长进行了
问卷调查.根据从中随机抽取的 50 份调查问卷,得到了如下的列联表:
同意限定区域停车 不同意限定区域停车 合计
男 20 5 25
女 10 15 25
合计 30 20 50
则认为“是否同意限定区域停车与家长的性别有关”的把握约为__________.
附: ,其中 .
0.50 0.40 0.25 0.15 0.10
0.455 0.708 1.323 2.072 2.706
0.05 0.025 0.010 0.005 0.001
3.841 5.024 6.635 7.879 10.828
10.已知下列命题:
①在线性回归模型中,相关指数 表示解释变量 对于预报变量 的贡献率, 越接近于 1,表示回
2 2
2
2 50 13 20 10 7 4.84423 27 20 30K
2 3.841 0.05P K
2 5.024 0.025P K
97.5% 95%
2.5% 5%
2
2 n ad bcK a b c d a c b d
n a b c d
2
0P K k
0k
2
0P K k
0k
2R x y 2R
11
归效果越好;
②两个变量相关性越强,则相关系数的绝对值就越接近于 1;
③在回归直线方程 中,当解释变量 每增加一个单位时,预报变量 平均减少 0.5 个单
位;
④对分类变量 与 ,它们的随机变量 的观测值 来说, 越小,“ 与 有关系”的把握程度越
大.
其中正确命题的序号是__________.
11.一则“清华大学要求从 2017 级学生开始,游泳达到一定标准才能毕业”的消息在体育界和教育界引起了
巨大反响.其实,已有不少高校将游泳列为必修内容.某中学拟在高一下学期开设游泳选修课,为了了解
高一学生喜欢游泳是否与性别有关,该学校对 100 名高一新生进行了问卷调查,得到如下 列联表:
喜欢游泳 不喜欢游泳 合计
男生 40
女生 30
合计
已知在这 100 人中随机抽取 1 人,抽到喜欢游泳的学生的概率为 .
(1)请将上述列联表 补充完整,并判断是否可以在犯错误的概率不超过 0.001 的前提下认为喜欢
游泳与性别有关.
(2)已知在被调查的学生中有 6 名来自高一(1)班,其中 4 名喜欢游泳,现从这 6 名学生中随机抽取 2
人,求恰有 1 人喜欢游泳的概率.
附:
0.10 0.050 0.025 0.010 0.005 0.001
2.706 3.841 5.024 6.635 7.879 10.828
0.5 2y x
x y
X Y 2K k k X Y
2 2
3
5
2 2
2
2 = n ad bcK a b c d a c b d
2
0P K k
0k
12
12.随着资本市场的强势进入,互联网共享单车“忽如一夜春风来”,遍布了一二线城市的大街小巷.为了解
共享单车在 市的使用情况,某调查机构借助网络进行了问卷调查,并从参与调查的网友中抽取了 200
人进行抽样分析,得到表格:(单位:人)
经常使用 偶尔或不用 合计
30 岁及以下 70 30 100
30 岁以上 60 40 100
合计 130 70 200
(1)根据以上数据,能否在犯错误的概率不超过 0.15 的前提下认为 市使用共享单车情况与年龄有
关?
(2)现从所抽取的 30 岁以上的网友中利用分层抽样的方法再抽取 5 人.
(i)分别求这 5 人中经常使用、偶尔或不用共享单车的人数;
(ii)从这 5 人中,再随机选出 2 人赠送一件礼品,求选出的 2 人中至少有 1 人经常使用共享单车的概
率.
参考公式: ,其中 .
参考数据:
0.15 0.10 0.05 0.025 0.010
2.072 2.706 3.841 5.024 6.635
A
A
2
2 n ad bcK a b c d a c b d
n a b c d
2
0P K k
0k
13
13.某省高考改革实施方案指出:该省高考考生总成绩将由语文、数学、外语 3 门统一高考成绩和学生自
主选择的学业水平等级性考试科目共同构成,该省教育厅为了解正在读高中的学生家长对高考改革方
案所持的赞成态度,随机从中抽取了 100 名城乡家长作为样本进行调查,调查结果显示样本中有 25 人
持不赞成意见,如图是根据样本的调查结果绘制的等高条形图.
(1)根据已知条件与等高条形图完成下面的 列联表,并判断我们能否有 95%的把握认为“赞成高
考改革方案与城乡户口有关”?
注: ,其中 .
(2)用样本的频率估计概率,若随机在全省不赞成高考改革的家长中抽取 3 个,记这 3 个家长中是城
镇户口的人数为 ,试求 的分布列及数学期望 .
2
2 n ad bcK a b c d a c b d
E X
14
1.(2017 年高考新课标Ⅱ卷)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽
取了 100 个网箱,测量各箱水产品的产量(单位:kg).其频率分布直方图如下:
(1)设两种养殖方法的箱产量相互独立,记 A 表示事件:“旧养殖法的箱产量低于 50kg,新养殖法的
箱产量不低于 50kg”,估计 A 的概率;
(2)填写下面列联表,并根据列联表判断是否有 99%的把握认为箱产量与养殖方法有关;
箱产量<50kg 箱产量≥50kg
旧养殖法
新养殖法
(3)根据箱产量的频率分布直方图,求新养殖法箱产量的中位数的估计值(精确到 0.01).
附: ,
2.(2018 年高考新课标Ⅲ卷)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种
新的生产方式.为比较两种生产方式的效率,选取 40 名工人,将他们随机分成两组,每组 20 人.第一组
2
2 ( )
( )( )( )( )
n ad bcK a b c d a c b d
15
工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:
min)绘制了如下茎叶图:
(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;
(2)求 40 名工人完成生产任务所需时间的中位数 ,并将完成生产任务所需时间超过 和不超过
的工人数填入下面的列联表:
超过 不超过
第一种生产方式
第二种生产方式
(3)根据(2)中的列联表,能否有 99%的把握认为两种生产方式的效率有差异?
附: ,
m m m
m m
2
2 n ad bcK a b c d a c b d
2P K k≥
0.050 0.010
0.001
k 3.841
6.635
10.828
16
1.【答案】D
【名师点睛】本题考查卡方含义,考查基本求解能力.根据临界值表,确定犯错误的概率即可.
2.【答案】(1)见解析;(2) .
【解析】(1)由已知得:
在家里最幸福 在其他场所幸福 合计
中国高中生 22 33 55
美国高中生 9 36 45
合计 31 69 100
∴ ,
【思路点拨】(1)根据题意填写列联表,计算观测值 ,对照临界值表得出结论;
(2)用分层抽样方法抽出 4 人,其中在“朋友聚焦的地方”感到幸福的有 3 人,在“个人空间”感到幸福的
有 1 人,分别设为 ,再设“含有在‘个人空间’感到幸福的学生”为事件 ,求出基本事件数,
即可求得概率值. #¥网
1
2
2
2 100 22 36 9 33
31 69 55 45K
100 11 3 4.628 3.84131 23
2K
1 2 3, , ,a a a b A
17
1.【答案】D
【解析】在等高条形图中,x1,x2 所占比例相差越大,分类变量 x,y 有关系的把握越大.
故答案为 D
【名师点睛】(1)本题主要考查通过等高条形图判断两个分类变量是否有关系,意在考查学生对该知识
的掌握水平和分析推理能力.
(2)在等高条形图中,如果两个分类变量所占的比例差距越大,则说明两个分类变量有关系的把握越大.
2.【答案】D
【解析】利用独立性检验的结论可得:若“打酣与患心脏病有关”的结论,并且有 以上的把握认为这
个结论是成立的,则在 100 个心脏病患者中可能一个打酣的人都没有.
本题选择 D 选项.
【名师点睛】独立性检验得出的结论是带有概率性质的,只能说结论成立的概率有多大,而不能完全肯
定一个结论,因此才出现了临界值表,在分析问题时一定要注意这点,不可对某个问题下确定性结论,
否则就可能对统计计算的结果作出错误的解释.
3.【答案】B
【解析】常用独立性检验研究两个分类变量之间是否有关系,常用回归分析研究两个具有相关关系的变
量的相关程度,综上可知选 B.
4.【答案】D
【解析】因为 ,
所以 .
故选 D.
【名师点睛】本题考查列联表有关概念,考查基本求解能力.先根据列联表列方程组,解得 a,b,c,d,e,f 再
判断各选项.
5.【答案】A
6.【答案】C
99%
7 25,6 25, 6 ,7 , 50, 50a c b d a e b f c d e f
18, 19, 50, 24, 26, 2a b c d e f f e
18
【解析】因为 ,所以 3.841