列联表的变量为分类变量,结果可通过文本、符号或数字代码表示。
示例1:对改革方案的态度(1.赞成;2.反对)
示例2:吸烟状态(1.是;2.否)
数据转化规则:高层次数据可转化为低层次数据分析。
单变量频次分布是“变量值-频数”的集合
二变量联合分布需同时包含x和y的取值。
联合频次分布表:集合对为
联合概率分布表:集合对为
概率换算公式:
边缘分布是忽略一个变量的取值,仅关注另一个变量的分布。
关于y的边缘分布:将联合分布按行加总,
关于x的边缘分布:将联合分布按列加总,

条件分布是控制一个变量取固定值后,另一个变量的分布。
控制x时:以x的边缘频次
控制y时:以y的边缘频次
数量关系:若x有c个取值、y有r个取值,理论上有

变量独立定义:两个变量之间无关联,一个变量的取值不影响另一个变量的分布。
独立的核心特征:变量的条件分布与其边缘分布完全相同。


检验目的:判断列联表中样本观察值分布与变量独立时的期望分布是否存在显著差异,进而推断总体中两变量是否相关。
两个变量不相关称为两个变量互相独立。列联表中两个变量互相独立的表现形式是,频率的条件分布等于边缘分布。
两个变量完全独立时,条件分布等于边缘分布
由上式推导可知,期望频次可由边缘分布计算:
通过卡方统计量量化差异,差异越大,变量相关性越强。
提出假设
原假设
备择假设
计算期望频次
基于边缘频次计算,公式为
计算卡方统计量
卡方值越大,观察值与期望值差异越显著。说明两个变量越不独立,相关性越强。
确定临界值与拒绝域
自由度
按显著性水平
拒绝域:
作出决策
若
若

| 性别/文化 | 未上过学 | 小学 | 初中 | 高中 | 中专 | 专科 | 本科 | 总计 |
|---|---|---|---|---|---|---|---|---|
| 男 | 540(714.2) | 842(779) | 641(558.5) | 178(139.8) | 38(35.1) | 24(20.4) | 13(9.1) | 2276 |
| 女 | 722(547.8) | 570(613) | 346(428.5) | 69(107.2) | 24(26.9) | 12(15.6) | 3(6.9) | 1746 |
| 总计 | 1262 | 1412 | 987 | 247 | 62 | 36 | 16 | 4022 |
已知条件:
期望频次计算(示例):
临界值查找:
结论:由于
核心要求:期望频次
一般标准:
多数情况下要求
允许个别单元格
若不符合要求,需将频次过小的单元格合并后再进行检验。
随机抽取小区60岁以上老人160名(男女各80名),文化程度的分布如下图,试分析性别与文化程度是否有显著差异(
原始列联表(括号内为期望频次):
| 性别/文化程度 | 文盲 | 小学 | 初中 | 高中 | 大专 | 本科 | 总计 |
|---|---|---|---|---|---|---|---|
| 男 | 0 (1.5) | 6 (3.5) | 36 (36) | 31 (30.5) | 3 (6) | 4 (2.5) | 80 |
| 女 | 3 (1.5) | 1 (3.5) | 36 (36) | 30 (30.5) | 9 (6) | 1 (2.5) | 80 |
| 总计 | 3 | 7 | 72 | 61 | 12 | 5 | 160 |
确定原假设和备择假设
计算期望频次
根据题目中给出的数据,计算每个单元格的期望频次
计算卡方统计量:
确定自由度:
查找临界值:在显著性水平
做出决策:由于
问题是:假设检验结果似乎与表中数据呈现的直观感受不同!
原因是:从数据分布上看,绝大多数人的文化程度集中在初中和高中,在这两个取值上,男女两性并无差异。差异主要表现在小学以下和大专以上。但在这四个取值上的人数都很少。
| 性别/文化程度 | 文盲 | 小学 | 初中 | 高中 | 大专 | 本科 | 总计 |
|---|---|---|---|---|---|---|---|
| 男 | 0 (1.5) | 6 (3.5) | 36 (36) | 31 (30.5) | 3 (6) | 4 (2.5) | 80 |
| 女 | 3 (1.5) | 1 (3.5) | 36 (36) | 30 (30.5) | 9 (6) | 1 (2.5) | 80 |
| 总计 | 3 | 7 | 72 | 61 | 12 | 5 | 160 |
| 性别/文化程度 | 文盲 | 小学 | 初中 | 高中 | 大专 | 本科 | 总计 |
|---|---|---|---|---|---|---|---|
| 男 | 0 (1.5) | 6 (3.5) | 36 (36) | 31 (30.5) | 3 (6) | 4 (2.5) | 80 |
| 女 | 3 (1.5) | 1 (3.5) | 36 (36) | 30 (30.5) | 9 (6) | 1 (2.5) | 80 |
| 总计 | 3 | 7 | 72 | 61 | 12 | 5 | 160 |
将文盲与小学合并,大专与本科合并,得下表。
| 性别 | 小学及以下 | 初中 | 高中 | 大专及以上 | 总计 |
|---|---|---|---|---|---|
| 男 | 6 (5) | 36(36) | 31(30.5) | 7 (8.5) | 80 |
| 女 | 4 (5) | 36(36) | 30(30.5) | 10 (8.5) | 80 |
| 总计 | 10 | 72 | 61 | 17 | 160 |
| 性别 | 小学及以下 | 初中 | 高中 | 大专及以上 | 总计 |
|---|---|---|---|---|---|
| 男 | 6 (5) | 36(36) | 31(30.5) | 7 (8.5) | 80 |
| 女 | 4 (5) | 36(36) | 30(30.5) | 10 (8.5) | 80 |
| 总计 | 10 | 72 | 61 | 17 | 160 |
修正后计算:
结论:由于
关键启示:原始数据因频次分布不均导致误判,合并单元格后检验结果更可靠。
联表中的
但是,由于
常用测量指标分为两类:
基于卡方值的系数:
基于减少误差比例(PRE)的系数:λ系数、古德曼-克鲁斯卡尔τ系数(直观反映预测精度提升程度)。
| 边缘和 | |||
|---|---|---|---|
| 边缘和 |
取值范围:
Q 系数(Yule's Q)公式:
取值范围:
| 结果 \ 处理 | 新药 | 安慰药 |
|---|---|---|
| 未感冒 | 50 | 28 |
| 患感冒 | 0 | 22 |
计算公式:
取值范围:
缺点:列联表格数增多时,
适用场景:适用于任意维度列联表,修正了
计算公式:
取值范围:
局限性:即使两变量完全相关,C系数也无法达到1,受列联表维度影响。
适用场景:解决C系数无法达到1的问题,是更优的标准化指标。
计算公式:
其中
取值范围:
知道性别与考试分数之间的关系后,预测减少的误差比例是:
可见,借助性别来猜测学生的成绩可以消减掉67%的误差。
也说明性别与学习成绩有较强的相关。
在没有任何可参考的信息下猜测一个事物时会有很大的盲目性,而借助一个与被猜测的事物有关的事物来进行猜测,就会减少盲目性,提高猜测准确性。
如果两个变量相关,借助一个变量去猜测另一个变量时会消减掉猜测误差。消减掉的误差大,说明两个变量之间的密切程度高。消减掉的误差小,说明两个变量之间的密切程度低。
这样,消减掉误差的大小就可以成为测量两个变量之间关系密切程度的指标。
PRE适用于各种层次变量之间的相关性测定。
PRE核心思想:借助一个变量预测另一个变量时,误差减少的比例,取值范围
λ系数定义:基于众数预测的PRE系数,计算步骤如下:
| 性别/态度 | 愿意 | 不愿意 | 总计 |
|---|---|---|---|
| 男 | 30 | 70 | 100 |
| 女 | 60 | 40 | 100 |
| 总计 | 90 | 110 | 200 |
| 性别/态度 | 愿意 | 不愿意 | 总计 |
|---|---|---|---|
| 男 | 30 | 70 | 100 |
| 女 | 60 | 40 | 100 |
| 总计 | 90 | 110 | 200 |
假设只知道样本中有90人愿意去老年公寓养老,110人则不愿意。
此时要猜测每一个人的态度,可猜测所有人都不愿意去公寓养老。
这样能猜对110人,猜错90人。此时形成的误差:
| 性别/态度 | 愿意 | 不愿意 | 总计 |
|---|---|---|---|
| 男 | 30 | 70 | 100 |
| 女 | 60 | 40 | 100 |
| 总计 | 90 | 110 | 200 |
若知道不同性别的老年人的态度分布,猜测的方法是,所有的男性均猜测为不愿意,所有的女性均猜测为愿意。这样能猜对130人,猜错70人。此时形成的误差:
结论:借助性别预测养老态度,可减少22%的误差,关联强度中等。
取值范围
对称性:λ系数具有不对称性,
如果两个变量之间具有明确意义上的因果关系,习惯上将x设为自变量,将y设为因变量。当两个变量之间的因果关系不太明确的情况下可以计算
特点:相比λ系数,充分利用数据信息,不仅考虑众数,还结合所有频次分布。
计算逻辑:
| 性别 | 愿意 | 不愿意 | 总计 |
|---|---|---|---|
| 男 | 30 | 70 | 100 |
| 女 | 60 | 40 | 100 |
| 总计 | 90 | 110 | 200 |
具体做法是,将上表中的200人随机地分为90人和110人两组。
将90人这一组的个案都猜测为不愿意去老年公寓养老,对于这组人猜错的人数为:
将110人这一组的个案都猜测为愿意去老年公寓养老。对于这组人猜错的人数为:
此时,猜测产生的误差
| 性别 | 愿意 | 不愿意 | 总计 |
|---|---|---|---|
| 男 | 30 | 70 | 100 |
| 女 | 60 | 40 | 100 |
| 总计 | 90 | 110 | 200 |
知道x与y有关时,将男性的100人随机分为30人和70人两组。将30人这一组的个案都猜测为愿意去老年公寓养老,而将70人这一组的个案都猜测为不愿意去老年公寓养老。男性猜错的人数为:
同理,将100名女性随机分为60人和40人两组。将60人这一组的个案都猜测为愿意去老年公寓养老,而将40人这一组的个案都猜测为不愿意去老年公寓养老。对于女性猜错的人数为:
此时,猜测产生的误差
则
检验逻辑:列联相关系数的显著性与卡方检验结果一致。
具体规则:
λ系数、τ系数:虽基于PRE计算,但仍可通过卡方检验判断显著性(卡方值显著则系数显著)。
核心结论:列联表的相关性检验与强度测量是互补的,需结合两者综合分析。