定义:抽样分布(Sampling Distribution)是统计量的概率分布,即从同一总体中反复抽取容量为n的样本,所有可能样本的统计量(如样本均值、样本方差)观测值构成的分布。
本质:抽样分布是理论分布,描述统计量的随机波动规律,是连接样本与总体的桥梁——通过抽样分布可量化抽样误差,为参数估计和假设检验提供依据。
例如,用每个样本数据都可以计算一个平均值。根据中心极限定理,这些样本平均值服从正态分布。这个正态分布就是样本平均值的抽样分布。

总体:某村5户家庭,人口数分别为4, 5, 6, 7, 8
(总体均值
抽样:样本容量n=2,回置抽样(所有可能样本共
样本均值的抽样分布计算:
| 样本均值 |
4.0 | 4.5 | 5.0 | 5.5 | 6.0 | 6.5 | 7.0 | 7.5 | 8.0 |
|---|---|---|---|---|---|---|---|---|---|
| 频次 | 1 | 2 | 3 | 4 | 5 | 4 | 3 | 2 | 1 |
| 概率 |
1/25 | 2/25 | 3/25 | 4/25 | 5/25 | 4/25 | 3/25 | 2/25 | 1/25 |
抽样分布特征:

与总体分布、样本分布的区别:
| 分布类型 | 定义 | 性质 | 示例 |
|---|---|---|---|
| 总体分布 | 总体中变量的取值及其概率分布 | 固定不变(总体规律) | 某村家庭人口数的分布 |
| 样本分布 | 单次抽样中变量的取值及其频率分布 | 随机变化(经验分布) | 抽取5户家庭的人口数分布 |
| 抽样分布 | 所有可能样本的统计量取值及其概率分布 | 固定不变(理论分布) | 样本均值的分布 (如 |
抽样分布形式:样本均值
标准化变换:令
关键特征:
均值:
方差(标准误差):
从平均身高170cm,身高分布的标准差为10cm的男性总体中分别抽取容量为36、400和2500人的样本。求样本均值的抽样分布。
已知
根据中心极限定理可知
不论样本容量多大,样本均值的数学期望都是总体均值。但随着样本容量的增大, 样本均值分布的标准差越来越小。

抽样分布形式:用样本标准差
t分布的特征:
对称于0,形状与标准正态分布类似,但离散程度更大(方差
当
理论依据:中心极限定理(CLT)——无论总体分布形式如何,当样本容量n足够大(社会科学中n≥50)时,样本均值
抽样分布形式:
若总体均值为
标准化变换:
核心意义:
为非正态总体的参数估计提供了理论基础——只需保证大样本,即可用正态分布近似处理。
总体:某社区家庭月收入(非正态,
抽样:
抽取n=100的样本,样本均值
某快餐厅过去3年的日均营业额为3000元,标准差为500元,服从右偏分布。现从中随机抽取100天组成一个样本,问:(1)这个样本均值的标准差为多少?(2)这个样本均值大于3050的概率为多少?
(1)根据中心极限定理,
(2)计算这个样本均值大于 3050 的概率。
抛掷一枚均匀的硬币120次,正面出现的次数占40%到60%的概率为多少?
解: 抛掷一枚均匀的硬币 120 次可以看作从抛掷一枚硬币的所有结果这一无限总体中随机抽取的一个样本。总体中正面出现的概率
即抛掷一枚均匀的硬币 120 次,正面出现的次数占 40%到 60%的概率为 0.975。
抛掷一枚均匀的硬币120次,正面出现的次数占40%到60%的概率为多少?
如果使用二项分布直接计算,可以按照以下步骤进行:
设随机变量
正面出现比例在40%到60%之间,即正面出现次数在
因此需要计算:
代入
计算这个求和需要计算从k=48到k=72的每一项二项概率并累加,结果约为0.977,与正态近似的结果0.975非常接近,说明当n较大时正态近似的效果很好。
总体分布为正态分布
总体分布为正态分布
任意总体,大样本情况,根据中心极限定理,在大样本情况下,
结论:在社会现象的研究中,只要
定义:点估计(Point Estimation)是用样本计算的单个数值(统计量的观测值)估计总体未知参数的方法,该数值称为点估计值。
核心目标:通过局部样本数据,合理推断总体参数的“近似值”(如用样本均值估计总体平均收入,用样本成数估计总体中某类人群比例)。
与区间估计的区别:
点估计仅给出“单一数值”,不反映估计的可靠性;区间估计给出“数值范围”并明确置信度,更能体现抽样误差。
公式:用样本方差
样本标准差
分母用
样本数据:8名学生“社会统计学”成绩(分):70, 71, 72, 74, 74, 76, 77, 78。
计算过程:
样本均值(总体均值估计):
样本方差(总体方差估计):
样本标准差(总体标准差估计):
结论:总体均值的点估计值为74,总体方差为8.29,总体标准差为2.88。
背景:某公司有10000名员工,随机抽取100人调查,其中20人愿意参加春游。每辆公交车可载50人,需估计预租车辆数。
计算过程:
样本成数(愿意春游的总体成数估计):
估计总体中愿意春游的人数:
估计需租车辆数:
结论:需预租40辆公交车以满足春游需求。
根据样本观察值计算的点估计值是随机变量,点估计是用随机变量来估计总体的特征值。这就要求用来估计总体特征值的随机变量的分布与被估计的总体特征值有很好的契合。如果有多个点估计值可以用来估计总体特征值,应该选择最优的点估计值。
衡量点估计值的好坏有三个标准:
无偏性
有效性
一致性
定义:若点估计量
核心意义:
无偏估计量不存在“系统偏差”——多次抽样的估计值会围绕总体参数波动,平均偏差为0。

设
是未知参数 的一个估计量,若 ,则称 为 的有偏估计量,并将 称作估计量 的偏差或偏倚。若偏差大于0,称 被“高估”;若小于0,则称 被“低估”。
根据
若用
而
定义:设
核心意义:有效估计量的抽样分布更集中于总体参数,单次抽样的估计值更可能接近真值。

正态总体下:
样本均值
样本中位值
结论:

样本均值
样本方差
简单而言,一个优良的估计量应该满足无偏、有效和一致性,也就是它的估计值是在总体参数上下随机波动,且变动幅度越小越好。随着样本量的n无限增大的时候,估计量也需要越来越接近于参数的真值。
无偏性要求
| 标准 | 核心要求 | 样本均值 |
样本方差 |
|---|---|---|---|
| 无偏性 | 满足 | 满足 | |
| 有效性 | 方差最小 | 满足 | 满足 |
| 一致性 | 满足 | 满足 |
由于真正的参数我们不知道,因此无法知道由样本所计算的点估计值到底与总体特征值差距是多少,也就是无法知道点估计值的精度如何。因此,我们希望估计出一个范围,并且希望知道这个范围包含总体特征值的可能性有多大。
区间估计(Interval Estimation)是用样本计算的数值范围(置信区间)估计总体参数,并明确该范围包含总体参数的概率(置信度),弥补点估计无法反映可靠性的缺陷。
包括两部分内容:一是这一可能范围的大小;二是这一可能范围内包含总体参数的概率。例如,估计某班学生平均成绩有90%的可能性在85~90分之间。
该区间不仅要尽可能地包含未知参数(可靠性),还要尽可能小,以得到更加精确的估计(精确度)。
设总体的未知参数为
则称
核心逻辑:
置信区间是“随机区间”——多次抽样得到的不同区间中,有
只有知道了
样本容量固定时:置信度与区间宽度呈正相关——置信度越高(即估计的可靠性越大),区间越宽(估计越不精确);置信度越低,区间越窄(估计越精确)。
示例:某企业职工平均看电视时间的区间估计(n=33):
95%置信度:[0.79, 1.13]小时(区间宽度0.34)。
99%置信度:[0.74, 1.18]小时(区间宽度0.44)。
在样本容量一定的情况下,置信度与精度是相互制约的。
置信度固定时:样本容量与区间宽度呈负相关——样本容量越大,区间越窄(抽样误差越小,估计越精确)。
n=25:区间宽度
| 0.01 | 0.005 | 2.58 | |
| 0.05 | 0.025 | 1.96 | |
| 0.10 | 0.05 | 1.65 |
适用场景:总体服从
抽样分布依据:样本均值
根据样本均值的抽样分布可以由样本均值和事先确定的置信度来估计总体均值的置信区间。
置信区间公式(置信度
其中
95%置信度(
99%置信度(
计算过程:
已知条件:样本容量
计算边际误差:
置信区间:
结论:有95%的把握认为该地月收入总体均值在798.90-801.10元之间。
适用场景:总体服从
抽样分布依据:用样本方差
置信区间公式(置信度
其中
计算过程(99%置信度,
自由度
标准误差:
置信区间:
结论:有99%的把握认为该社区居民平均受教育年限在9.49-13.51年之间。
计算过程(95%置信度,
自由度
标准误差:
置信区间:
结论:有95%的把握认为该校学生平均每天上网时间在2.79-3.61小时之间。
适用场景:总体服从
抽样分布依据:
置信区间公式(置信度
其中:
标准差的置信区间:对上述区间开平方,即:
计算过程(95%置信度,
自由度
方差置信区间:
标准差置信区间:
结论:有95%的把握认为该村家庭化肥支出的方差在35.87-252.44之间,标准差在5.99-15.89之间。
适用场景:
理论依据:中心极限定理——无论总体分布形式如何,大样本下样本均值、样本成数等统计量的抽样分布近似服从正态分布,可按正态分布构建置信区间。
核心优势:无需依赖总体分布假设,应用范围更广。
通用公式框架(置信度
其中:
计算过程(99%置信度,
标准误差:
边际误差:
置信区间:
结论:有99%的把握认为该地区居民平均受教育年限在10.18-12.82年之间。
计算过程(95%置信度,
结论:有95%的把握认为该地区每户居民平均用于服装消费的支出在792.44-827.56元之间。
适用条件:
点估计量:样本成数
标准误差计算:
总体成数
置信区间公式(置信度
计算过程(95%置信度,
结论:有95%的把握认为该地区居民手机拥有率在50.4%-69.6%之间。
计算过程(95%置信度,
结论:有95%的把握认为该批产品的优质品率在80.06%-89.94%之间。
根据中心极限定理,当样本量足够大(
根据正态分布的线性性质:两样本均值差
对于给定的置信水平
将第3步得出的
通过不等式变形(两边同乘分母、移项),解出
(若总体方差
计算过程(95%置信度,
样本均值差:
标准误差:
边际误差:
置信区间:
结论:有95%的把握认为甲地毕业生平均成绩比乙地高10.85-19.15分。
计算过程(95%置信度,
结论:有95%的把握认为甲地居民平均月收入比乙地高498.48-501.52元。
计算过程(95%置信度,
结论:有95%的把握认为甲地汽车拥有率比乙地高3%-10%。
计算过程(95%置信度,
结论:有95%的把握认为男生愿意毕业后从事专业对口工作的频率与女生的频率差在(-4.2%)到(24.2%)之间(负号表示女生频率可能更高,正号表示男生频率可能更高)。
| 估计目标 | 数据类型 | 样本条件 | 抽样分布依据 | 置信区间公式(置信度 |
|---|---|---|---|---|
| 单总体均值 |
定距 | 正态总体, |
||
| 正态总体, |
||||
| 任意总体,大样本(n≥50) | ||||
| 单总体成数 |
定类 | 二项总体,大样本 | ||
| 二总体均值差 |
定距 | 任意总体,大样本 | ||
| 二总体成数差 |
定类 | 二项总体,大样本 |
明确数据类型:定类变量对应成数估计,定距/定比变量对应均值估计。
判断样本条件:是否为正态总体、方差是否已知、样本容量是否足够大。
选择抽样分布:正态分布(Z分布)、t分布或
计算置信区间:代入对应公式,确定置信区间上下限。