| 职业 | 频次 |
频率 |
百分比 |
|---|---|---|---|
| 干部 | 110 | 0.200 | 20.0 |
| 工人 | 152 | 0.276 | 27.6 |
| 农民 | 228 | 0.524 | 52.4 |
| 总数 | 550 | 1.000 | 100.0 |
完备性(Exhaustion):所有观测值均能归类。
互斥性(Mutual exclusion):每个观测值仅属一类。
连续变量分组:重叠组限遵循“上限不计”原则。
如:100—200;200—300,“200”归入第二组。)。
必备要素:表号、表头、标识行、主体行、表尾。
定类变量统计表:
| 家庭类型 | 频次(频率) |
|---|---|
| 核心家庭 | 1050(49.3%) |
| 直系家庭 | 720(33.8%) |
| 联合家庭 | 110(5.2%) |
| 其他家庭 | 250(11.7%) |
| 总计 | 2130(100%) |
定序变量统计表:
| 喜爱程度 | 频次(人) | 频率(%) |
|---|---|---|
| 非常爱看 | 7 | 17.9 |
| 爱看 | 9 | 23.1 |
| 一般 | 10 | 25.6 |
| 不爱看 | 10 | 25.6 |
| 很反感 | 3 | 7.7 |
| 总计 | 39 | 100 |
离散变量(整数计数):直接列举取值(适用于取值范围小的情况)。
| 台数 | 频次(家) |
|---|---|
| 1 | 100 |
| 2 | 20 |
| 3 | 2 |
| 4 | 1 |
连续变量(小数计量):采用组距式统计表
标明组界(间断组界)统计表
真实组界(重叠组界)统计表
若不采用重叠组界,则变量值统计会有所遗漏
精度问题:分组点比原统计资料精度要高一位
几个概念
组限:就是每组的范围,包括上限和下限。注意真实组限与标示组限的关系。
组距:每个组的宽度,就是组的真实上限与真实下限之差。
组中点:就是真实上限与真实下限的平均数。
确定全距。 全距是变量观察值的最大值与最小值之差。变量的所有观察值都在全距的范围内分布。
确定组数与组距。 根据全距的大小和观察值的个数综合考虑。一般以2、3、5、10或它们的倍数作为组距。
| 调查总数N | 分组数K |
|---|---|
| 50-100 | 6-10 |
| 100-250 | 7-12 |
| 250以上 | 10-20 |
确定各组的上下限。 最低组的下限要小于最小的观察值;最高组的上限要大于最大的观察值。
登记各组中个体的频次,计算频率。

饼图:用于定类变量,以扇形面积表示各类别占比。
柱状图:用于定序变量,以长条高度表示频次/频率(长条可离散)。柱状图常见的有簇状柱状图、堆叠柱状图、百分比堆叠柱状图、双向柱状图等。
直方图:用于定距变量,连续无空隙长条,面积表示频次/频率(宽度不等时)。
折线图:展示频次/频率分布趋势,使变化规律更直观。
cf↑):小于某值的频次总和。cf↓):大于某值的频次总和。| 回答类别 | 户数 (户) | 百分比 (%) | 向上累积 | 向下累积 | ||
|---|---|---|---|---|---|---|
| 户数 (户) | 百分比 (%) | 户数 (户) | 百分比 (%) | |||
| 非常不满意 | 24 | 8 | 24 | 8.0 | 300 | 100.0 |
| 不满意 | 108 | 36 | 132 | 44.0 | 276 | 92 |
| 一般 | 93 | 31 | 225 | 75.0 | 168 | 56 |
| 满意 | 45 | 15 | 270 | 90.0 | 75 | 25 |
| 非常满意 | 30 | 10 | 300 | 100.0 | 30 | 10 |
| 合计 | 300 | 100.0 | — | — | — | — |
洛伦兹曲线:用人口累计百分比和收入累计百分比的关系来呈现收入不平等的关系。
可以直观地看到一个国家收入分配平等或不平等的状况。
从坐标原点到正方形相应另一个顶点的对角线为均等线,即收入分配绝对平等线,这一般是不存在的。实际收入分配曲线即洛伦兹曲线都在均等线的右下方。
根据洛伦茨曲线组成的基尼系数:
基尼系数,

单峰图形:只有一个峰值,表明数据有一个单一的、最集中的中心点。
多峰图形:有两个或更多的峰值,表明数据中存在多个独立的集中点或不同的亚群体。

对称图形
在对称分布中,数据围绕着一个中心点均匀地展开。
中心化趋势明确,对称分布表明数据没有偏向任何一端,平均值很好地代表了数据的中心位置。
便于分析和预测,许多统计方法和模型都建立在数据呈对称分布的假设上,这使得分析和预测更为简单和可靠。例如,在正态分布中,我们可以用平均值和标准差来准确描述数据的绝大部分特征。

非对称、偏态图形:数据不均匀地分布在中心点两侧,偏向一侧。


在统计学中我们既可用分布全面地研究变量,也可用典型变量值或特征值——集中趋势对变量进行简明扼要的研究。
目的:用来估计和预测变量时所产生的误差最小。
方法
定义:频次最高的变量值,反映数据的集中点。
适用层次:
定类、定序、定距、定比变量。
尤其单峰对称分布。对于多峰的图形,由于众数不唯一,一般不用它来讨论。
计算:
| 广告类型 | 人数(人) | 比例 | 频率(%) |
|---|---|---|---|
| 商品广告 | 112 | 0.560 | 56.0 |
| 服务广告 | 51 | 0.255 | 25.5 |
| 金融广告 | 9 | 0.045 | 4.5 |
| 房地产广告 | 16 | 0.080 | 8.0 |
| 招生招聘广告 | 10 | 0.050 | 5.0 |
| 其他广告 | 2 | 0.010 | 1.0 |
| 合计 | 200 | 1 | 100 |
M₀ = 商品广告定义:将数据排序后,位于中间位置的数值,不受极端值影响。
适用层次:定序、定距、定比变量(不适用于定类变量)。
计算:
| 住房面积(平方米) | 频次 | 累计频次 |
|---|---|---|
| 20以下 | 2 | 2 |
| 20-40 | 132 | 134 |
| 40-60 | 430 | 564 |
| 60-80 | 198 | 762 |
| 80-100 | 76 | 838 |
| 100-120 | 30 | 868 |
| 120-140 | 9 | 877 |
| 140-160 | 2 | 879 |
| 160-180 | 4 | 883 |
| 按零件件数分组 | 组中值 ( |
频数 (f) | |
|---|---|---|---|
| 105~110 | 107.5 | 3 | 322.5 |
| 110~115 | 112.5 | 5 | 562.5 |
| 115~120 | 117.5 | 8 | 940.0 |
| 120~125 | 122.5 | 14 | 1715.0 |
| 125~130 | 127.5 | 10 | 1275.0 |
| 130~135 | 132.5 | 6 | 795.0 |
| 135~140 | 137.5 | 4 | 550.0 |
均值 = 中位值 = 众值众值 < 中位值 < 均值(极端大值拉高均值)均值 < 中位值 < 众值(极端小值拉低均值)
定类变量:必用众值
定序变量:可用众值
定距/定比变量:
在分组资料中的极端组没有组限时,不能求出均值,只能用中位值;
变量中有个别的数值非常特殊(过高或过低),则均值的代表性就有疑问,用中位值较为适合。
离散趋势测量法是要求出一个值来表示个案与个案之间的差异情况。反映各变量值远离其中心值的程度,因此也称为离中趋势。从另一个侧面说明了集中趋势测度值的代表程度。
目的:衡量使用集中值估计和预测总体时的误差大小。
方法
定义:最大值与最小值之差,反映数据波动范围。
适用层次:定序、定距、定比变量(配合中位值使用)。
特点:
离散程度的最简单测度值。
受极端值影响大,仅反映两端差异。
未考虑数据的分布。
公式:
未分组数据:
组距分组数据:
①公式中的
②若各个实际数值与均值之相差的总和很大,就表示相关数值的离散度很大,即均值的代表性很小。
③公式以
未分组资料(根据原始资料)
未分组资料(根据频次分布)
根据分组资料(用组中心值替代变量值)
| 年龄 | 16 | 17 | 18 | 19 | 20 |
|---|---|---|---|---|---|
| 人数 | 1 | 8 | 14 | 5 | 2 |
| 变量层次 | 集中趋势 | 离散趋势 |
|---|---|---|
| 定类 | 众值( |
异众比率( |
| 定序 | 中位值( |
四分互差( |
| 定距/定比 | 均值( |
标准差( |