散点图虽形象但不精确,皮尔逊相关系数是量化变量相关强度的核心指标,其建构逻辑如下:
以
定义协方差核心项:
在右上区域中任意点的
同理,左下区域:
左上和右下区域:
如果
如果
如果
可见
| 序号 | 数学 x | 物理 y | x-x̄ | (x-x̄)² | y-ȳ | (y-ȳ)² | (x-x̄)(y-ȳ) |
|---|---|---|---|---|---|---|---|
| 1 | 61 | 58 | -19.30 | 372.49 | -20.60 | 424.36 | 397.58 |
| 2 | 70 | 66 | -10.30 | 106.09 | -12.60 | 158.76 | 129.78 |
| 3 | 75 | 81 | -5.30 | 28.09 | 2.40 | 5.76 | -12.72 |
| 4 | 77 | 68 | -3.30 | 10.89 | -10.60 | 112.36 | 34.98 |
| 5 | 80 | 85 | -0.30 | 0.09 | 6.40 | 40.96 | -1.92 |
| 6 | 82 | 79 | 1.70 | 2.89 | 0.40 | 0.16 | 0.68 |
| 7 | 83 | 83 | 2.70 | 7.29 | 4.40 | 19.36 | 11.88 |
| 8 | 89 | 85 | 8.70 | 75.69 | 6.40 | 40.96 | 55.68 |
| 9 | 92 | 87 | 11.70 | 136.89 | 8.40 | 70.56 | 98.28 |
| 10 | 94 | 94 | 13.70 | 187.69 | 15.40 | 237.16 | 210.98 |
均值
核心求和项
| 编号 | 月收入 |
住房面积 |
|||||
|---|---|---|---|---|---|---|---|
| 1 | 1.2 | 30 | 1.2 | 30 | 1.44 | 900 | 36.0 |
| 2 | 2.2 | 36 | 2.2 | 36 | 4.84 | 1296 | 79.2 |
| 3 | 1.5 | 46 | 1.5 | 46 | 2.25 | 2116 | 69.0 |
| 4 | 4.0 | 52 | 4.0 | 52 | 16.00 | 2704 | 208.0 |
| 5 | 2.6 | 54 | 2.6 | 54 | 6.76 | 2916 | 140.4 |
| 6 | 4.2 | 60 | 4.2 | 60 | 17.64 | 3600 | 252.0 |
| 7 | 3.4 | 67 | 3.4 | 67 | 11.56 | 4489 | 227.8 |
| 8 | 4.6 | 75 | 4.6 | 75 | 21.16 | 5625 | 345.0 |
| 9 | 5.2 | 86 | 5.2 | 86 | 27.04 | 7396 | 447.2 |
| 10 | 6.5 | 90 | 6.5 | 90 | 42.25 | 8100 | 585.0 |
| 11 | 5.8 | 95 | 5.8 | 95 | 33.64 | 9025 | 551.0 |
代入简化公式计算相关系数
相关分析的局限性:
仅能说明变量是否相关、相关强度如何,无法揭示变量间的因果关系及变化规律。
变量关系的两种类型:
确定性关系:一一对应的函数关系(如
非确定性关系:一种数量上的依存关系。变量相关但非一一对应(如身高与体重、收入与消费),需通过统计方法拟合规律。
回归分析的核心逻辑:
对变量的一组观察值拟合一个函数,将非确定性关系转化为“函数关系+误差”的形式。若能明确误差大小,即可用确定性方法研究非确定性变量关系——这是回归分析的基本出发点。
拟合函数的选择:根据变量间关系特征确定(如线性关系拟合直线,非线性关系拟合曲线)。

问题是:
根据
答案:
采用最小二乘法,使拟合直线离所有观测值最近。
即:使拟合值与实际观察值的误差平方和最小,即:

最终回归方程为:
使用最小二乘法可以给两个变量 x 与 y 的任何一组数据拟合一条直线,而不论 x 与 y 之间是否存在关系。
右图中,圆点数据和三角点数据拟合出的是同一条直线。
可以看出,对于圆点数据,用回归直线进行拟合时产生的误差较小。因此进行回归分析不能只建立回归方程,还要明确回归方程的拟合优度。

当其他条件未知时,一般用变量
若利用回归方程来猜测
与利用
因此,消减误差比例为
此即判定系数
可见,
其值说明回归方程能够减少猜测误差的百分比,或是自变量能够解释因变量变化的百分比。
解读:
(如
目标:条件期望函数 (CEF)
在总体数据中,条件期望函数 (CEF)
模型选择:线性近似
由于 CEF 可能极其复杂,我们通常会寻求其最优线性近似——线性条件期望函数(即总体回归函数 PRF:
方法:OLS
线性回归的核心操作,就是通过 普通最小二乘法(OLS) 估计总体回归函数中的未知参数:截距
样本与总体的差距:抽样误差的影响
由于抽样误差,从不同的样本中求得的样本回归函数(即估计量)各不相同。我们希望这个样本回归函数能最好地代表总体回归函数。
评价标准:优良性质
因此,我们对估计量提出要求:无偏性(平均而言,估计值等于总体真值)、有效性(在无偏估计中方差最小)、和一致性(随着样本量增大,估计值趋近于总体真值)。
经典假定 (CLRM)
只有在总体数据符合经典线性回归假定(包括线性关系、零条件均值假定
(
随机误差项的四个核心假定(简称“高斯-马尔可夫假定”):
独立性假定:
零均值假定:
同方差假定:
正态性假定:
以上四点可以集中表示为:
高斯-马尔可夫定理——若满足上述线性性、零条件均值、同方差性、无自相关和无多重共线性等假定,OLS估计量就是最优线性无偏估计量(BLUE),即“在所有线性无偏估计量中,OLS估计量的方差最小”。
目标是追寻真实CEF → 用线性PRF近似 → 用OLS估计得到SRF → OLS优良性依赖CLRM假定 → 但我们无法直接观测总体,只能通过样本推断。
由此产生三个核心疑问:① 我们估计的SRF(
这三个疑问,正是线性回归检验需要解决的核心问题——检验的本质是“通过样本信息,对总体的真实情况(模型拟合度、参数显著性、假定有效性)进行统计推断”。
我们接下来主要关心,第二个问题:估计出的参数(
问题核心:样本拟合的回归直线是否能推论到总体?需判断总体中
逻辑推导:
若总体中
抽样误差可能导致样本数据呈现虚假线性关系,拟合出回归直线,但这种直线的偏离程度通常不会太大;
若样本回归直线的偏离程度足够大(超过抽样误差的合理范围),则拒绝“总体无线性关系”的原假设,认为回归方程具有推论价值。


若样本回归直线的偏离程度足够大(超过抽样误差的合理范围),则拒绝“总体无线性关系”的原假设,认为回归方程具有推论价值。
假设在一个



剩余离差平方和 RSS:
反映了观测值与回归直线的离散程度。
回归离差平方和 RSSR:
反映回归直线上的点与平均值间的离散程度。
总离差平方和 TSS:
反映了观测值围绕的离散情况。


回归平方和RSSR越大,剩余平方和RSS就越小。因此,可以用RSSR与RSS的比值来检验总体中两个变量是否存在线性关系。
原假设与备择假设:
检验统计量F:
临界值与拒绝域:
给定显著性水平
决策规则:
若
题目:基于11个家庭月收入(
回归系数检验(t检验)的核心是判断样本回归系数
题目:基于11个家庭月收入与住房面积的回归方程
方法:将已知的自变量取值
本质:
示例:基于家庭月收入与住房面积回归方程
含义:月收入为5千元的家庭,平均住房面积的点估计值为77.45平方米。
当
在置信度一定时,当

检验原因:
样本相关系数
检验目的:
确定样本相关系数
检验思路:
假设总体无相关(
拒绝域与决策:
给定
题目:检验10名学生数学与物理成绩的相关系数
已知条件:
计算t统计量:
确定临界值:
查t分布表得
决策与结论:
因
等价性:两种检验本质一致,若相关系数检验显著(
公式推导关系:
可见,同一组数据的F值与t值相互对应,检验结论完全一致。
应用场景差异:
相关系数检验:侧重判断变量间相关关系是否显著;
回归方程检验:侧重判断线性回归模型整体是否具有推论价值。