协方差是衡量两个变量之间线性关系强度和方向的一个指标。它的计算公式如下:
\[ \text{Cov}(X,Y) = E[(X - E[X])(Y - E[Y])] \]
或者等价地:
\[ \text{Cov}(X,Y) = E(XY) - E(X)E(Y) \]
其中:
\( X \) 和 \( Y \) 是两个随机变量。
\( E[X] \) 和 \( E[Y] \) 分别是 \( X \) 和 \( Y \) 的期望值(均值)。
\( E(XY) \) 是 \( X \) 和 \( Y \) 乘积的期望值。
解释
期望值:
期望值 \( E[X] \) 是随机变量 \( X \) 取值的加权平均,权重为各自取值的概率。
协方差:
协方差 \( \text{Cov}(X,Y) \) 表示当 \( X \) 和 \( Y \) 同时偏离它们的期望值时,这种偏离的联合程度。
正负号的意义
如果协方差为正,表示 \( X \) 和 \( Y \) 的变化趋势一致,即一个变量大于其期望值时,另一个变量也倾向于大于其期望值。
如果协方差为负,表示 \( X \) 和 \( Y \) 的变化趋势相反,即一个变量大于其期望值时,另一个变量倾向于小于其期望值。
如果协方差接近零,表示 \( X \) 和 \( Y \) 之间没有线性关系。
相关系数
为了更直观地理解变量之间的关系强度和方向,通常将协方差标准化,得到相关系数 \( \rho_{XY} \):
\[ \rho_{XY} = \frac{\text{Cov}(X,Y)}{\sqrt{D(X)D(Y)}} \]
其中 \( D(X) \) 和 \( D(Y) \) 分别是 \( X \) 和 \( Y \) 的方差。相关系数的取值范围是 \([-1, 1]\),其中:
\( \rho_{XY} = 1 \) 表示 \( X \) 和 \( Y \) 之间存在完全正相关。
\( \rho_{XY} = -1 \) 表示 \( X \) 和 \( Y \) 之间存在完全负相关。
\( \rho_{XY} = 0 \) 表示 \( X \) 和 \( Y \) 之间不存在线性关系。
通过这些公式和概念,可以更好地理解和分析两个变量之间的线性关系。