4.1.3 协方差与相关系数

对于多维变量，随机变量的数学期望与方差只反映了各自的平均值与偏离程度，并没有反应多个随机变量之间的关系，本节讨论的协方差是反应随机变量关系的一个数字特征。 
 协方差的定义 设$(X,Y)$是二维随机变量若 $$E{[X-E(X)][Y-E(Y)]} $$存在，则称其为随机变量$(X,Y)$的协方差，记作$cov(X,Y)$。 
 若$(X,Y)$是离散型随机变量，其概率分布为$$P{X=X_i, Y=y_i}=p_{ij}, i,j=1,2,3...,$$ 
 则 $$cov(X,Y) = \Sigma_{i,j}[x_i-E(X)](y_i-E(Y)]p_{i,j}$$ 
 若$(X,Y)$是连续型随机变量，其概率密度函数为$f(x,y)$且绝对收敛 
 则其分布为$$cov(X,Y) =\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}[x-E(X)](y-E(Y)]f(x,y)dxy $$ 
 
 $$
\begin{aligned}
cov(X,Y) = E{ X-E(X) } \\
=E{XY - XE(Y) - YE(X) + E(X)E(Y)} \\
=E(XY) - E(X)E(Y)-E(Y)E(X) + E(X)E(Y) \\
=E(XY)-E(X)E(Y)
\end{aligned}
$$ 
 若$X与Y 独立$ 则 $cov(X,Y) = 0$。 
 4.3.2 协方差的性质 
 1. $cov(X,X) = D(X);$ 
 2. $cov(X,Y) = cov(Y,X);$ 
 3. $cov(aX,bY) = abcov(X,Y)$, 其中ab为任意常数 
 4. $cov(C,Y) = 0$,C为任意常数 
 5. $cov(X_1+X_2, Y) = cov(X_1,Y) + cov(X_2,Y)$ 
 随机变量的协方差与方差的关系 $$D(X \pm Y) = D(X) + D(Y) \pm 2cov(X,Y) $$ 
 例4.3.2 设随机变量$(X,Y)$的密度函数为 
 $$
f(x)=\begin{cases}
8xy, \text{ } 0 \leq x \leq y \leq 1 \\
0, \text{ } 其他
\end{cases}
$$ 
 求$cov(X,Y), D(X+Y)$ 
 解：$cov(X,Y) = E(XY)- E(X)E(Y)$ 
 
 $f_X(x) = \int_{x}^{1}f_X(x,y)dy = 8x\int_{x}^{1}ydy = 4xy^2\big|^1_x = 4x(-x^2+1) $ 
 
 $f_Y(y) = \int_{y}^{0}f_Y(x,y)dx = 8y\int_{0}^{y}xdx = 4yx^2\big|^y_0 = 4y^3$ 
 
 $$
f_X(x)=\begin{cases}
4x(-x^2+1), \text{ } 0 \leq x \leq 1 \\
0, \text{ } 其他
\end{cases}
f_Y(x)=\begin{cases}
4y^3, \text{ } 0 \leq y \leq 1 \\
0, \text{ } 其他
\end{cases}
$$ 
 $E(X) = \int_{-\infty}^{+\infty}xf_X(x)dx = 8/15$ 
 
 $E(Y) = \int_{-\infty}^{+\infty}yf_Y(x)dx = 4/5$ 
 $E(XY) = \int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}xyf(x,y)dxdy$ 
 
 $= \int_{0}^{1} dx \int_{x}^{1}(xy \times 8xy)dy = 4/9 $ 
 让我们用更通俗的语言来解释如何在给定的区域 D={(x,y)∣0≤x≤y≤1} 上进行二重积分，并确定其积分上下限。
想象你有一个二维的平面，这个平面上有一个由直线 x=0，y=1 和 y=x 围成的三角形区域。这个三角形的一个顶点在原点 (0,0)，另一个在 (0,1)，还有一个在 (1,1)。
现在，你要在这个三角形区域内对某个函数 f(x,y) 进行积分，也就是计算这个函数在整个区域内的平均值（或者说“总效果”，但这不是严格的数学定义，只是为了方便理解）。 
 有两种基本的方法来做这件事： 
 先沿 x 方向积分，再沿 y 方向积分： 
 对于三角形内的每一个 y 值（从 0 到 1），你可以想象有一条水平的线穿过了三角形。这条线上的每一个点都有一个 x 值，而这个 x 值的范围是从 0 到 y（因为三角形的左边是 x=0，而右边是 y=x 这条线）。 
 所以，对于每一个固定的 y 值，你先对 x 从 0 到 y 进行积分，得到这个函数在这条水平线上的“效果”。
然后，你再对 y 从 0 到 1 进行积分，把所有这些水平线上的“效果”加起来，就得到了整个三角形区域内的积分结果。 
 先沿 y 方向积分，再沿 x 方向积分： 
 这种方法是反过来做的。对于三角形内的每一个 x 值（从 0 到 1），你可以想象有一条垂直的线穿过了三角形。这条线上的每一个点都有一个 y 值，而这个 y 值的范围是从 x 到 1（因为三角形的下边界是 y=x，而上边界是 y=1）。 
 所以，对于每一个固定的 x 值，你先对 y 从 x 到 1 进行积分，得到这个函数在这条垂直线上的“效果”。
然后，你再对 x 从 0 到 1 进行积分，把这些垂直线上的“效果”加起来，也得到了整个三角形区域内的积分结果。 
 $cov(X,Y) = E(XY) - E(X)(Y) = \frac{4}{9} - \frac{8}{15} \times \frac{4}{5} = \frac{4}{225}$ 
 
 $E(X^2) = \int_{-\infty}^{+\infty}x^2f_X(x)dx = 1/3$ 
 
 $E(Y^2) = \int_{-\infty}^{+\infty}y^2f_Y(x)dy = 2/3$ 
 
 $D(X+Y) = D(X) + D(Y) + 2cov(X,Y)$ 
 $ = E(X^2) - [E(X)]^2 + E(Y^2) - [E(Y)]^2 + \frac{4}{225} = 1/9$ 
 4.3.3 相关系数的定义 设$(X,Y)$是二维随机变量，$ D(X) \gt 0, D(Y) \gt 0 $, 称 $$ \rho = \frac{cov(X,Y)}{\sqrt{D(X)D(Y)}} $$为随机变量X与Y的相关系数，特别的当$\rho=0$是X与Y不相关。 
 4.3.4 相关系数的性质 
 1. $|\rho| \leq 1;$ 
 2. 若X与Y相互独立，则$\rho=0;$ 
 3. 若$D(X) >0, D(Y) > 0$， 
 则 $|\rho| =1$当且仅当存在常数$a,b(a 不等于 0)$，使$P{Y=aX+b}=1$, 
 而且当 a>0 时 $\rho=1$,a<0时 $\rho = -1$.