第四章随机变量的数字特征

有些时候我们关心的不是其全面情况，而是其概要。比如一亩地的亩产量与平均产量的偏离程度等。

4.1 随机变量的数学期望
4.1.2 随机变量函数的数学期望
4.2 随机变量的方差
4.1.3 协方差与相关系数
新页面

4.1 随机变量的数学期望

[TOC]

数学期望

举一个例子，机砖厂中的机器数据的例子

$x=x_i$	0	1	2	3	...	M	总和
出现次数	$m_0$	$m_1$	$m_2$	$m_3$	...	$m_M$	N
出现频率	$p^*_0$	$p^*_1$	$p^*_2$	$p^*_3$	...	$p^*_4$	1

其中 $N=\Sigma_{i=1}^{M}m_i, p^*_i = m_i /N $

于是便可以得到机床的统计平均数据

$$\overline{X} = \Sigma_{i=1}^{M} p^*_ix_i $$

但是我们知道频率是随机波动的，为了消除这种波动性，自然要用概率来替代频率。则得 $\Sigma_{i=1}^{M} p_ix_i $ 为随机变量的平均数，这种以概率为权的加权平均数就是所谓的数学期望

1. 离散型随机变量的数学期望

定义：4.1.1 设$X$是离散型随机变量，其概率分布为$$P(X=x_i) = p_i, i=1,2,3,...$$

若$\Sigma_{i=1}^{+\infty} p_ix_i$ 绝对收敛，则定义X的数学期望（均值）为$$E(X) = \Sigma_{i=1}^{\infty} p_ix_i$$

若$\Sigma_{i=1}^{+\infty} p_i|x_i|$不存在，则称$X$的数学期望不存在

例4.1.1 甲乙两人进行射击，X，Y分别代表他们以射中的环数，已知X,Y的概率分布为

$X=x_i$	7	8	9	10
P	0.1	0.3	0.3	0.3

$Y=y_i$	7	8	9	10
P	02	0.3	0.5	0.1

计算其数学期望

解 $E(X) = \Sigma_{1}^{4}x_ip_i = 0.1\times7 + 8\times0.3 + 9\times0.3 + 10\times0.3 = 8.8$

$E(Y) = \Sigma_{1}^{4}y_ip_i = 0.2\times7 + 8\times0.3 + 9\times0.5 + 10\times0.1 = 8.5$

2.连续型随机变量的数学期望

定义 4.1.2 4.1.1 设$X$是连续型随机变量，其密度函数$f(x)$,若

$$\int_{-\infty}^{+\infty}xf(x)dx$$绝对收敛，则定义X的数学期望为$E(X) = \int_{-\infty}^{+\infty}xf(x)dx$

例 4.1.4 已知随机变量X的分布函数为

$$ F(x) = \begin{cases} 0, \text{ } x \leq 0 \\ \frac{x}{4}, \text { } 0 \lt x \leq 4 \\ 1, x \gt 4 \end{cases} $$

求 $E(X)$。

解：F(x)的密度函数为

$$ f(x) = \begin{cases} 0, x \leq 0， x \gt 4, \\ \frac{1}{4}, 0 \lt x \leq 4 \end{cases} $$

所以$E(x) = \int_{-\infty}^{+\infty}xf(x)dx = \int_{0}^{4}\frac{1}{4}xdx = \frac{1}{4}\frac{x^2}{2}\big|^4_0 = 2$

例 4.1.6 设随机变量X的密度函数为

$$ f(x) = \begin{cases} ax+b, 0\leq x \leq 1, \\ 0, 其他 \end{cases} $$

且$E(x) = \frac{7}{12}$, 求a与b的值，并求分布函数。

解: 因为是连续型随机变量，

所以$E(X) = \int_{0}^{1}x(ax+b)dx = (\frac{1}{3}ax^3+\frac{1}{2}bx^2)\big|^1_0 = \frac{a}{3} + \frac{b}{2} = \frac{7}{12}$

$\int_{-\infty}^{+\infty}(ax+b)dx = \int_{0}^{1}(ax+b)dx = (\frac{1}{2}ax^2+bx)\big|^{1}_{0} = \frac{a}{2} + b = 1$

解得 a=1, b=1/2,

所以当$0 \leq x \leq 1 $ 时，

$F(x) = \int_{0}^{x}f(t)dt = \int_{0}^{x}(x+\frac{1}{2})dt = (\frac{x^2 + x}{2})\big|^x_0 = \frac{x^2 + x}{2} $

所以他的分布函数为

$$ F(x) = \begin{cases} 0, x \leq 0， \\ \big(\frac{x^2 + x}{2}), 0 \leq x \leq 1 \\ 1, x \gt 1 \end{cases} $$

4.1.2 随机变量函数的数学期望

设X是一个随机变量，$g(x)$是一个实函数，则$Y=g(x)$也是一个随机变量，理论上虽然也可以通过X的分布求出Y的分布，然后通过定义求出给$g(x)$的数学期望$E[g(x)]$,不不过比较复杂，下面给出定理，以简化计算。

定理4.1.1 设X是一个随机变量，$Y=g(x)$,且$E(Y)$存在则

(1). 若$X$是离散型随机变量，其概率分布为**

$$P{X=x_i} = p_i, i=1,2,3,....$$

则Y的数学期望为$$E(Y)=E[g(x)]=\Sigma_{i}^{+\infty}g(x_i)p_i$$

(2.)若$X$是连续型随机变量，其概率密度函数为$f(x)$，若$\int_{-\infty}^{+\infty}g(x)f(x)dx$ 绝对收敛，则Y的数学期望为

$$E(Y)=E[g(x)] = \int_{-\infty}^{+\infty}g(x)f(x)dx$$

例 4.1.6 设随机变量X的概率分布为如下

$x=x_i$	-2	0
P	0.3	0.1

求$E(2X+3)$, $E(X^2-1)$。

解： $E(2X+3) = 2 \times (-2) \times0.3 + 2\times 0 \times 0.1 = -1.2 $

$E(X^2-1)=4\times0.3 + 0^2 \times 0.1 = 1.2$

注：（1）定理4.1.1的重要性在于：求$E[g(X)]$时，不必知道$g(X)$的分布，只需要知道$X$的分布即可。这给求随机变量函数的期望带来极大的方便。

（2）定理4.1.1 可以推广到二维以上的情形中.

4.1.3 数学期望的性质

（1）设C是常数，则$E(C) = C$

证明：式中的常熟c可以看作时特殊的随机变量,$X \equiv C$，其概率分布为

$$P{X=c} = 1 $$ 从而$$E(c) = cP{X=c} = c $$

(2) 若$C$时常数，则$E(CX) = CE(X)$

证明：若X是离散型随机变量，其概率分布为$$P{X=x_i}=p_i, i=1,2,3,......$$

则$$E(CX) = \Sigma_{i}^{+\infty}(Cx_i)p_i = C\Sigma_{i}^{+\infty}x_ip_i = CE(x)$$

若X是连续型随机变量,其密度函数为$f(x)$, 则$$E(CX) = \int_{-\infty}^{+\infty}Cxf(x)dx= C\int_{-\infty}^{+\infty}xf(x)dx=CE(x)$$

(3)两个随机变量和数学期望等于这两个随机变量数学期望的和，即$$E(X+Y) = E(X) + E(Y)$$

(4) 推论有限个随机变量的和数学期望等于他们数学期望的和，即$$E(\Sigma_{i}^{n}X_i) = \Sigma_{i}^{n}E(X_i)$$

(5) 两个独立变量的乘积的数学期望等于两个独立变量的数学期望的乘积，即$$E(XY) = E(X)E(Y)$$

4.2 随机变量的方差

随机变量的数学期望描述了随机变量取值的平均情况，但这是不能满足实际需要的，还要研究随机变量与均值的离散程度，例如一批产品的长度有的长，有的短，即使能达到平均程度，也不能认为这批产品合格。

由此可见研究随机变量与其均值的离散程度是很有必要的。该怎么研究呢，容易看到$$E{|X-E(x)|}$$

由于上式带有绝对值不好研究，所以将上式改成 $$E{[X-E(X)]^2}$$来度量随机变量与其均值的离散程度。

定义4.2.1 设X是随机变量，如果$E[X-E(x)]^2$存在，则称它为X的方差，即 $$D(X)=E[X-E(X)]^2$$

注：

(1). 方差实际是随机变量$X$的函数$g(x)=[x-E(X)]^2$函数;

(2). 按定义，若$X$是离散型随机变量其分布为$P{X=x_i}=p_i, i=1,2,3,.....$，则$$D(X) = \Sigma_{i=1}^{+\infty}[X_i-E(X)]^2p_i $$

(3). 若$X$是连续型随机变量，其密度函数为$f(x)$,则其分布为$$D(X) = \int_{-\infty}^{+\infty}[x-E(X)]^2f(x)dx$$

4.2.2 方差的计算

定理 4.2.1 任意随机变量$X$的方差等于这个随机变量平方的期望减去这个随机变量期望的平方。

证明：

$$ \begin{aligned} D(X) =E[X-E(X)]^2 \\ =E(X^2 - 2XE(X) + [E(X)]^2) \\ =E(X^2) - 2E(XE(x)) + [E(E(X))]^2 \\ =E(X^2) - 2E(X)E(X) + [E(X)]^2 \\ =E(X^2) - [E(X)]^2 \end{aligned} $$

4.2.3 方差的性质

(1). 设常数C,则 $D(C)=0$

证：$D(C)=E[C-E[C]]^2 = 0 因为 E(C) = C$

(2) 设常数 $C$，$X$ 是随机变量,则 $D(CX) = C^2D(X)$

证：

$$ \begin{align} D(X) =E[CX-E(CX)]^2 \\ =E(C^2X^2 - 2CXE(CX) + [E(CX)]^2) \\ =E(C^2X^2) - 2E(CXE(CX)) + [E(E(CX))]^2 \\ =E(C^2X^2) - 2E(X)E(CX)E(C) + [E(CX)]^2 \\ =C^2E(X^2) -2C^2[E(X)]^2 + [CE(X)]^2 \\ =C^2[E(X^2) - [E(X)]^2] =C^2D(X) \end{align} $$

(3). 设$X，Y$是两个随机变量，则

$$D(X \pm Y) = D(X)+D(Y) \pm 2E{X-E(X)}E{Y-E(Y)}$$

特别的若$X与Y相互独立则 $D(X+Y) = D(X) + D(Y)$

证：

$$ \begin{align} D(X+Y) =E[X+Y - E(X+Y)]^2 \\ =E[(X+Y)^2 - 2(X+Y)E(X+Y) + [E(X+Y)]^2 \\ =D(X)+D(Y) + 2E{X-E(X)}E{Y-E(Y)} \end{align} $$

4.2.4 几个常见的随机变量的方差

例 4.2.1 设随机变量$X$具有0-1分布，其分布率为$P{X=0} = 1-p, P{X=1} = p$，求$E(X), D(X)$。

解：$E(X) = \Sigma_{0}^{1} x_ip_i = 0 \times (1-p) + 1 \times p = p $

$D(X) = E(X^2) - [E(X)]^2 = 0^2 \times (1-p) + 1^2 \times p - p^2 = p - p^2$

例 4.2.2 若$X \sim b(n,p)(二项分布)，求E(X), D(X)$

解因为 $X \sim b(n,p)$ 所以X表示n重泊努力实验的成功次数$P{X=k}=C^k_pp^k(1-p)^{n-k}$。

$$ X = \begin{cases} 0 \text{ } , 第i次失败 \\ 1 \text{ } ，第i次成功 \end{cases} i = 1,2,3,... \\ $$

$$ \begin{aligned} 则X=X_1+X_2+....+X_n \\ P{X=0} = 1-p0 \\ P{X=1} = p \\ E(X_i) = 0 \times (1-p) + p= p \\ E(X) = \Sigma_{i=1}^{n}E(Xi) = np \\ D(X) = np(1-p) \end{aligned} $$

例4.2.5 $X \sim P(\lambda)$，求E(X),D(X)。

解：泊松分布$P{X=k} = \frac{\lambda^k e^{-\lambda}}{k!}， k=0,1,2,3,.....$

$E(X) =\Sigma_{k=0}^{+\infty}k\frac{\lambda^k e^{-\lambda}}{k!} $

$ = \lambda e^{-\lambda} \Sigma_{k=0}^{+\infty}\frac{\lambda^{k-1}}{(k-1)!} = \lambda e^{-\lambda} e^{\lambda} = \lambda $

$E(X^2) = E[X(X-1)+X] = E[X(X-1)] + E(X) = \lambda^2 + \lambda $

$D(X) = E(X^2) - [E(X)]^2 = \lambda $

例4.2.6 设$X \sim U(a,b) $，求 $E(X),D(X)$。均匀分布

$X$ 的概率密度为

$$ f(x) = \begin{cases} \frac{1}{b-a}， \text{ } a \leq x \leq b \\ 0，其它 \end{cases} $$

$E(X) = \frac{1}{b-a}\int_{a}^{b}xdx = \frac{a+b}{2}$

$D(X) = E(X^2)-[E(X)]^2 = \frac{1}{b-a}\int_{a}^{b}x^2dx = \frac{(b-a)^2}{12}$

例4.2.7 设 $X \sim E(\lambda),试求 E(X),D(X)$。指数分布

解：指数分布的概率密度为

$$ f(x) = \begin{cases} \lambda e^{-\lambda x}， \text{ } x \gt 0 \\ 0，其它 \end{cases} $$

$E(X)= \int_{0}^{+\infty}x \lambda e^{ -\lambda x}dx = \frac{1}{\lambda}$

$E(X^2) = \frac{2}{\lambda^2}$

$D(X) = \frac{1}{\lambda^2}$

例4.2.8 设 $X \sim N(\mu, \sigma^2),试求 E(X),D(X)$。高斯分布

高斯分布： $f(x) = \frac{1}{\sqrt{2 \pi \sigma}}e^{\frac{(x-\mu)^2}{2\sigma^2}}$

$E(X) = \mu, E(X^2) = \sigma^2 + \mu^2$

$D(X) = \sigma^2$

定理 4.2.2 设随机变量$X$具有数学期望$E(X)=\mu ,方差D(X)= \sigma^2 $,则对于任意正数$\epsilon$, 不等式

$$P{|X- \mu | \geq \epsilon } \leq \frac{\sigma^2}{\epsilon^2} $$ 或

$$P{|X- \mu | \lt \epsilon } \geq 1- \frac{\sigma^2}{\epsilon^2} $$ 切比雪夫不等式

4.1.3 协方差与相关系数

对于多维变量，随机变量的数学期望与方差只反映了各自的平均值与偏离程度，并没有反应多个随机变量之间的关系，本节讨论的协方差是反应随机变量关系的一个数字特征。

协方差的定义设$(X,Y)$是二维随机变量若 $$E{[X-E(X)][Y-E(Y)]} $$存在，则称其为随机变量$(X,Y)$的协方差，记作$cov(X,Y)$。

若$(X,Y)$是离散型随机变量，其概率分布为$$P{X=X_i, Y=y_i}=p_{ij}, i,j=1,2,3...,$$

则 $$cov(X,Y) = \Sigma_{i,j}[x_i-E(X)](y_i-E(Y)]p_{i,j}$$

若$(X,Y)$是连续型随机变量，其概率密度函数为$f(x,y)$且绝对收敛

则其分布为$$cov(X,Y) =\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}[x-E(X)](y-E(Y)]f(x,y)dxy $$

$$ \begin{aligned} cov(X,Y) = E{X-E(X)} \\ =E{XY - XE(Y) - YE(X) + E(X)E(Y)} \\ =E(XY) - E(X)E(Y)-E(Y)E(X) + E(X)E(Y) \\ =E(XY)-E(X)E(Y) \end{aligned} $$

若$X与Y 独立$ 则 $cov(X,Y) = 0$。

4.3.2 协方差的性质

1. $cov(X,X) = D(X);$

2. $cov(X,Y) = cov(Y,X);$

3. $cov(aX,bY) = abcov(X,Y)$, 其中ab为任意常数

4. $cov(C,Y) = 0$,C为任意常数

5. $cov(X_1+X_2, Y) = cov(X_1,Y) + cov(X_2,Y)$

随机变量的协方差与方差的关系 $$D(X \pm Y) = D(X) + D(Y) \pm 2cov(X,Y) $$

例4.3.2 设随机变量$(X,Y)$的密度函数为

$$ f(x)=\begin{cases} 8xy, \text{ } 0 \leq x \leq y \leq 1 \\ 0, \text{ } 其他 \end{cases} $$

求$cov(X,Y), D(X+Y)$

解：$cov(X,Y) = E(XY)- E(X)E(Y)$

$f_X(x) = \int_{x}^{1}f_X(x,y)dy = 8x\int_{x}^{1}ydy = 4xy^2\big|^1_x = 4x(-x^2+1) $

$f_Y(y) = \int_{y}^{0}f_Y(x,y)dx = 8y\int_{0}^{y}xdx = 4yx^2\big|^y_0 = 4y^3$

$$ f_X(x)=\begin{cases} 4x(-x^2+1), \text{ } 0 \leq x \leq 1 \\ 0, \text{ } 其他 \end{cases} f_Y(x)=\begin{cases} 4y^3, \text{ } 0 \leq y \leq 1 \\ 0, \text{ } 其他 \end{cases} $$

$E(X) = \int_{-\infty}^{+\infty}xf_X(x)dx = 8/15$

$E(Y) = \int_{-\infty}^{+\infty}yf_Y(x)dx = 4/5$

$E(XY) = \int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}xyf(x,y)dxdy$

$= \int_{0}^{1} dx \int_{x}^{1}(xy \times 8xy)dy = 4/9 $

让我们用更通俗的语言来解释如何在给定的区域 D={(x,y)∣0≤x≤y≤1} 上进行二重积分，并确定其积分上下限。想象你有一个二维的平面，这个平面上有一个由直线 x=0，y=1 和 y=x 围成的三角形区域。这个三角形的一个顶点在原点 (0,0)，另一个在 (0,1)，还有一个在 (1,1)。现在，你要在这个三角形区域内对某个函数 f(x,y) 进行积分，也就是计算这个函数在整个区域内的平均值（或者说“总效果”，但这不是严格的数学定义，只是为了方便理解）。

有两种基本的方法来做这件事：

先沿 x 方向积分，再沿 y 方向积分：

对于三角形内的每一个 y 值（从 0 到 1），你可以想象有一条水平的线穿过了三角形。这条线上的每一个点都有一个 x 值，而这个 x 值的范围是从 0 到 y（因为三角形的左边是 x=0，而右边是 y=x 这条线）。所以，对于每一个固定的 y 值，你先对 x 从 0 到 y 进行积分，得到这个函数在这条水平线上的“效果”。然后，你再对 y 从 0 到 1 进行积分，把所有这些水平线上的“效果”加起来，就得到了整个三角形区域内的积分结果。

先沿 y 方向积分，再沿 x 方向积分：

这种方法是反过来做的。对于三角形内的每一个 x 值（从 0 到 1），你可以想象有一条垂直的线穿过了三角形。这条线上的每一个点都有一个 y 值，而这个 y 值的范围是从 x 到 1（因为三角形的下边界是 y=x，而上边界是 y=1）。

所以，对于每一个固定的 x 值，你先对 y 从 x 到 1 进行积分，得到这个函数在这条垂直线上的“效果”。然后，你再对 x 从 0 到 1 进行积分，把这些垂直线上的“效果”加起来，也得到了整个三角形区域内的积分结果。

$cov(X,Y) = E(XY) - E(X)(Y) = \frac{4}{9} - \frac{8}{15} \times \frac{4}{5} = \frac{4}{225}$

$E(X^2) = \int_{-\infty}^{+\infty}x^2f_X(x)dx = 1/3$

$E(Y^2) = \int_{-\infty}^{+\infty}y^2f_Y(x)dy = 2/3$

$D(X+Y) = D(X) + D(Y) + 2cov(X,Y)$

$ = E(X^2) - [E(X)]^2 + E(Y^2) - [E(Y)]^2 + \frac{4}{225} = 1/9$

4.3.3 相关系数的定义设$(X,Y)$是二维随机变量，$ D(X) \gt 0, D(Y) \gt 0 $, 称 $$ \rho = \frac{cov(X,Y)}{\sqrt{D(X)D(Y)}} $$为随机变量X与Y的相关系数，特别的当$\rho=0$是X与Y不相关。

4.3.4 相关系数的性质

1. $|\rho| \leq 1;$

2. 若X与Y相互独立，则$\rho=0;$

3. 若$D(X) >0, D(Y) > 0$，

则 $|\rho| =1$当且仅当存在常数$a,b(a 不等于 0)$，使$P{Y=aX+b}=1$,

而且当 a>0 时 $\rho=1$,a<0时 $\rho = -1$.

新页面

第四章 随机变量的数字特征