概率与信息论：期望、方差、标准差和协方差

1. 期望

函数 $f (x)$ 关于分布（概率） $P (x)$ 的期望或者期望值可表示为：

对于离散型随机变量：
$\mathbb{E}_{x \sim P}[f(x)]=\sum_{x}P(x)f(x)$
对于连续型随机变量：
$\mathbb{E}_{x \sim p}[f(x)]=\int p(x)f(x)dx$
期望可以理解为受概率分布影响的平均值，若取得一个值的概率越大，那么期望就越接近这个值。

期望是线性的：
$\mathbb{E}_{x}[\alpha f(x)+\beta g(x)]=\alpha \mathbb{E}_{x}[f(x)]+\beta \mathbb{E}_{x}[g(x)]$

2. 方差

方差可表示为：
$Var(f(x))=\mathbb{E}[(f(x)-\mathbb{E}[f(x)])^2]$
从公式上看来，方差就是 $(f(x)-\mathbb{E}[f(x)])^2$ 的期望，而 $f(x)-\mathbb{E}[f(x)]$ 是函数值与其期望的差值，如果函数 $f (x)$ 大于期望，则为正数；若小于就为负数，那么对其平方，代表我们不考虑函数值是否大于期望值，而只关心它到期望的距离，也即偏离期望的程度。

所以，方差衡量的是当我们对 $x$ 依据它的概率分布进行采样时，随机变量 $x$ 的函数值会呈现多大的差异。如果方差较大，则会取得的值会有更大的几率偏离期望较大。

3. 标准差

标准差很简单，就是方差的平方根。

4. 协方差

协方差在某种意义上给出了两个变量线性相关性的强度以及这些变量的尺度，它表示为：

$Cov(f(x),g(y))=\mathbb{E}[(f(x)-\mathbb{E}[f(x)])(g(y)-\mathbb{E}[g(y)])]$

从公式上来看，协方差是 $f(x)-\mathbb{E}[f(x)]$ 与 $g(y)-\mathbb{E}[g(y)]$ 的乘积的期望，与上面类似的。

协方差的绝对值如果很大，则意味着变量值变化很大，并且它们同时距离各自的均值很远。如果协方差为正，它们都倾向于同时取得较大值；若为负，那么一个变量取得较大值时另一个会取得较小值。

如果两个变量相互独立，它们的协方差就会为零，如果协方差不为零，那么它们必定相关。但是如果两个变量相关，它们的协方差是可能为零的，这是因为独立性的条件是比较强的，它还排除了非线性的关系。

举个例子：假设 $x$ 在区间 $[- 1, 1]$ 的均匀分布中采样， $s$ 有 $\frac{1}{2}$ 的概率为 $1$ ， $\frac{1}{2}$ 的概率为 $- 1$ ，做一个映射 $y = s x$ 显然 $x$ 和 $y$ 不是相互独立的，但是它们的协方差却为零。可以跟着我试着计算一下：

首先，对于 $[a, b]$ 的均匀分布，其期望为 $\frac{a+b}{2}$ 所以 $\mathbb{E}[f(x)]=\frac{-1+1}{2}=0$ ； $\mathbb{E}[g(y)]=\mathbb{E}[sx]=\mathbb{E}[\frac{1}{2}x-\frac{1}{2}x]$ 也为 $0$ ；
那么， $Cov(f(x),g(y))=\mathbb{E}[(f(x)g(y)]=\mathbb{E}[\frac{1}{2}x^2-\frac{1}{2}x^2]$ ，显然，它们的协方差是为零的。

5. 协方差矩阵

随机向量 $\in \mathbb{R}^n$ 的协方差矩阵是一个 $\times n$ 的矩阵，满足：

$Cov(x)_{i,j}=Cov(x_i,x_j)$

协方差矩阵的对角元是方差：

$Cov(x_i,x_i)=Var(x_i)$