数学

发布日期: 2022-11-13

更新日期: 2025-03-10

文章字数: 789

方差

在概率论和统计学中，方差（英语：variance）描述的是一个随机变量的离散程度

即一组数字与其平均值之间的距离的度量，是随机变量与其总体均值或样本均值的离差的平方的期望值。

方差是标准差的平方、分布的二阶矩，以及随机变量与其自身的协方差。

其常用的符号表示有 $\sigma^2, s^2 、 \operatorname{Var}(X), V(X)$ 以及 $\mathbb{V}(X)$ 。

一、定义

设 $X$ 为服从分布 $F$ 的随机变量，如果 $\mathrm{E}[X]$ 是随机变量 $X$ 的期望值

则随机变量 $X$ 或分布 $F$ 的方差为「 $X$ 的离差平方的期望值」，即

$\operatorname{Var}(X)=\mathrm{E}\left[(X-\mu)^2\right]$

方差的表达式可展开如下

$\begin{aligned} \operatorname{Var}(X) &=\mathrm{E}\left[(X-\mathrm{E}[X])^2\right] \\ &=\mathrm{E}\left[X^2-2 X \mathrm{E}[X]+\mathrm{E}[X]^2\right] \\ &=\mathrm{E}\left[X^2\right]-2 \mathrm{E}[X]^2+\mathrm{E}[X]^2 \\ &=\mathrm{E}\left[X^2\right]-\mathrm{E}[X]^2 \end{aligned}$

也就是说，$X$ 的方差等于「 $X$ 平方的期望减去 $X$ 期望的平方」。

该等式不应该用于浮点运算，因为如果等式的两个成分大小相似，将会造成灾难性抵消。

二、性质

方差不会是负的，因为平方运算结果为非负数：

$\operatorname{Var}(X) \geq 0$

一个常数随机变量的方差为零。反之，若有限个数组成的资料集方差为零，则其内所有数皆相等。

对于一般随机变量，也有类似结论，即方差为零推出该变量几乎总是取同一个值：

$P(X=a)=1 \Leftrightarrow \operatorname{Var}(X)=0$

方差不变于定位参数的变动。

也就是说，如果一个常数被加至一个数列中的所有变量值，此数列的方差不会改变：

$\operatorname{Var}(X+a)=\operatorname{Var}(X)$

如果所有数值被放大一个常数倍，方差会放大此常数的平方倍：

$\operatorname{Var}(a X)=a^2 \operatorname{Var}(X)$

两个随机变量合的方差为：

$\begin{aligned} &\operatorname{Var}(a X+b Y)=a^2 \operatorname{Var}(X)+b^2 \operatorname{Var}(Y)+2 a b \operatorname{Cov}(X, Y), \\ &\operatorname{Var}(X-Y)=\operatorname{Var}(X)+\operatorname{Var}(Y)-2 \operatorname{Cov}(X, Y) \end{aligned}$

此处的 $\mathrm{Cov}(X,Y)$ 代表协方差。

对于 $N$ 个随机变量 $\left\{X_1, \ldots, X_N\right\}$ 的总和:

$\operatorname{Var}\left(\sum_{i=1}^N X_i\right)=\sum_{i, j=1}^N \operatorname{Cov}\left(X_i, X_j\right)=\sum_{i=1}^N \operatorname{Var}\left(X_i\right)+\sum_{i \neq j} \operatorname{Cov}\left(X_i, X_j\right)$

三、总体方差和样本方差

1. 总体方差

一般而言，一个有限的容量为 $N$ 、元素的值为 $x_i$ 的总体的总体方差为:

$\begin{aligned} \sigma^2 &=\frac{1}{N} \sum_{i=1}^N\left(x_i-\mu\right)^2 \\[8pt]&=\frac{1}{N} \sum_{i=1}^N\left(x_i^2-2 \mu x_i+\mu^2\right) \\[8pt]&=\left(\frac{1}{N} \sum_{i=1}^N x_i^2\right)-2 \mu\left(\frac{1}{N} \sum_{i=1}^N x_i\right)+\mu^2 \\[8pt]&=\left(\frac{1}{N} \sum_{i=1}^N x_i^2\right)-\mu^2 \end{aligned}$

其中总体均值为：

$\mu=\frac{1}{N} \sum_{i=1}^N x_i$

总体方差也可用下式计算:

$\sigma^2=\frac{1}{N^2} \sum_{i<j}\left(x_i-x_j\right)^2=\frac{1}{2 N^2} \sum_{i=1}^{N}\sum_{j=1}^N\left(x_i-x_j\right)^2$

该式成立，是因为:
$\begin{aligned} & \frac{1}{2 N^2} \sum_{i, j=1}^N\left(x_i-x_j\right)^2 \\[8pt]=& \frac{1}{2 N^2} \sum_{i, j=1}^N\left(x_i^2-2 x_i x_j+x_j^2\right) \\[8pt]=& \frac{1}{2 N} \sum_{j=1}^N\left(\frac{1}{N} \sum_{i=1}^N x_i^2\right)-\left(\frac{1}{N} \sum_{i=1}^N x_i\right)\left(\frac{1}{N} \sum_{j=1}^N x_j\right)+\frac{1}{2 N} \sum_{i=1}^N\left(\frac{1}{N} \sum_{j=1}^N x_j^2\right) \\[8pt]=& \frac{1}{2}\left(\sigma^2+\mu^2\right)-\mu^2+\frac{1}{2}\left(\sigma^2+\mu^2\right) \\[8pt]=& \sigma^2 \end{aligned}$

总体方差与生成该总体的概率分布的方差相匹配。因此, “总体”的概念可推广到具有无限总体的连续随机变量。

2. 样本方差

有偏样本方差

在许多实际情况下，总体的真实方差无法事先知道，必须以某种方式计算出来。在面对非常大的总体时，不可能计算总体中的每一个元素，因此必须从总体中抽取样本进行计算。样本方差还可以应用于用连续分布的样本来估计该分布的方差。

考虑从总体中有放回抽取 $n$ 个数值 $Y_1,\cdots,Y_n$ ，其中 $n < N$ ，并用该样本来估计总体的方差。直接使用样本数据的方差，得到的是离差平方的均值：

$\sigma_Y^2=\frac{1}{n} \sum_{i=1}^n\left(Y_i-\overline{Y}\right)^2=\left(\frac{1}{n} \sum_{i=1}^n Y_i^2\right)-\overline{Y}^2=\frac{1}{n^2} \sum_{i, j \ :\ i<j}\left(Y_i-Y_j\right)^2$

此处 $\overline{Y}$ 表示样本均值

$\overline{Y} = \frac{1}{n}\sum_{i=1}^nY_i$

由于 $Y_i$ 是随机选取的，$\overline{Y}$ 和 $\sigma^2_Y$ 都是随机变量。它们的期望值可以从用总体中抽取的所有可能的容量为 $n$ 的 $Y_i$ 样本集合来估计。对于 $\sigma^2_Y$ 即为

$\begin{aligned} \mathrm{E}\left[\sigma_Y^2\right] & =\mathrm{E}\left[\frac{1}{n} \sum_{i=1}^n\left(Y_i-\frac{1}{n} \sum_{j=1}^n Y_j\right)^2\right] \\ & =\frac{1}{n} \sum_{i=1}^n \mathrm{E}\left[Y_i^2-\frac{2}{n} Y_i \sum_{j=1}^n Y_j+\frac{1}{n^2} \sum_{j=1}^n Y_j \sum_{k=1}^n Y_k\right] \\ & =\frac{1}{n} \sum_{i=1}^n\left(\frac{n-2}{n} \mathrm{E}\left[Y_i^2\right]-\frac{2}{n} \sum_{j \neq i} \mathrm{E}\left[Y_i Y_j\right]+\frac{1}{n^2} \sum_{j=1}^n \sum_{k \neq j}^n \mathrm{E}\left[Y_j Y_k\right]+\frac{1}{n^2} \sum_{j=1}^n \mathrm{E}\left[Y_j^2\right]\right) \\ & =\frac{1}{n} \sum_{i=1}^n\left[\frac{n-2}{n}\left(\sigma^2+\mu^2\right)-\frac{2}{n}(n-1) \mu^2+\frac{1}{n^2} n(n-1) \mu^2+\frac{1}{n}\left(\sigma^2+\mu^2\right)\right] \\ & =\frac{n-1}{n} \sigma^2 \end{aligned}$

因此 $\sigma^2_Y$ 给出的是总体方差的有偏估计量，偏差为 $\frac{n-1}{n}$ ，$\sigma^2_Y$ 称为有偏样本方差。

其中，对 $n-1$ 的使用称为贝塞尔校正，它也用于样本协方差和样本标准差（方差的平方根）。平方根是一个凹函数，因此会引入负偏差（根据简森不等式），具体取决于分布，因此校正的样本标准差（使用贝塞尔校正）是有偏的。标准差的无偏估计是一个技术上复杂的问题，不过对于正态分布，使用 $n - 1.5$ 能得到几乎无偏的估计值。

无偏样本方差

将偏差纠正后，可得到无偏样本方差，记为 $s^2$ ，有

$s^2=\frac{n}{n-1} \sigma_Y^2=\frac{n}{n-1}\left[\frac{1}{n} \sum_{i=1}^n\left(Y_i-\overline{Y}\right)^2\right]=\frac{1}{n-1} \sum_{i=1}^n\left(Y_i-\overline{Y}\right)^2$

当语境明确时，两个估计量都可以简称为“样本方差”。同样的证明也适用于取自连续概率分布的样本。

参考文献：

[1] 方差 - 维基百科，自由的百科全书

q779

https://q779.cn/2022/11/13/fang-chai/