嘘~ 正在从服务器偷取页面 . . .

方差


方差

在概率论和统计学中,方差(英语:variance)描述的是一个随机变量的离散程度

即一组数字与其平均值之间的距离的度量,是随机变量与其总体均值或样本均值的离差的平方的期望值。

方差是标准差的平方、分布的二阶矩,以及随机变量与其自身的协方差。

其常用的符号表示有 $\sigma^2, s^2 、 \operatorname{Var}(X), V(X)$ 以及 $\mathbb{V}(X)$ 。

一、定义

设 $X$ 为服从分布 $F$ 的随机变量,如果 $\mathrm{E}[X]$ 是随机变量 $X$ 的期望值

则随机变量 $X$ 或分布 $F$ 的方差为「 $X$ 的离差平方的期望值」,即

方差的表达式可展开如下

也就是说,$X$ 的方差等于「 $X$ 平方的期望减去 $X$ 期望的平方」。

该等式不应该用于浮点运算,因为如果等式的两个成分大小相似,将会造成灾难性抵消

二、性质

方差不会是负的,因为平方运算结果为非负数:

一个常数随机变量的方差为零。反之,若有限个数组成的资料集方差为零,则其内所有数皆相等。

对于一般随机变量,也有类似结论,即方差为零推出该变量几乎总是取同一个值:

方差不变于定位参数的变动。

也就是说,如果一个常数被加至一个数列中的所有变量值,此数列的方差不会改变:

如果所有数值被放大一个常数倍,方差会放大此常数的平方倍:

两个随机变量合的方差为:

此处的 $\mathrm{Cov}(X,Y)$ 代表协方差。

对于 $N$ 个随机变量 $\left\{X_1, \ldots, X_N\right\}$ 的总和:

三、总体方差和样本方差

1. 总体方差

一般而言,一个有限的容量为 $N$ 、元素的值为 $x_i$ 的总体的总体方差为:

其中总体均值为:

总体方差也可用下式计算:

该式成立,是因为:

总体方差与生成该总体的概率分布的方差相匹配。因此, “总体”的概念可推广到具有无限总体的连续随机变量。

2. 样本方差

有偏样本方差

在许多实际情况下,总体的真实方差无法事先知道,必须以某种方式计算出来。在面对非常大的总体时,不可能计算总体中的每一个元素,因此必须从总体中抽取样本进行计算。样本方差还可以应用于用连续分布的样本来估计该分布的方差。

考虑从总体中有放回抽取 $n$ 个数值 $Y_1,\cdots,Y_n$ ,其中 $n < N$ ,并用该样本来估计总体的方差。直接使用样本数据的方差,得到的是离差平方的均值:

此处 $\overline{Y}$ 表示样本均值

由于 $Y_i$ 是随机选取的,$\overline{Y}$ 和 $\sigma^2_Y$ 都是随机变量。它们的期望值可以从用总体中抽取的所有可能的容量为 $n$ 的 $Y_i$ 样本集合来估计。对于 $\sigma^2_Y$ 即为

因此 $\sigma^2_Y$ 给出的是总体方差的有偏估计量,偏差为 $\frac{n-1}{n}$ ,$\sigma^2_Y$ 称为有偏样本方差。

其中,对 $n-1$ 的使用称为贝塞尔校正,它也用于样本协方差和样本标准差(方差的平方根)。平方根是一个凹函数,因此会引入负偏差(根据简森不等式),具体取决于分布,因此校正的样本标准差(使用贝塞尔校正)是有偏的。标准差的无偏估计是一个技术上复杂的问题,不过对于正态分布,使用 $n - 1.5$ 能得到几乎无偏的估计值。

无偏样本方差

将偏差纠正后,可得到无偏样本方差,记为 $s^2$ ,有

当语境明确时,两个估计量都可以简称为“样本方差”。同样的证明也适用于取自连续概率分布的样本。


参考文献

[1] 方差 - 维基百科,自由的百科全书


文章作者: q779
版权声明: 本博客所有文章除特别声明外,均采用 CC BY-NC-ND 4.0 许可协议。转载请注明来源 q779 !
评论
  目录