正态分布
本文仅涉及高中数学部分,但是掺杂了一些拓展的。
正态分布的概率密度函数(均值为 $\mu$ 方差为 $\sigma^2$ )是高斯函数的一个实例。
称函数 $f(x)$ 的图像为正态密度曲线,简称正态曲线。
若随机变量 $X$ 服从这个分布,则称 $X$ 服从正态分布,记作 $X \sim N(\mu,\sigma^2)$ 。
特别地,若 $\mu = 0$ 且 $\sigma = 1$ ,则这个分布被称为标准正态分布,这个分布能简化为
随机变量 $X$ 落在区间 $(a,b]$ 的概率为
正态分布的性质
参数 $\mu$ 是反映随机变量取值的平均水平的特征数,可以用样本均值去估计。
参数 $\sigma$ 是衡量随机变量总体波动大小的特征数,可以用样本标准差去估计。
- $\mu = 0, \sigma = 1$ 被称为标准正态分布,见下文。
考虑正态曲线 $f(x)=\frac{1}{\sigma \sqrt{2 \pi}}\cdot \exp\left(-\frac{(x-\mu)^2}{2 \sigma^2}\right)$
当 $|x|$ 无限增大时,曲线无限接近 $x$ 轴
曲线是单峰的,它关于直线 $x = \mu$ 对称
曲线在 $x = \mu$ 处达到峰值 $\frac{1}{\sigma \sqrt{2 \pi}}$
曲线与 $x$ 轴之间的面积为 $1$ ,即 $\displaystyle \int_{-\infty}^{\infty}f(x)\, \mathrm{d}x = 1$
当 $\sigma$ 一定时,曲线的位置由 $\mu$ 确定,如图 $(\sigma = 1)$
当 $\mu$ 一定时,曲线的形状由 $\sigma$ 确定,如图 $(\mu = 0)$
标准正态分布
若 $\mu = 0$ 且 $\sigma = 1$ ,则称为标准正态分布,该分布能简化为
由于标准正态总体 $N(0,1)$ 在正态总体的研究中占有非常重要的地位,已专门制作了 “标准正态分布表”。
在这个表中,相应于 $x_0$ 的 $\Phi\left(x_0\right)$ 是指总体取值小于 $x_0$ 的概率,即 $\Phi\left(x_0\right)=\mathrm{Pr}\left(X<x_0\right)$ 。如图:
由于标准正态曲线关于 $x$ 轴对称,表中仅给出了对应于非负值 $x_0$ 的 $\Phi(x_0)$
计算非正值 $-x_0$ 可以用 $\Phi\left(-x_0\right)=1-\Phi\left(x_0\right)$ 来计算。
同时,利用公式 $\mathrm{Pr}(X < x) = \Phi\left(\frac{x-\mu}{\sigma}\right)$ 可将非标准正态分布问题转化为标准正态分布问题。
$3\sigma$ 原则
如图:
特别地,对于标准正态分布的正态变量(标准正态变量):
在区间 $(-1,1),(-2,2),(-3,3)$ 内取值的概率分别为 $0.6827,0.9545,0.9973$ 。
在实际应用中,通常认为服从于正态分布 $N(\mu, \sigma^2)$ 的随机变量 $X$ 只取 $[\mu-3 \sigma, \mu+3 \sigma]$ 中的值,这在统计学中称为 $3 \sigma$ 原则。
在一次试验中,$X$ 的取值几乎总是落在区间 $[\mu-3 \sigma, \mu+3 \sigma]$ 之内, 而在此区间以外取值的概率只有 $0.0027$ ,通常认为这种情况几乎不可能发生。这是统计中常用的假设检验方法的基本思想。
参考文献: