嘘~ 正在从服务器偷取页面 . . .

正态分布


正态分布

本文仅涉及高中数学部分,但是掺杂了一些拓展的

正态分布的概率密度函数(均值为 \(\mu\) 方差为 \(\sigma^2\) )是高斯函数的一个实例。 \[ f(x;\mu,\sigma) = \frac{1}{\sigma\sqrt{2\pi}} \cdot \exp\left({-\frac{(x-\mu)^2}{2\sigma^2}}\right)(x ,\mu , \sigma \in \mathbb{R},\sigma > 0) \] 称函数 \(f(x)\) 的图像为正态密度曲线,简称正态曲线。

若随机变量 \(X\) 服从这个分布,则称 \(X\) 服从正态分布,记作 \(X \sim N(\mu,\sigma^2)\)

特别地,若 \(\mu = 0\)\(\sigma = 1\) ,则这个分布被称为标准正态分布,这个分布能简化为 \[ f(x)= \frac{1}{\sqrt{2 \pi}} \cdot \exp \left(-\frac{x^2}{2}\right) \] 随机变量 \(X\) 落在区间 \((a,b]\) 的概率为 \[ \mathrm{Pr}(a < X \le b) \boldsymbol{\approx}\int_a^b f(x)\, \mathrm{d} x \]


正态分布的性质

  • 参数 \(\mu\) 是反映随机变量取值的平均水平的特征数,可以用样本均值去估计。

  • 参数 \(\sigma\) 是衡量随机变量总体波动大小的特征数,可以用样本标准差去估计。

  • \(\mu = 0, \sigma = 1\) 被称为标准正态分布,见下文。

考虑正态曲线 \(f(x)=\frac{1}{\sigma \sqrt{2 \pi}}\cdot \exp\left(-\frac{(x-\mu)^2}{2 \sigma^2}\right)\)

  1. \(|x|\) 无限增大时,曲线无限接近 \(x\)

  2. 曲线是单峰的,它关于直线 \(x = \mu\) 对称

  3. 曲线在 \(x = \mu\) 处达到峰值 \(\frac{1}{\sigma \sqrt{2 \pi}}\)

  4. 曲线与 \(x\) 轴之间的面积为 \(1\) ,即 \(\displaystyle \int_{-\infty}^{\infty}f(x)\, \mathrm{d}x = 1\)

  5. \(\sigma\) 一定时,曲线的位置由 \(\mu\) 确定,如图 \((\sigma = 1)\)

  6. \(\mu\) 一定时,曲线的形状由 \(\sigma\) 确定,如图 \((\mu = 0)\)


标准正态分布

\(\mu = 0\)\(\sigma = 1\) ,则称为标准正态分布,该分布能简化为 \[ f(x)= \frac{1}{\sqrt{2 \pi}} \cdot \exp \left(-\frac{x^2}{2}\right) \] 由于标准正态总体 \(N(0,1)\) 在正态总体的研究中占有非常重要的地位,已专门制作了 “标准正态分布表”。

在这个表中,相应于 \(x_0\)\(\Phi\left(x_0\right)\) 是指总体取值小于 \(x_0\) 的概率,即 \(\Phi\left(x_0\right)=\mathrm{Pr}\left(X<x_0\right)\) 。如图:

由于标准正态曲线关于 \(x\) 轴对称,表中仅给出了对应于非负值 \(x_0\)\(\Phi(x_0)\)

计算非正值 \(-x_0\) 可以用 \(\Phi\left(-x_0\right)=1-\Phi\left(x_0\right)\) 来计算。

同时,利用公式 \(\mathrm{Pr}(X < x) = \Phi\left(\frac{x-\mu}{\sigma}\right)\) 可将非标准正态分布问题转化为标准正态分布问题。


\(3\sigma\) 原则

\[ \begin{aligned} &\mathrm{Pr}(\mu-\sigma \le X \le \mu+\sigma) \approx 0.6827 \\[6pt]&\mathrm{Pr}(\mu-2 \sigma \le X \le \mu+2 \sigma) \approx 0.9545 \\[6pt]&\mathrm{Pr}(\mu-3 \sigma \le X \le \mu+3 \sigma) \approx 0.9973 \end{aligned} \]

如图:

特别地,对于标准正态分布的正态变量(标准正态变量):

在区间 \((-1,1),(-2,2),(-3,3)\) 内取值的概率分别为 \(0.6827,0.9545,0.9973\)

在实际应用中,通常认为服从于正态分布 \(N(\mu, \sigma^2)\) 的随机变量 \(X\) 只取 \([\mu-3 \sigma, \mu+3 \sigma]\) 中的值,这在统计学中称为 \(3 \sigma\) 原则。 在一次试验中,\(X\) 的取值几乎总是落在区间 \([\mu-3 \sigma, \mu+3 \sigma]\) 之内, 而在此区间以外取值的概率只有 \(0.0027\) ,通常认为这种情况几乎不可能发生。这是统计中常用的假设检验方法的基本思想。


参考文献

[1] 正态分布 - 维基百科,自由的百科全书


文章作者: q779
版权声明: 本博客所有文章除特别声明外,均采用 CC BY-NC-ND 4.0 许可协议。转载请注明来源 q779 !
评论
  目录