数学总结

发布日期: 2024-04-30

更新日期: 2025-08-08

文章字数: 3.7k

【专栏】概率与期望

之前写过很多概率与期望的内容，但是缺乏有效的整理

因此这篇文章主要起到查询对应内容的作用，并不会摘录全部内容。

下文统一使用 $\mathrm{E}(X)$ 表示期望，$\mathrm{Pr}(X)$ 表示概率。（尽管各文章的表示方式可能不同）

一、概率

相关文章：全概率公式&贝叶斯公式

设随机事件的样本空间为 $\Omega$ ，$\Omega$ 的一个子集称为事件。对于 $\Omega$ 中的每一个事件 $A$ 都有实函数 $\mathrm{Pr}(A)$ 满足

非负性：$\mathrm{Pr}(A) \ge 0$
规范性：$\mathrm{Pr}(\Omega)=1$
可数可加性：对可数个两两互斥事件 $\left\{A_i\right\}_{i \in N}$ 有
$\sum_{i=1}^{\infty} \mathrm{Pr}\left(A_i\right)=\mathrm{Pr}\left(\bigcup_{i=1}^{\infty} A_i\right)$

任意一个满足上述条件的函数都可以作为样本空间 $\Omega$ 的概率函数，称函数值 $\mathrm{Pr}(A)$ 为 $\Omega$ 中事件 $A$ 的概率。

1. 条件概率&联合概率

条件概率（也称作后验概率）表示为 $\mathrm{Pr}(A\mid B)$，读作“ $A$ 在 $B$ 发生的条件下发生的概率”。

联合概率表示为两个事件共同发生的概率。 $A$ 和 $B$ 的联合概率表示为 $\mathrm{Pr}(A\cap B)$ 或 $\mathrm{Pr}(AB)$

设 $A$ 与 $B$ 为样本空间 $\Omega$ 中的两个事件，其中 $\mathrm{Pr}(B) > 0$ 。

那么在事件 $B$ 发生下事件 $A$ 发生的条件概率为

$\mathrm{Pr}(A \mid B) = \frac{\mathrm{Pr}(A\cap B)}{\mathrm{Pr}(B)}$

注：高中一般将 $\mathrm{Pr}(A \cap B)$ 写作 $\mathrm{Pr}(AB)$ 。

统计独立性：

当且仅当两个事件 $A$ 与 $B$ 满足 $\mathrm{Pr}(A \cap B) = \mathrm{Pr}(A)\mathrm{Pr}(B)$ 时，

他们才是独立统计的，这样联合概率可以表示为他们各自概率的简单乘积。

同样，对于两个独立事件 $A$ 和 $B$ 有 $\mathrm{Pr}(A \mid B) = \mathrm{Pr}(A)$ 以及 $\mathrm{Pr}(B \mid A)=\mathrm{Pr}(B)$ 。

互斥性：

当且仅当 $A$ 与 $B$ 满足 $P(A \cap B)=0$ 且 $\mathrm{Pr}(A) \ne 0, \mathrm{Pr}(B) \ne 0$ 时，$A$ 与 $B$ 是互斥的。

因此 $\mathrm{Pr}(A \mid B) = \mathrm{Pr}(B \mid A) = 0$ 。

2. 全概率公式

设 $B_1,B_2 ,\dots B_n$ 为一组两两互斥的事件，且有

$\bigcup\limits_{1 \le i \le n} B_i = \Omega$

则对任意的事件 $A \in \Omega$ 有

$\operatorname{Pr}(A)=\sum_i \operatorname{Pr}\left(A \cap B_i\right)$

也写作

$\mathrm{Pr}(A) = \sum_{i=1}^n \mathrm{Pr}(B_i)\mathrm{Pr}(A \mid B_i)$

3. 贝叶斯公式

设 $B_1,B_2 ,\dots B_n$ 为一组两两互斥的事件，且有

$\bigcup\limits_{1 \le i \le n} B_i = \Omega$

则对任意的事件 $A \subseteq \Omega,~A \ne \varnothing$ 有

$\mathrm{Pr}(B_i \mid A) = \dfrac{\mathrm{Pr}(B_i)\mathrm{Pr}(A\mid B_i)}{\mathrm{Pr}(A)} = \dfrac{\mathrm{Pr}(B_i)\mathrm{Pr}(A\mid B_i)}{\sum_i \mathrm{Pr}(B_i)\mathrm{Pr}(A \mid B_i)}$

二、期望

相关文章：期望值、条件期望与全期望公式、随机变量

在概率论和统计学中，一个离散性随机变量的期望值（或数学期望，亦简称期望）是试验中每次可能的结果乘以其结果概率的总和。

期望值更像是随机试验在同样的机会下重复多次，所有那些可能状态平均的结果，便基本上等同“期望值”所期望的数。

期望值可能与每一个结果都不相等，或者说期望值就是该变量输出值的加权平均。期望值并不一定包含于其分布值域，也并不一定等于值域平均值。

例如，掷一枚公平的六面骰子，其每次“点数”的期望值是 $3.5$ ，计算如下：

$\begin{aligned} \mathrm{E}(X) &=1 \cdot \frac{1}{6}+2 \cdot \frac{1}{6}+3 \cdot \frac{1}{6}+4 \cdot \frac{1}{6}+5 \cdot \frac{1}{6}+6 \cdot \frac{1}{6} \\ &=\frac{1+2+3+4+5+6}{6}=3.5 \end{aligned}$

不过如上所说明的，$3.5$ 虽是“点数”的期望值，但却不属于可能结果中的任一个，没有可能掷出此点数。

1. 严格定义

如果 $X$ 是在概率空间 $(\Omega,F,P)$ 中的随机变量，那么它的期望值 $\mathrm{E}(X)$ 的定义为

$\mathrm{E}(X)=\int_{\Omega} X \mathrm{~d} P$

概率空间 $(\Omega,F,P)$ 通俗地讲，就是样本空间+事件+概率（$P: F \mapsto \mathbb{R}$）

并不是每一个随机变量都有期望值的，因为有的时候上述积分不存在。

如果两个随机变量的分布相同，则它们的期望值也相同。

如果 $X$ 是离散的随机变量，输出值为 $x_1,x_2,\ldots$，和输出值相应的概率为 $p_1,p_2,\cdots$ （概率和为 $1$ ）。

若级数 $\sum_i p_i x_i$ 绝对收敛，那么期望值 $\mathrm{E}(X)$ 是一个无限数列的和。

$\mathrm{E}(X)=\sum_i p_i x_i$

如果 $X$ 是连续的随机变量，存在一个相应的概率密度函数 $f(x)$ ，若积分 $\int_{-\infty}^{\infty} x f(x) \mathrm{d} x$ 绝对收敛，那么 $X$ 的期望值可以计算为:

$\mathrm{E}(X)=\int_{-\infty}^{\infty} x f(x) \mathrm{d} x$

是针对于连续的随机变量的，与离散随机变量的期望值的算法同出一辙，由于输出值是连续的，所以把求和改成了积分。

2. 性质

期望的线性性质：期望值 $\mathrm{E}$ 是线性函数（一次函数）

$\mathrm{E}(aX + bY) = a\,\mathrm{E}(X) + b\,\mathrm{E}(Y)$

其中 $X,Y$ 为在同一概率空间的两个随机变量（可以独立或非独立），$a,b$ 为任意实数。

计算方差：我们可以用随机变量 $X$ 的期望值 $\mathrm{E}(X)$ 来计算 $X$ 的方差 $\mathrm{Var}(X)$

$\mathrm{Var}(X) = \mathrm{E}(X^2) - \mathrm{E}(X)^2$

可以简记为：平方的期望 减 期望的平方 。

注：高中一般用 $\mathrm{D}(X)$ 表示方差，用 $\sigma(X)$ 表示标准差。

3. 条件期望

设 $X$ 和 $Y$ 都是离散型随机变量，则 $X$ 在给定事件 $Y=y$ 条件时的条件期望

$\begin{aligned} \mathrm{E}(X \mid Y=y) & =\sum_x x\cdot \mathrm{Pr}(X=x \mid Y=y) \\ & =\sum_x x \cdot\frac{\mathrm{Pr}(X=x, Y=y)}{\mathrm{Pr}(Y=y)} \end{aligned}$

3.1 区分 $\mathrm{E}(X), \mathrm{E}(X \mid Y), \mathrm{E}(X \mid Y=y)$

$\mathrm{E}(X)$ ：一个数，表示 $X$ 的期望。

$\mathrm{E}(X\mid Y)$ ：一个随机变量，且关于 $Y$ 的函数。

$\mathrm{E}(X\mid Y=y)$ ：以 $y$ 为自变量的函数，对于给定 $y$ 有唯一值对应。

$\mathrm{E}(X)$ 是对所有的 $\omega \in \Omega$ ，$X(\omega)$ 取值 全体的加权平均（参照期望的定义）

$\mathrm{E}(X\mid Y = y)$ 是局限在 $\omega \in \{\omega : Y(\omega)=y\}$ 时，$X(\omega)$ 取值 局部的加权平均 。

4. 全期望公式

设 $X,Y$ 为离散型随机变量，下列期望和条件期望均存在，则

$\mathrm{E}(X)=\mathrm{E}(\mathrm{E}(X \mid Y))$

若 $Y$ 为离散型随机变量，则

$\begin{aligned} \mathrm{E}(X) & =\mathrm{E}(\mathrm{E}(X \mid Y)) \\ & =\sum_y \mathrm{E}(X \mid Y=y) \cdot \mathrm{Pr}(Y=y) \end{aligned}$

特殊情况：若 $\{A_i\}_i$ 是一个样本空间的有限集或可列集，则

$\mathrm{E}(X)=\mathrm{E}(\mathrm{E}(X \mid Y))=\sum_i \mathrm{E}\left(X \mid A_i\right) \cdot \mathrm{P}\left(A_i\right)$

4.1 $\mathrm{E}(X\mid Y=y)$ 的另一种求解方式

对于 $\mathrm{E}(X\mid Y=y)$ ，若无法直接通过定义式计算，同样可以使用全期望公式进行求解

将 $X\mid Y=y$ 视作全期望公式中的 $X$ ，则

对于离散型的情形，有如下等式成立

$\begin{aligned} \mathrm{E}(X \mid Y=y) & =\mathrm{E}(\mathrm{E}(X \mid Y=y, Z)) \\ & =\sum_z \mathrm{E}(X \mid Y=y, Z=z) \cdot \mathrm{Pr}(Z\mid Y) \end{aligned}$

三、概率分布

1. 伯努利分布

伯努利分布，又名 两点分布 或者 0-1分布 ，是一个离散型概率分布，为纪念瑞士科学家雅各布·伯努利而命名。

若伯努利试验成功，则伯努利随机变量取值为 $1$
若伯努利试验失败，则伯努利随机变量取值为 $0$ 。

记其成功概率为 $p(0\le p\le 1)$ ，失败概率为 $q = 1 - p$ ，则

其概率质量函数为
$f_X(x) = p^x(1-p)^{1-x} = \begin{cases}p & \text { if } x=1 \\ q & \text { if } x=0\end{cases}$
其期望值为
$\operatorname{E}[X] = \sum_{i=0}^{1} x_i f_X(x) = 0 + p = p$
其方差为
$\begin{aligned} \operatorname{Var}[X] &=\sum_{i=0}^1\left(x_i-\operatorname{E}[X]\right)^2 f_X(x) \\[6pt]&=(0-p)^2(1-p)+(1-p)^2 p \\[6pt]&=p(1-p) \\[6pt]&=p q \end{aligned}$

高中一般称伯努利分布为两点分布。

基本的应用也就算出 $X=0$ 的概率，然后用 $1- \mathrm{P}(X=0)$ 算出 $\mathrm{P}(X=1)$ 的概率。

2. 二项分布

在概率论和统计学中，二项分布是 $n$ 个独立的是/非试验中成功的次数的离散概率分布，其中每次试验的成功概率为 $p$。

这样的单次成功/失败试验又称为伯努利试验。实际上，当 $n = 1$ 时，二项分布就是伯努利分布。

一般来说，若随机变量 $X$ 服从参数为 $n$ 和 $p$ 的二项分布，我们记作 $X \sim B(n,p)$ 。$n$ 次试验中正好得到 $k$ 次成功的概率由概率质量函数给出:

$f(k, n, p)=\operatorname{Pr}(X=k)=\binom{n}{k} p^k(1-p)^{n-k} \quad (k \in \mathbb{N}_+)$

该公式可以用以下方法理解：

我们希望有 $k$ 次成功和 $n-k$ 次失败。然而，$k$ 次成功可以在 $n$ 次试验的任何地方出现，而把 $k$ 次成功分布在 $n$ 次试验中共有 $\binom{n}{k}$ 个不同的方法。

可以发现 $\mathrm{Pr}(X = k)$ 就是 $(a+b)^n$ 的二项展开式中的第 $k$ 项 $(a=p, ~b = 1-p)$

若 $X$ 是服从二项分布的随机变量（即 $X \sim B(n,p)$ ），则

期望为
$\mathrm{E}[X] = \sum_{i=1}^{n}\mu = np$
方差为
$\mathrm{Var}[X] = \sum_{i=1}^{n}\sigma^2 = np(1-p)$
如果 $Y \sim B(n,p)$ 且 $X,Y$ 在同一概率空间，若 $X,Y$ 相互独立，则 $X + Y$ 服从二项分布
$X + Y \sim B(n + m, p)$

3. 几何分布

在概率论和统计学中，几何分布（英语：Geometric distribution）指的是以下两种离散型概率分布中的一种：

在伯努利试验中，得到一次成功所需要的试验次数 $X$ 。 $X$ 的值域是 $\{ 1, 2, 3, \cdots \}$
在得到第一次成功之前所经历的失败次数 $Y = X − 1$ 。$Y$ 的值域是 $\{ 0, 1, 2, 3, \cdots \}$

实际使用中指的是哪一个取决于惯例和使用方便。

这两种分布不应该混淆。

前一种形式（ $X$ 的分布）经常被称作 shifted geometric distribution

但是，为了避免歧义，最好明确地说明取值范围。因此本文优先采用前者。

如果每次试验的成功概率是 $p$ ，那么 $k$ 次试验中，第 $k$ 次才得到成功的概率是

$\operatorname{Pr}(X=k)=(1-p)^{k-1} p,\quad k = 1,2,3,\cdots$

而另一种形式，也就是第一次成功之前所失败的次数，可以写为
$\operatorname{Pr}(Y=k)=(1-p)^k p,\quad k = 0,1,2,3,\cdots$

若随机变量 $X$ 服从参数为 $p$ 的几何分布，则记 $X \sim G(p)$ 。

不难发现两种情况产生的序列都是几何数列（等比数列），这便是几何分布的名字来源。

比如，假设不停地掷骰子，直到得到 $1$ 。

投掷次数是随机分布的，取值范围是无穷集合 $\{ 1, 2, 3, \cdots \}$，并且是一个 $p = \frac{1}{6}$ 的几何分布。

几何分布满足以下性质

概率质量函数为
$f_X(x) = (1-p)^{x-1}p$
期望值为
$\mathrm{E}(X) = \frac{1}{p}$
方差为
$\mathrm{Var}(X) = \frac{1 - p}{p^2}$

几何分布具有非记忆性的性质（Memoryless Property，又称遗失记忆性）

这表示如果一个随机变量呈几何分布，它的条件概率遵循：

$\mathrm{Pr}(X>a + b \mid X>b)=\mathrm{Pr}(X>a) \quad( a,b \in \mathbb{N})$

4. 超几何分布

一般地，假设一批产品共有 $N$ 件，其中有 $M$ 件次品，从 $N$ 件产品中随机抽取 $n$ 件（不放回），用 $X$ 表示抽取的 $n$ 件产品中的次品数，则 $X$ 的分布列为

$\begin{aligned} \mathrm{Pr}(X=k)=\frac{\binom{M}{k} \binom{N-M}{n-k}}{\binom{N}{n}} &&\max(0,~n - N -M) \le k \le \min(n,M) \end{aligned}$

如果随机变量 $X$ 的分布列具有上式的形式，那么称随机变量 $X$ 服从超几何分布，记作 $X \sim H(n, M, N)$。

期望：

$\mathrm{E}(X) = \frac{nM}{N} = np$

方差：

$\mathrm{Var}(X) = \frac{nM(N-M)(N-n)}{N^2(N-1)}$

5. 正态分布

5.1 概率质量函数

假设 $X$ 是一个定义在可数样本空间 $S$ 上的离散随机变量 $(S \subseteq \mathbb{R})$ ，则其概率质量函数 $f_X(x)$ 为

$f_X(x)= \begin{cases}\operatorname{Pr}(X=x), & x \in S \\ 0, & x \in \mathbb{R} \backslash S .\end{cases}$

注意这在所有实数上，包括那些 $X$ 不可能等于的实数值上，都定义了 $f_X(x)$ 。

在那些 $X$ 不可能等于的实数值上，$f_X(x)$ 取值为 $0(x \in \mathbb{R})$ 。（取 $\operatorname{Pr}(X=x)$ 为 $0$ ）。

离散随机变量概率质量函数的不连续性决定了其累积分布函数也不连续。

概率质量函数和概率密度函数的一个不同之处在于：

概率质量函数是对离散随机变量定义的，本身代表该值的概率 。

概率密度函数是对连续随机变量定义的，本身不代表概率（必须在某一个区间内被积分后才能得出概率）

5.2 正态分布

本部分内容较多，详见正态分布。

正态分布的概率密度函数（均值为 $\mu$ 方差为 $\sigma^2$ ）是高斯函数的一个实例。

$f(x;\mu,\sigma) = \frac{1}{\sigma\sqrt{2\pi}} \cdot \exp\left({-\frac{(x-\mu)^2}{2\sigma^2}}\right)(x ,\mu , \sigma \in \mathbb{R},\sigma > 0)$

称函数 $f(x)$ 的图像为正态密度曲线，简称正态曲线。

若随机变量 $X$ 服从这个分布，则称 $X$ 服从正态分布，记作 $X \sim N(\mu,\sigma^2)$ 。

特别地，若 $\mu = 0$ 且 $\sigma = 1$ ，则这个分布被称为标准正态分布，这个分布能简化为

$f(x)= \frac{1}{\sqrt{2 \pi}} \cdot \exp \left(-\frac{x^2}{2}\right)$

随机变量 $X$ 落在区间 $(a,b]$ 的概率为

$\mathrm{Pr}(a < X \le b) \boldsymbol{\approx}\int_a^b f(x)\, \mathrm{d} x$

参考文献：

[1] 条件概率 - 维基百科，自由的百科全书

q779

https://q779.cn/2024/04/30/zhuan-lan-gai-lu-yu-qi-wang/

本博客所有文章除特别声明外，均采用 CC BY-NC-ND 4.0 许可协议。转载请注明来源 q779 !

数学总结

条件期望与全期望公式

2024-04-30 OI

数学

CF1042E Vasya and Magic Matrix 题解

2024-04-30 OI

算法数学 DP