不靠谱的概率笔记(基本概念的理解)

概率的定义

感觉学习概率最重要的是把握面积比例,是理解概念、公式的法宝。

新的视角看待问题不是一件令人激动的事吗?概率是面积(测度)!

测度(Measure)是一个函数,它对一个给定集合的某些子集指定一个数,这个数可以比作大小、体积、概率等等。传统的积分是在区间上进行的,后来人们希望把积分推广到任意的集合上,就发展出测度的概念,它在数学分析和概率论有重要的地位。测度论是实分析的一个分支,研究对象有 $\sigma$ 代数、测度、可测函数和积分,其重要性在概率论和统计学中都有所体现。

蒙提霍尔问题(Monty Hall Problem)

问题:A、B、C 三扇门,其中只有一扇是正确的门,打开后将能获得一辆跑车,而另两扇门后只有山羊。在决定选择某扇门后,还剩两个选项,其中至少有一个是错误选择。此时,主持人(知道正确的答案是什么)打开了没被选中的门中错误的那个,让挑战者确认了门后是山羊,并问道:“是否要重新选择?”

仔细想一下以下两条规则:

  • 如果第一次选择正确,重选必定错误($\frac{1}{3}$)
  • 如果第一次选择错误,重选必定正确($\frac{2}{3}$ 即第一次选错的概率即为「重选后正确」的概率)

直观上的错误:假设挑战者选择 C 门,而主持人,而主持人打开了 A 门。于是,第一种情况将不再成立,只有两种可能。我觉得可以从以下方面去理解和思考:

  1. 问题中要考虑主持人已打开错误的门的条件(prior)

  2. 如果挑战者第一次就选错了,主持人会不会打开一扇门让他再选呢?(肯定会!仔细想一下)

  3. 考虑有 100 扇门而主持人将打开其中 98 扇的情况(马住)

  4. 上帝视角观看所有情况将不确定的事件(抽象的概率、生成机制)转换为确定的事件(统计观测值)

    • 每个会场同时进行游戏
    • 每个会场按照事先确定好的剧本进行游戏(确定事件)
    • 另一个角度,每个会场即为问题的一个平行世界 $\omega$ 且 $\omega \in \Omega$(下面有对三元组的解释)
⭕️:跑车 ❌:山羊 挑战者选择 A 门 挑战者选择 B 门 挑战者选择 C 门
主持人 打开门 B 或 门 C 打开门 A 或 门 C 打开门 A 或 门B
门 A 是正确答案 ⭕️ 40 个会场 ❌ 40 个会场 ❌ 40 个会场
门 B 是正确答案 ❌ 40 个会场 ⭕️ 40 个会场 ❌ 40 个会场
门 C 是正确答案 ❌ 40 个会场 ❌ 40 个会场 ⭕️ 40 个会场

所以,当问题较为复杂时,常规视角下的语言和直觉将难以解决问题,上帝视角更为有效。如果只用语言表述,讨论可能会莫名其妙地转化为哲学问题,不知不觉中做出错误的判断。

三元组和术语

三元组大佬「也叫概率空间」:

$$(\Omega,\mathcal{F},P)$$

上文所说的每个平行世界 $\omega$ 也称为样本,由所有平行世界组成的集合 $\Omega$ 称为样本空间,$\Omega$ 的子集称为事件,记为 $\mathcal{F}$。$P$ 是一个集合「事件」的函数,称为概率「or 面积」。

随机变量

随机变量只是 $\Omega$ 中的函数而已,对于 $\Omega$ 中的各元素 $\omega$ 均有函数 $f(\omega)$ 「或 $X(\omega)$ 」返回相应的整数($f$ 是一个确定的函数,返回情况是确定的,只是 $\omega$ 不确定而已)。

从普通人的视角来看,随机值 $X$ 加上 $1$ 后得到的就是 $X+1$;从上帝视角来看,$X+1$ 表示的是各个世界中值为 $X(\omega) + 1$ 的函数。

表示方法:$X(\omega)=\alpha$,在点 $\omega$ 处,函数 $X$ 的值为 $\alpha$,而不是表示为「不确定的随机数 $X$ 可以取值为 $\alpha$」。

概率分布

概率分布只考虑面积,不涉及具体的平行世界。对于随机变量,哪一个世界中将得到哪一个值都已确定,而概率分布不涉及事件具体发生在哪一个世界。所以仅仅知道概率分布,我们无法求出随机变量的值。常见的形式为概率分布表

随机变量之间的关系

从面积的角度:

概率是面积,条件概率是面积比例

问题引入

$\Omega$ 国有 3 个县(A、B、C),面积分别为 $P(A)$、$P(B)$、$P(C)$,且整个国家的总面积为 $1$。

$$P(A)+P(B)+P(C)=1$$

这个国家的土地的用途有:住宅、工厂、农田,面积分别 $P(住宅)$、$P(工厂)$、$P(农田)$,且土地面积总和仍然为 $1$。

$$P(住宅)+P(工厂)+P(农田)=1$$

概念的预热

  • 联合概率:面积 $P(住宅,用途)$
  • 边缘概率:面积 $P(住宅=A)$(不考虑某个值的变化)
  • 条件概率:特定县、特定用途的比例(条件概率就是一个比例)
  • 贝叶斯公式:倒推比例并理解其含义
  • 独立性:比例相同的情况(如下)
    • $P(住宅|A)=P(住宅|B)=P(住宅|C)=P(住宅)$
    • $P(住宅,A)=P(A)P(住宅|A)=P(A)P(住宅)$

条件概率

条件概率经常是理工科一些问题的焦点。这是因为在研究理工科问题时,我们常会采用控制变量法分析变量之间的关系,讨论变量 X 取特定值时变量 Y 的取值情况。如果没有误差,我们可以用函数 $Y=f(X)$ 来表示它们的关系,但现实中很难确保 X 的观测值不变,这也就导致了 Y 的值无法确定,因此我们研究在 X 为某个特定值时 Y 的概率分布。

概率论最多只能处理 X 与 Y 之间的相互关系,而无法判断哪一个是原因,哪一个是结果。

当引入时间的概念,如果事件 X 先于事件 Y 发生,至少说明 Y 不是 X 的原因,但不一定说明 X 是 Y 的原因。可能存在这种情况:有一个没能观测到的事件 A,是 X 与 Y 的原因。

我们可以通过主动介入来确定上述情况:X $\rightarrow$ Y 表示 X 的改变会引起 Y 的改变,反之不成立。

分解联合概率(从右往左读更容易理解【面积 + 比例】):

$P(AA, BB, CC) = P(AA | BB, CC)P(BB, CC) = P(AA | BB, CC)P(BB | CC)P(CC)$

$P(AA,BB|CC)=P(AA|BB,CC)P(BB,CC)$(左右乘以 $P(CC)$ 后和上一条式子一样)

$P(A, B, C, D) = P(A, B | C, D)P(C|D)P(D)$

用上面的概念解决三扇门问题

设 X 是正确的门,Y 是挑战者选择的门,Z 是主持人打开的门。我们希望计算挑战者选择了门 3 且主持人打开了门 1 时,门 3 是正确答案时的条件概率(即不改变选择),即 $P(X = 3 | Y =3, Z=1)$ 的值。

$$
\begin{aligned}
&P(X=3|Y=3,Z=1) = \frac{P(X=3,Y=3,Z=1)}{P(Y=3,Z=1)}\
&= \frac{P(X=3,Y=3,Z=1)}{P(X=1,Y=3,Z=1)+P(X=2,Y=3,Z=1)+P(X=3,Y=3,Z=1)}
\end{aligned}
$$

已知 X 的值可以假定是由骰子决定的,所以 $P(X=1)=P(X=2)=P(X=3)=\frac{1}{3}$

由于 Y 独立于 X(挑战者不知道关于门后的任何信息),也可以假定由骰子决定的,因为:

$$P(Y=1)=P(Y=2)=P(Y=3)=\frac{1}{3}$$

所以:

$$P(Y=3|X=1)=P(Y=3|X=2)=P(Y=3|X=3)=\frac{1}{3}$$

于是,主持人打开门 1 的条件概率如下:

$P(Z=1|X=1, Y=3)=0$ …… 不可能打开正确的门
$P(Z=1|X=2, Y=3)=1$ …… 另一扇门是正确答案,因此只能打开门 $1$
$P(Z=1|X=3, Y=3)=\frac{1}{2}$ …… 剩下的两扇门都不是正确答案,因此概率为 $\frac{1}{2}$

综上可以得到:

$P(X=1,Y=3,Z=1) = P(Z=1|X=1,Y=3)P(Y=3|X=1)P(X=1)=0$
$P(X=2,Y=3,Z=1) = \frac{1}{9}$(同理)
$P(X=3,Y=3,Z=1)= \frac{1}{18}$(同理)

最后得到:$P(X=3|Y=3,Z=1)=\frac{1}{3}$,这就是挑战者坚持最初选择的概率,且得到车的概率。

贝叶斯公式

逆问题:需要从结果反推原因的问题。通常,原因 X 无法被直接观察、测量。此时,我们常会通过其结果 Y 来反推原因 X。很多工程问题都可以通过这种方式解释。

  • 通信:根据含有噪声的接收信号 Y 推测发送信号 X
  • 语音识别:根据麦克风识别的音频波形数据 Y 推测语音信息 X
  • 文字识别:根据扫描仪读取的图像数据 Y 推测用户书写的问童子 X
  • 邮件自动过滤:根据收到的邮件文本 Y 推测邮件的类型 X(是否为广告等)

注意:即使 X 相同,Y 也可能不同,因为大多数情况下都存在噪声与误差,我们不能使用 $Y=f(X)$ 来表示两者的关系。

问题类型(非常重要❗️):

  • 已知所有的:P(原因) 与 P(结果|原因)
  • 求:P(原因|结果)

在这类问题中,P(原因) 称为先验概率,P(原因|结果)称为 后验概率,分别用于表现事件是发生于结果 Y 取得之前还是之后。

独立性

判定随机变量之间是否真的存在关联,如果 X 与 Y 无关,由 X 推 Y 就没有意义了。

「独立」与「互斥」不同(重要❗️)

独立性并不意味着「事件 X = 1 与 Y = 1 不会同时发生」。这种互斥性反而表示 X 与 Y 不是独立的随机变量。此时,我们能够通过 X 是 1 来确定 Y 不是 1,因此,X 与 Y 之间具有某些关联。

还是那句话,独立性意味着我们无法通过 Y 判断 X 的值,无论 X 是 1、2 还是 3,Y 的取值概率都不变。

举个例子:

宝箱里面可能陷阱,真正的魔法师能够通过魔法检测宝箱中是否有陷阱,只是准确性不够。而冒牌魔法师根本不会魔法,检测的时候悄悄掷一下骰子来判断是否有陷阱。所以,是否有陷阱检测结果为存在陷阱之间没有关联,我们可以用条件概率充分说明这一点:

$$P(发现陷阱 | 有陷阱) = P(发现陷阱 | 没有陷阱)$$

$$or$$

$$P(有陷阱|发现陷阱)= P(有陷阱|没发现陷阱)$$

独立性一般可以通过这式子去理解,比较直观。事件不独立也称为从属

注意:

  1. 我们无需区分谁独立于谁,没有先后关系。
  2. 上面第一条式子中,当 $P(有陷阱) = 0 或 1 $ 时,虽然没有意义,但独立性仍然成立。
  3. $P(发现陷阱|有陷阱)=P(没发现陷阱|有陷阱)$ 并不能判断两者是否独立。

思考:【想当然就容易错】

现有一副不含大王、小王的扑克,共计 52 张。我们在洗牌后随机抽取一张,请问:
(1)「这张牌是黑桃」与「这张牌是人头牌」是否独立?
(2)「这张牌是黑桃」与「这张牌是红桃」是否独立?

事件独立性的等价表述:

要彻底掌握一种数学概念,我们只能靠在各种不同的语境中了解该概念,充分思考大量的具体实例,并至少找出两三种能够加强结论直观性的隐喻。 —— 格雷格·伊根《大流散》

  1. ⭕️ 与 ❌ 独立

  2. 条件概率与条件无关【直观易懂】

    $P(⭕️|❌) = P(⭕️|¬❌)$

  3. 添加或去除条件不影响概率【直观易懂】

    $P(⭕️|❌) = P(⭕️)$

  4. 联合概率之比相同

    $P(⭕️,❌):P(⭕️,¬❌) = P(¬⭕️,❌) = P(¬⭕️,¬❌)$

  5. 联合概率是边缘概率的乘积【适用性最广,便于计算和判断,满足上面条件无意义的情况】

    $P(⭕️,❌)=P(⭕️)P(❌)$【可通过贝叶斯公式推导】

注意第二种表述方式是独立性的定义,无需证明。

「定义」与「定理」是完全不同的概念。「定义」是某样事物的固定名称。在数学中,我们无需解释某一定义背后的理由。尽管该定义的产生必然有其原因,但数学并不关心定义者的动机。另一方面,「定理」则是由前提推导出的结论。数学需要严格证明该推导过程的正确性。

对于随机变量来说,无论 a 与 b 为何值,条件「X = a」与条件「Y = b」始终独立,我们称随机变量 X 与 Y 独立。

上面第 4 条可以这么理解:【左右 1:3】

Y = ❌ Y = ¬❌
X = ⭕️ 0.10 0.30
X = ¬⭕️ 0.15 0.45

三个或更多随机变量的独立性(注意):

各对事件相互独立不代表所有事件都相互独立,要满足所有组合的情况:

若 n 个事件相互独立,

  1. $P(A_1, A_2, …, A_n)= P(A_1)P(A_2)\cdots P(A_n)$
  2. 任意 n - 1 个事件都相互独立

如 n = 3:

$$
\begin{aligned}
P(A,B,C)&=P(A)P(B)P(C)\
P(A,B)&=P(A)P(B)\
P(A,C)&=P(A)P(C)\
P(B,C)&=P(B)P(C)
\end{aligned}
$$

所以,仅凭 $P(A,B,C)=P(A)P(B)P(C)$ 不能断言 A、B、C 独立。