概率的定义
感觉学习概率最重要的是把握面积
和比例
,是理解概念、公式的法宝。
以新的视角
看待问题不是一件令人激动的事吗?概率是面积(测度)!
测度(Measure)是一个函数,它对一个给定集合的某些子集指定一个数,这个数可以比作大小、体积、概率等等。传统的积分是在区间上进行的,后来人们希望把积分推广到任意的集合上,就发展出测度的概念,它在数学分析和概率论有重要的地位。测度论是实分析的一个分支,研究对象有 $\sigma$ 代数、测度、可测函数和积分,其重要性在概率论和统计学中都有所体现。
蒙提霍尔问题(Monty Hall Problem)
问题:A、B、C 三扇门,其中只有一扇是正确的门,打开后将能获得一辆跑车,而另两扇门后只有山羊。在决定选择某扇门后,还剩两个选项,其中至少有一个是错误选择。此时,主持人(知道正确的答案是什么)打开了没被选中的门中错误的那个,让挑战者确认了门后是山羊,并问道:“是否要重新选择?”
仔细想一下以下两条规则:
- 如果第一次选择
正确
,重选必定错误($\frac{1}{3}$) - 如果第一次选择
错误
,重选必定正确($\frac{2}{3}$ 即第一次选错的概率即为「重选后正确」的概率)
直观上的错误:假设挑战者选择 C 门,而主持人,而主持人打开了 A 门。于是,第一种情况将不再成立,只有两种可能。我觉得可以从以下方面去理解和思考:
问题中要考虑主持人已打开错误的门的条件(prior)
如果挑战者第一次就选错了,主持人会不会打开一扇门让他再选呢?(肯定会!仔细想一下)
考虑有 100 扇门而主持人将打开其中 98 扇的情况(马住)
上帝视角观看所有情况
将不确定的事件(抽象的概率、生成机制)
转换为确定的事件(统计观测值)
:- 每个会场同时进行游戏
- 每个会场按照事先确定好的剧本进行游戏(确定事件)
- 另一个角度,每个会场即为问题的一个平行世界 $\omega$ 且 $\omega \in \Omega$(下面有对三元组的解释)
⭕️:跑车 ❌:山羊 | 挑战者选择 A 门 | 挑战者选择 B 门 | 挑战者选择 C 门 |
---|---|---|---|
主持人 | 打开门 B 或 门 C | 打开门 A 或 门 C | 打开门 A 或 门B |
门 A 是正确答案 | ⭕️ 40 个会场 | ❌ 40 个会场 | ❌ 40 个会场 |
门 B 是正确答案 | ❌ 40 个会场 | ⭕️ 40 个会场 | ❌ 40 个会场 |
门 C 是正确答案 | ❌ 40 个会场 | ❌ 40 个会场 | ⭕️ 40 个会场 |
所以,当问题较为复杂时,常规视角下的语言和直觉将难以解决问题,上帝视角
更为有效。如果只用语言表述,讨论可能会莫名其妙地转化为哲学问题
,不知不觉中做出错误的判断。
三元组和术语
三元组大佬「也叫概率空间」:
$$(\Omega,\mathcal{F},P)$$
上文所说的每个平行世界 $\omega$ 也称为样本
,由所有平行世界组成的集合 $\Omega$ 称为样本空间
,$\Omega$ 的子集称为事件
,记为 $\mathcal{F}$。$P$ 是一个集合「事件」的函数,称为概率
「or 面积」。
随机变量
随机变量只是 $\Omega$ 中的函数而已,对于 $\Omega$ 中的各元素 $\omega$ 均有函数 $f(\omega)$ 「或 $X(\omega)$ 」返回相应的整数($f$ 是一个确定的函数,返回情况是确定的,只是 $\omega$ 不确定而已)。
从普通人的视角来看,随机值 $X$ 加上 $1$ 后得到的就是 $X+1$;从上帝视角来看,$X+1$ 表示的是各个世界中值为 $X(\omega) + 1$ 的函数。
表示方法:$X(\omega)=\alpha$,在点 $\omega$ 处,函数 $X$ 的值为 $\alpha$,而不是表示为「不确定的随机数 $X$ 可以取值为 $\alpha$」。
概率分布
概率分布只考虑面积
,不涉及具体的平行世界。对于随机变量,哪一个世界中将得到哪一个值都已确定,而概率分布不涉及事件具体发生在哪一个世界。所以仅仅知道概率分布,我们无法求出随机变量的值。常见的形式为概率分布表
。
随机变量之间的关系
从面积的角度:
概率是
面积
,条件概率是面积比例
。
问题引入
$\Omega$ 国有 3 个县(A、B、C),面积分别为 $P(A)$、$P(B)$、$P(C)$,且整个国家的总面积为 $1$。
$$P(A)+P(B)+P(C)=1$$
这个国家的土地的用途有:住宅、工厂、农田,面积分别 $P(住宅)$、$P(工厂)$、$P(农田)$,且土地面积总和仍然为 $1$。
$$P(住宅)+P(工厂)+P(农田)=1$$
概念的预热
- 联合概率:面积 $P(住宅,用途)$
- 边缘概率:面积 $P(住宅=A)$(不考虑某个值的变化)
- 条件概率:特定县、特定用途的
比例
(条件概率就是一个比例) - 贝叶斯公式:倒推比例并理解其含义
- 独立性:比例相同的情况(如下)
- $P(住宅|A)=P(住宅|B)=P(住宅|C)=P(住宅)$
- $P(住宅,A)=P(A)P(住宅|A)=P(A)P(住宅)$
条件概率
条件概率经常是理工科一些问题的焦点。这是因为在研究理工科问题时,我们常会采用控制变量法分析变量之间的关系,讨论变量 X 取特定值时变量 Y 的取值情况。如果没有误差,我们可以用函数 $Y=f(X)$ 来表示它们的关系,但现实中很难确保 X 的观测值不变,这也就导致了 Y 的值无法确定,因此我们研究在 X 为某个特定值时 Y 的概率分布。
概率论最多只能处理 X 与 Y 之间的相互关系,而无法判断哪一个是原因,哪一个是结果。
当引入时间的概念,如果事件 X 先于事件 Y 发生,至少说明 Y 不是 X 的原因,但不一定说明 X 是 Y 的原因。可能存在这种情况:有一个没能观测到的事件 A,是 X 与 Y 的原因。
我们可以通过主动介入来确定上述情况:X $\rightarrow$ Y 表示 X 的改变会引起 Y 的改变,反之不成立。
分解联合概率(从右往左读更容易理解【面积 + 比例】):
$P(AA, BB, CC) = P(AA | BB, CC)P(BB, CC) = P(AA | BB, CC)P(BB | CC)P(CC)$
$P(AA,BB|CC)=P(AA|BB,CC)P(BB,CC)$(左右乘以 $P(CC)$ 后和上一条式子一样)
$P(A, B, C, D) = P(A, B | C, D)P(C|D)P(D)$
用上面的概念解决三扇门问题
设 X 是正确的门,Y 是挑战者选择的门,Z 是主持人打开的门。我们希望计算挑战者选择了门 3 且主持人打开了门 1 时,门 3 是正确答案时的条件概率(即不改变选择),即 $P(X = 3 | Y =3, Z=1)$ 的值。
$$
\begin{aligned}
&P(X=3|Y=3,Z=1) = \frac{P(X=3,Y=3,Z=1)}{P(Y=3,Z=1)}\
&= \frac{P(X=3,Y=3,Z=1)}{P(X=1,Y=3,Z=1)+P(X=2,Y=3,Z=1)+P(X=3,Y=3,Z=1)}
\end{aligned}
$$
已知 X 的值可以假定是由骰子决定的,所以 $P(X=1)=P(X=2)=P(X=3)=\frac{1}{3}$
由于 Y 独立于 X(挑战者不知道关于门后的任何信息),也可以假定由骰子决定的,因为:
$$P(Y=1)=P(Y=2)=P(Y=3)=\frac{1}{3}$$
所以:
$$P(Y=3|X=1)=P(Y=3|X=2)=P(Y=3|X=3)=\frac{1}{3}$$
于是,主持人打开门 1 的条件概率如下:
$P(Z=1|X=1, Y=3)=0$ …… 不可能打开正确的门
$P(Z=1|X=2, Y=3)=1$ …… 另一扇门是正确答案,因此只能打开门 $1$
$P(Z=1|X=3, Y=3)=\frac{1}{2}$ …… 剩下的两扇门都不是正确答案,因此概率为 $\frac{1}{2}$
综上可以得到:
$P(X=1,Y=3,Z=1) = P(Z=1|X=1,Y=3)P(Y=3|X=1)P(X=1)=0$
$P(X=2,Y=3,Z=1) = \frac{1}{9}$(同理)
$P(X=3,Y=3,Z=1)= \frac{1}{18}$(同理)
最后得到:$P(X=3|Y=3,Z=1)=\frac{1}{3}$,这就是挑战者坚持最初选择的概率,且得到车的概率。
贝叶斯公式
逆问题:需要从结果反推原因的问题。通常,原因 X 无法被直接观察、测量。此时,我们常会通过其结果 Y 来反推原因 X。很多工程问题都可以通过这种方式解释。
- 通信:根据含有噪声的接收信号 Y 推测发送信号 X
- 语音识别:根据麦克风识别的音频波形数据 Y 推测语音信息 X
- 文字识别:根据扫描仪读取的图像数据 Y 推测用户书写的问童子 X
- 邮件自动过滤:根据收到的邮件文本 Y 推测邮件的类型 X(是否为广告等)
注意:即使 X 相同,Y 也可能不同,因为大多数情况下都存在噪声与误差,我们不能使用 $Y=f(X)$ 来表示两者的关系。
问题类型(非常重要❗️):
- 已知所有的:P(原因) 与 P(结果|原因)
- 求:P(原因|结果)
在这类问题中,P(原因) 称为先验概率
,P(原因|结果)称为 后验概率
,分别用于表现事件是发生于结果 Y 取得之前还是之后。
独立性
判定随机变量之间是否真的存在关联,如果 X 与 Y 无关,由 X 推 Y 就没有意义了。
「独立」与「互斥」不同(重要❗️):
独立性并不意味着「事件 X = 1 与 Y = 1 不会同时发生」。这种互斥性反而表示 X 与 Y 不是独立的随机变量。此时,我们能够通过 X 是 1 来确定 Y 不是 1,因此,X 与 Y 之间具有某些关联。
还是那句话,独立性意味着我们无法通过 Y 判断 X 的值,无论 X 是 1、2 还是 3,Y 的取值概率都不变。
举个例子:
宝箱里面可能陷阱,真正的魔法师能够通过魔法检测宝箱中是否有陷阱,只是准确性不够。而冒牌魔法师根本不会魔法,检测的时候悄悄掷一下骰子来判断是否有陷阱。所以,是否有陷阱
与检测结果为存在陷阱
之间没有关联,我们可以用条件概率充分说明这一点:
$$P(发现陷阱 | 有陷阱) = P(发现陷阱 | 没有陷阱)$$
$$or$$
$$P(有陷阱|发现陷阱)= P(有陷阱|没发现陷阱)$$
独立性一般可以通过这式子去理解,比较直观。事件不独立也称为从属
。
注意:
- 我们无需区分谁独立于谁,没有先后关系。
- 上面第一条式子中,当 $P(有陷阱) = 0 或 1 $ 时,虽然没有意义,但独立性仍然成立。
- $P(发现陷阱|有陷阱)=P(没发现陷阱|有陷阱)$ 并不能判断两者是否独立。
思考:【想当然就容易错】
现有一副不含大王、小王的扑克,共计 52 张。我们在洗牌后随机抽取一张,请问:
(1)「这张牌是黑桃」与「这张牌是人头牌」是否独立?
(2)「这张牌是黑桃」与「这张牌是红桃」是否独立?
事件独立性的等价表述:
要彻底掌握一种数学概念,我们只能靠在各种不同的语境中了解该概念,充分思考大量的具体实例,并至少找出两三种能够加强结论直观性的隐喻。 —— 格雷格·伊根《大流散》
⭕️ 与 ❌ 独立
条件概率与条件无关【直观易懂】
$P(⭕️|❌) = P(⭕️|¬❌)$
添加或去除条件不影响概率【直观易懂】
$P(⭕️|❌) = P(⭕️)$
联合概率之比相同
$P(⭕️,❌):P(⭕️,¬❌) = P(¬⭕️,❌) = P(¬⭕️,¬❌)$
联合概率是边缘概率的乘积【适用性最广,便于计算和判断,满足上面条件无意义的情况】
$P(⭕️,❌)=P(⭕️)P(❌)$【可通过
贝叶斯公式
推导】
注意第二种表述方式是独立性的定义,无需证明。
「定义」与「定理」是完全不同的概念。「定义」是某样事物的固定名称。在数学中,我们无需解释某一定义背后的理由。尽管该定义的产生必然有其原因,但数学并不关心定义者的动机。另一方面,「定理」则是由前提推导出的结论。数学需要严格证明该推导过程的正确性。
对于随机变量来说,无论 a 与 b 为何值,条件「X = a」与条件「Y = b」始终独立,我们称随机变量 X 与 Y 独立。
上面第 4 条可以这么理解:【左右 1:3】
Y = ❌ | Y = ¬❌ | |
---|---|---|
X = ⭕️ | 0.10 | 0.30 |
X = ¬⭕️ | 0.15 | 0.45 |
三个或更多随机变量的独立性(注意):
各对事件相互独立不代表所有事件都相互独立,要满足所有组合的情况:
若 n 个事件相互独立,
- $P(A_1, A_2, …, A_n)= P(A_1)P(A_2)\cdots P(A_n)$
- 任意 n - 1 个事件都相互独立
如 n = 3:
$$
\begin{aligned}
P(A,B,C)&=P(A)P(B)P(C)\
P(A,B)&=P(A)P(B)\
P(A,C)&=P(A)P(C)\
P(B,C)&=P(B)P(C)
\end{aligned}
$$
所以,仅凭 $P(A,B,C)=P(A)P(B)P(C)$ 不能断言 A、B、C 独立。