你是否听说过这样一个故事?
一个小镇上发生了一起珠宝盗窃案,所有的证据都指向镇上的一位名叫约翰的绅士。
约翰平时为人和善,是镇上广受欢迎的医生,但此时所有人都在猜测他是否真的有罪。
就在此时,镇上的警长决定请一位数学家来帮忙,他相信这位数学家能通过一些巧妙的方法揭示真相。
数学家到来后,没有直接查看案件的证据,而是问了一些奇怪的问题:镇上有多少人?平时有多少盗窃案发生?约翰被指控的频率有多高?这些问题让人摸不着头脑。
但数学家解释道:“我要用贝叶斯定理来分析这个案件,找出约翰是否真的有罪。”
镇上的人们对这种方法感到困惑,但也充满了好奇。
数学家继续解释,他会将现有的证据和背景信息结合起来,通过贝叶斯定理来计算出约翰有罪的概率。
到底什么是贝叶斯定理?它如何帮助我们揭示真相?让我们一起进入贝叶斯定理的世界,探索这个神秘而强大的数学工具。
贝叶斯定理是概率论和统计学中的一个重要公式,它为我们提供了一种更新概率的方法。这个定理在许多领域有着广泛的应用,从医学诊断到机器学习,再到日常决策。
托马斯·贝叶斯(Thomas Bayes)
贝叶斯定理由18世纪英国数学家托马斯·贝叶斯(Thomas Bayes)提出,它描述了如何根据新信息更新事件的概率。
贝叶斯定理的公式如下:
其中:
- P(A|B)是在事件B发生的情况下事件A发生的概率(后验概率)。
- P(B|A)是在事件A发生的情况下事件B发生的概率(似然)。
- P(A)是事件A的先验概率。
- P(B)是事件B的先验概率。
假如看不懂不要紧,我们继续往下看。
贝叶斯定理的二维可视化图像,图中阐释了事件A、事件B以及他们之间的关系,图源wiki
01 托马斯·贝叶斯的思想💭
其实,托马斯·贝叶斯是一位牧师和数学家,对概率论非常感兴趣。在他的时代,概率论主要应用于赌bo和保险等领域,但它的理论基础还不完善。
贝叶斯希望通过数学的方法来解决一些更为广泛的问题,特别是如何在获得新的证据或信息后,更新对某个事件发生的概率。
贝叶斯思想的精髓可以用一句话概括:“观点随事实发生改变”。
那么,如何科学地修正观点呢?坚定不移是不可取的,盲目听信也是不对,这时候就需要贝叶斯方法啦,这就是最近流行的热点词汇——贝叶斯大脑,其实倒不是什么高大尚的,想开点其实就是一个数学模型。
为了深入理解这个方法,我们可以稍微用一点数学,它其实就是概率的加减乘除。
掌握了贝叶斯方法,你会发现一种全新的思维方式带来的巨大满足感。
贝叶斯方法就像破案。
福尔摩斯经常说自己用的是演绎法,更准确地定义应该是是归纳法。
演绎法是从规则推导结果,而归纳法是从结果追溯原因。
而贝叶斯方法的本质,其实就是从结果反推原因。
比如,你身边发生凶案,你怀疑老李是凶手,但没有证据时你的怀疑度肯定较低。但如果某天从老李家搜出了凶器,你就会增加对他的怀疑,这就是观点随事实改变。
另外,得到专栏作家万维钢老师曾提到过:信仰在贝叶斯看来也是一种概率。
传统观念认为信仰是坚定不移的,但哲学家大卫·休谟在1748年的文章《论奇迹》中提出,像死人复活这种违反常识的事情,仅凭几个目击者的证言是很弱的证据。
休谟实际上是在质疑耶稣复活,他说的没错,普通事情容易接受,但出乎意料事情则需要更强的证据。
卡尔·萨根也说过:“超乎寻常的论断需要超乎寻常的证据。”
贝叶斯提出,我们对某个假设的相信程度应该用一个概率来表示。
例如,P = 1 就是绝对相信,P = 0 就是绝对不信,P = 15% 就是有一点信。
当有了新证据后,这个概率需要更新为P(假设|证据),即在有新证据情况下对假设的相信程度,没错,这就是条件概率。
一般来说,P(A|B) 表示在 B 事件已经发生的条件下,A 事件发生的概率。
举个例子,A 代表下雨,B 代表带伞。
假设这个地方不常下雨,所以 P(A) = 0.1。
但是今天你注意到爱看天气预报的老王带了伞上班,那么你可以推断今天下雨的概率增加了——也就是说,在“老王带伞”这个条件下,下雨的概率就是 P(A|B)。
如果我们用因果关系来表示,可以写成“下雨 → 带伞”,即 A → B。
类似地,“老王是凶手 → 在老王家找到凶器”也可以表示为“假设 → 证据”。
现在我们要计算的是 P(假设|证据),这是一种逆向概率计算,即从结果推测原因,这种计算较为困难。
当然,一般从原因算结果比较容易,比如,一个小孩向窗户扔球,你可以估计窗户被打碎的概率,这是“正向概率”。
但如果你只看到窗户碎了,要推测窗户是怎么碎的就非常困难了。
不着急,这时候我们就请贝叶斯出马!
02 贝叶斯定理的实际应用
为了计算P(A|B),我们需要考虑A和B同时发生的概率。
有两个方法可以计算这个概率:
第一种:先计算B的概率,再计算B发生的情况下A也发生的概率,即P(A|B)×P(B)。
第二种:先计算A的概率,再计算A发生的情况下B也发生的概率,即P(B|A)×P(A)。
这两个结果一定相等,因此我们得到贝叶斯公式:
这就是贝叶斯公式。之所以要这么算,就是因为常常是 P(A),P(B) 和 P(B|A) 都容易知道,而这个逆概率 P(A|B) 只能用这个公式间接知道。
我们来看个具体例子:「乳腺癌检测」
假设一位40岁的女性做了乳腺癌检查,结果是阳性。那么,请问她得乳腺癌的概率是多少?
我们用D表示她得乳腺癌,T表示测试结果为阳性。我们要计算P(D|T)。
根据公式,我们知道,现在现在其实就是需要求出 P(D)、P(T)和P(T|D)。
在没有新证据前,P(D)是40岁女性得乳腺癌的概率,约为1/700。
P(T|D)是如果她真的得了乳腺癌,测试结果为阳性的概率由检测仪器的敏感度决定的,答案是73%,也许仪器是不怎么准确的。
P(T)是随机选择一个人,测试结果为阳性的概率。
我们将这种情况可以分解为有乳腺癌(D)和没有乳腺癌(~D)两种情况,其中P(~D)=699/700。
没乳腺癌的但又被误诊断阳性的概率为 P(T|~D)是12%。
因此:
P(T) = P(T|D)✖️P(D) + P(T|~D) ✖️ P(~D) = 12.1%
带入贝叶斯公式,我们最终得到P(D|T)=1/116。即使检测结果是阳性,她真的得乳腺癌的概率也不到1%。
这是一个非常出乎意料的结论。
假设有3000名40岁的女性,根据前面说的各项数据,其中只有4人真有乳腺癌,而被正确检测为阳性的只有三人。
图片来自 得到精英日课
虽然很惊奇,但事实就是如此!贝叶斯公式清晰地展示了结果。
这种情况的根本原因是乳腺癌患者比例小,而检测仪器不够准确。
如果这位女性携带易得乳腺癌的基因,初始的P(D)应该是1/20,用这个数计算,P(D|T)约为1/3,这就非常不一样了。
这就是贝叶斯方法中的关键:初始概率P(D)的选择取决于主观判断。
03 信念的传播:贝叶斯网络
贝叶斯方法不仅适用于个人判断,还能应用于更复杂的系统。
1982年,犹太裔科学家裴尔将贝叶斯方法引入人工智能领域,发明了“贝叶斯网络”。
贝叶斯网络是一种用来表示和计算不确定性问题的方法。它不仅用于语音识别、垃圾邮件过滤,还应用于油井钻探、新药审批等领域。
贝叶斯网络的工作原理是通过节点之间的条件概率来更新信念值。每次有新数据输入,网络就会更新信念值,这种过程被称为“信念传播”。
这种方法比传统的人工智能算法更为精确,取代了黑箱操作。
贝叶斯方法对传统科学方法进行了重大升级。传统的科学方法是提出假设、做实验验证、根据实验结果决定假设是否保留。
而贝叶斯方法是先给假设一个初始可信度,根据新证据调整这个可信度,进行动态判断。
贝叶斯方法是一种实用主义态度,它不追求绝对的因果关系,而是通过获取实用的知识,做出尽可能准确的判断和决策。
这与我们前面说的不追求绝对因果关系,只追求回答实用的因果问题是相同的道理。
贝叶斯方法的应用非常广泛,从你手机的语音识别到FDA的新药审批,各种你想到和想不到的应用都在使用贝叶斯方法。
它不仅为科学研究提供了新的视角,也在日常生活中帮助我们做出更科学的决策。
结语
贝叶斯方法教会我们,观点需要随着事实的变化而变化。我们应保持开放的心态,用量化的数值来决定我们的判断,虽然无法完全摆脱主观成分,但可以做出更科学的决策。
贝叶斯方法不仅是一种数学工具,更是一种生活哲学,它引导我们在面对不确定性时,如何更理性地思考和决策。