哲学与数据科学——深入思考数据

米言看科技 2024-04-20 01:39:50

因果关系,让你意识到它并不像你想象的那么简单。例如,在不查找定义的情况下,尝试从头顶上定义因果关系。这是一项艰巨的任务——至少对我来说是这样!这个练习希望能促使你意识到因果关系并不像你想象的那么黑白分明。

观察因果关系的挑战:因果关系的不可观察性

大卫·休谟(David Hume)是一位著名的怀疑论者,也是我最喜欢的哲学家之一,他敏锐地观察到,我们不能直接用感官观察因果关系。这里有一个经典的例子:我们可以看到一个棒球飞向窗户,我们可以看到窗户破裂,但我们不能直接看到因果关系。我们看不到窗户必须打破。这是因果关系的主要挑战,我们必须从我们的观察中推断出来。“所有事件似乎都是完全松散和独立的。一个事件接踵而至;但我们永远无法观察到他们之间的任何联系。大卫·休谟,《关于人类理解的探究》

我认为理解因果关系不可直接观察到的一种方法是通过思想实验。想象一个具有不同物理定律的平行宇宙。每当有因果关系相互作用时,都会闪耀着紫色的光芒。在这个宇宙中,科学是非常容易的。如果我用一个台球击打另一个台球,紫色灯会闪烁,表示第一个台球导致第二个台球在桌子上滚动。在这个宇宙中,我们可以直接观察因果关系!

现在,回到我们的宇宙中,当一个台球击中另一个台球时,我们无法实际观察因果关系,而是必须观察发生的事件并做出归纳解释。也许我们重复两个台球多次击球,并观察每次第二个球在桌子上滚动时。然后,我们从对因果关系的间接观察中推断出一个球导致另一个球移动。由于我们无法直接观察因果关系,因此对于如何通过间接方式识别因果关系,有许多理论和定义。

确定性与概率性因果关系

确定性因果关系指出,因果关系中没有随机性元素。如果 A 导致 B,那么在给定其他条件保持不变的情况下,每次 A 都会以完全相同的方式导致 B。我认为这最好用一个例子来证明。假设我们正在做一个实验,我们从三英尺高的地方掉下一个橡皮球,并记录第一次弹跳的高度。现在,假设我们可以控制实验中的每一个因素——如果确定性概率理论(或更广泛意义上的决定性理论)是正确的,我们可以假设从反弹的高度消除所有方差。换句话说,球每次都会以完全相同的高度弹跳,而试验之间没有任何差异。

另一方面,概率因果关系提出因果关系存在一定的随机性。如果 A 导致 B,即使其他一切都保持不变,我们仍然会在 A 导致 B 的方式上存在一些差异。在我们的橡胶球示例中,即使我们在其他条件相同的情况下,我们也不会观察到由跌落引起的完全相同的弹跳高度。

在更肤浅的层面上,这两种理论可以通过承认我们的认识局限性来调和,认识限制是我们可以学习/观察周围世界的限制。这两种观点都可以得出相同的结论,即我们感知到的随机性只是因为我们无法解释或控制分析或实验中的所有相关因素。即使在橡胶球掉落的简单例子中,也很容易想到许多难以完全控制的事情;温度、大气压力、释放技术、高度测量误差等...最难控制的事情之一就是球本身!如果你多次使用同一个球,之前掉落的冲击力可能会改变球的反弹,如果你使用一个新球,制造过程中的缺陷意味着不是每个球都是完全相同的——这将引入随机性!实际上,这两种理论给出了相同的结果——因为我们显然有很大的认识限制,我们理解因果关系的方法将是相同的。在数据科学中,我们通常更多地按照概率线来思考因果关系。请注意,随着我们控制更多的东西,实验变得越来越干净,响应的方差会下降。确定性因果关系与概率因果关系之间的问题是,对于每个因果关系,方差是否可以为零。

因果关系的规律性理论

因果关系的一个更简单的哲学定义来自规律性理论。该理论认为,可以通过观察一个事件经常跟随另一个事件来建立因果关系。规律性理论通过事件的规律顺序来定义因果关系。赞同规律性理论的哲学家不必区分相关性和因果关系,他们通过相关性来定义因果关系。不必有内在的联系。如果我们观察到,每次我放开一个物体,它就会掉下来。我可以得出结论(从归纳法中)放开一个物体会导致它掉落。虽然将因果关系重新定义为简单的相关性确实使识别“因果关系”变得更容易,但它实际上并没有为我们提供太多实用知识!如果我们将相关性重新定义为因果关系,然后我们决定根据该知识采取行动,那么当干预不成功时,我们可能会感到非常失望。

想象一下,我们的后院有一个游泳池。在游泳池里,我们有一个泳池玩具和一堆树叶。我们观察到叶子和玩具往往在水池的同一部分。使用规律性理论,我们可以说玩具导致叶子随之移动。从规律性理论的哲学角度来看,这没有任何问题。但是,假设现在我们想让所有的叶子靠近水池的边缘,这样我们就可以很容易地将它们移除。我们决定,既然玩具“导致”树叶靠近它,我们就把玩具移到水池的边缘。叶子会跟着吗?当然不是,因为规律性理论提出的因果关系定义并不一定延伸到这种干预。

根据大多数因果关系的定义,我们会说树叶和泳池玩具具有相关关系,而不是因果关系。风或泳池喷射是实际导致树叶在泳池周围移动的因素。玩具也会受到这些相同力的影响,这就是为什么树叶和玩具往往位于同一区域的原因。需要注意的是,规律性理论并没有创造一个足够强大的因果关系定义来区分相关性和因果关系。作为数据科学家,我们通过推荐行动来增加最大的价值;如果我们采用因果关系定义的规律性理论,我们的行为可能会有用,也可能没有用。我们需要对因果关系有一个更强有力的定义;一是支持使用因果关系进行更改以获得理想的结果!

因果关系的过程理论

过程理论试图理解因果关系背后的原因。它旨在解释事件之间的关系。在上一节的示例中,我们很难找到泳池玩具移动树叶的过程或机制。对风和射流移动叶子的解释将更好地理解导致叶子移动的过程。解释因果过程的另一个例子是;“热量导致黄油融化,因为当热能传递到黄油的原子时,它们会移动得更多,从而使黄油融化。”在这里,我们通过解释具体的因果过程来识别因果关系。

这种方法可以很好地工作,并有助于解决由正则性理论产生的问题相关性与因果关系。在这个理论中,我们需要某种解释。我们不再满足于仅仅观察到两个事件往往是相互关联的。如果我们不能想出一个令人满意的解释,我们可能会更深入地寻找我们可以解释的因果关系。

从表面上看,这看起来很万无一失,但我对过程理论作为一种独立的因果关系哲学方法有一个主要问题——很容易想出一个看似正确但实际上是错误的过程!我们似乎有一种与生俱来的愿望,想在我们的世界中得出因果结论¹。这里的挑战在于,我们经常会利用我们的倾向来做出不正确的因果结论。

尼萨姆·塔勒布(Nissam Taleb)在他的《黑天鹅》(The Black Swan)一书中讲述了一个关于这个问题的有趣故事。他讲述了他在萨达姆·侯赛因被捕那天看到的一篇新闻文章的故事。消息刚发时,债券市场上涨,股市走低——一篇文章的标题是这样写的:“美国国债上涨;侯赛因被捕可能无法遏制恐怖主义;当天晚些时候,市场趋势逆转,文章标题被编辑为:“美国国债下跌;侯赛因捕获提升了风险资产的吸引力----这篇文章的作者能够从完全相同的新闻中为高低国债市场捏造出可行的因果过程!显然,这两种解释不可能同时正确。

我并不是说过程论的因果关系方法对这个问题有致命的缺陷。我只是想指出,仅仅因为你能对一段关系想出一个看似连贯的解释,并不意味着你是正确的!提出因果过程或机制所需的额外思考确实非常有帮助,但我们必须警惕,并非所有有意义的事情都是正确的!

反事实因果关系

因果关系的反事实因果关系方法通过询问“如果事情不同会发生什么”来建立事件之间的因果关系?这个问题促使我们模拟一个另类世界,在那里事情发生了不同的情况——这个另类世界是反事实的。通过评估现实世界(事实)和模拟世界(反事实)状态的差异,我们可以建立因果关系。再一次,我认为通过示例最容易理解:假设我们向窗户扔了一个棒球,窗户坏了。我们可以用反事实的方法来问:“如果我们不把球扔到窗户上,它还会坏吗?通过将逻辑应用于问题的答案,我们可以推断出两个事件之间的因果关系。

从反事实中,我们可以得出结论,如果球没有被扔出去,那么窗户就不会被打破。因此,被抛出的球导致窗户破裂。由于无论我是否打电话给朋友都会下雨,我们可以说这些事件是独立的。下雨不是我打电话给朋友造成的。

当你读到这篇文章时,你可能会对这种方法有很大的抱怨——我愿意!挑战在于,我们如何知道反事实是否正确?根据定义,它是不可观察的——它是虚构的!即使答案看起来很明显(棒球/窗户的例子似乎很简单,但我们不能确定窗户在球击中它的确切时刻不会自发破裂!),我们仍然不能确定我们的反事实是否真的会发生。要想有100%的把握知道一个反事实是正确的,唯一的方法就是做事件A,观察结果,然后回到过去,而不是做事件A,观察结果。这当然是不可能的!虽然我们无法在数据科学中使用时间机器,但我们确实有一些技术可以做更多的事情,而不仅仅是推测反事实是什么。我使用的两个主要工具是 (1) 测试和 (2) 建模。

通过测试,我们试图通过复制来模拟反事实。在棒球的例子中,我们会有多个窗口,有些窗口我们会向球扔球,而另一些窗口则不会。我们试图控制实验之间尽可能多的差异(即,相同品牌的窗口和相同的棒球投掷速度)。我们使用随机分配和统计技术来减轻我们无法控制的其他因素的影响。我们观察结果,然后根据我们观察到的情况得出结论。测试实际上只是模拟反事实!

虽然测试是模拟反事实的理想方式,但它既耗时又昂贵。我使用特定的建模技术来快速、廉价地模拟反事实。我们可以创建一个模型,将目标变量作为引起事件,将预测变量作为所讨论的因果事件。例如,客户购买产品的倾向是目标变量,折扣百分比是我们怀疑具有因果关系的预测变量。然后,我们可以调整模型中的折扣百分比变量,以创建客户在各种折扣水平下会做什么的反事实预测。这只是使用建模创建反事实的一个例子。这种方法有很多假设,超出了本文的讨论范围。还有多种其他方法可以使用建模来创建反事实,我在这里不会介绍。

反事实思维可能是理解因果关系的有力方法。然而,我们必须确信,我们通过数据科学技术构思或创造的反事实实际上反映了在不同情况下会发生什么。

将一切整合在一起

因果关系的哲学为数据科学家提供了许多有用的视角,说明如何理解和利用因果关系来增加数据驱动的价值。

我们通常从概率的角度考虑因果关系。这意味着如果事件 A 影响事件 B 的概率,则事件 A 与事件 B 有因果关系。因果关系的真正本质是概率性的,还是我们只是认为它是概率性的,取决于宇宙是否是确定性的。

规律性理论帮助我们识别可能是因果生态系统一部分的关系。相关事件可能会也可能不会相互引起(以我们通常认为的因果关系的方式),但如果我们想理解因果关系,它们是谜题的重要组成部分。

过程理论要求我们解释为什么一件事会导致另一件事。如果解释得到数据和我们的领域知识的支持,那么建立有用的因果关系可能很重要。它还可以帮助我们避免仅根据相关性得出错误的因果结论。

反事实更进一步,帮助我们进行思想实验,触及有用因果关系的核心。我们考虑在不同情况下会发生什么或不会发生什么。这非常适合提出建议,因为我们可以考虑如果我们执行干预会发生什么或不会发生什么。测试/实验和特定的建模技术可以帮助我们做出更多数据驱动的反事实,这反过来又可以为建议的行动提供信息。

我们讨论的所有因果关系的哲学方法都帮助我们克服了我们不能直接观察因果关系的事实。每个理论都为我们提供了一个有用的视角。在使用各种思想流派时,平衡的方法可以带来更好的数据驱动建议!

因果关系假设对我们来说似乎是一种与生俱来的心理能力。

参见丹尼尔·卡尼曼(Daniel Kahneman)的《思考快与慢》(Thinking Fast and Slow)第6章。

0 阅读:0

米言看科技

简介:感谢大家的关注