下载本日课程：EPUB PDF

模块一 · 知识与推理的根基 · 第 005 日 / 180

因果性

冰淇淋销量与溺水人数一同升降，但相关性并不等于因果性。「规律」与「原因」究竟有何不同？

这是一张示意性的玩具散点图：散点同步上行——这是典型的相关性。它们的颜色代表了图上没有显示的变量：季节。高温既催生了甜筒销量，又让更多人下水消暑。

每年夏天，两个数字都会上升：冰淇淋销量增加，溺水人数也增加；天气转凉后，两者又同时下降。把它们画在图上，会得到清晰的相关关系，粗心的分析者甚至可能据此提出「禁止冰淇淋，拯救生命」的标题。但相关性本身并不说明吃冰淇淋会导致溺水。

「相关不等于因果」——这话人人会说，但要严格说清为什么，却是科学推理中最微妙的难题之一。这个例子中，第三个变量——夏季——同时影响冰淇淋销量和下水活动。高温使人们买更多冰淇淋，也使更多人到湖泊和海边游泳，因而增加溺水风险。两个可见变量之所以相关，是因为共同原因同时影响了它们。今天要讨论的是如何识别这种结构，以及为什么因果性（Causation）不是更强的相关性，而是需要额外假设才能从数据中确定的关系。

当前位置

历经四日，我们积累的概念开始彼此呼应。第 1 日警示我们留意那些仅凭运气偶然命中的真信念——如停摆的钟。而虚假相关（Spurious Correlation）正是群体尺度上的「坏钟」：数据虽然「对」得上，原因却错得离谱。第 2 日引入了休谟及其归纳问题；今日我们再次邂逅这位思想家，因为他对因果性的解构与对归纳的抨击紧密相连：二者都对我们从重复观测推导必然性或未来规律性的权利提出了挑战。第 3 日理顺了推理的三种模式：演绎、归纳和溯因——因果发现，作为一种类比，感觉就像是「带有锋芒的溯因」：在假设前提下对最佳因果解释的推断。而第 4 日为我们奠定了干预与观察之别的概率底座：今日的核心结论是， $P (y ∣ do (x))$ 与 $P (y ∣ x)$ 回答的是不同的问题，它们可能相等，也可能不等。

最古老的问题

休谟：我们看不见因果联系

问题可以从休谟开始。1739 年，大卫·休谟在《人性论》（A Treatise of Human Nature）中问：当一个台球撞上另一个台球，第二个球随后滚动时，你究竟观察到了什么？你观察到第一个球在移动，观察到两球接触，也观察到第二个球开始移动；但无论观察多么仔细，都看不到「因果作用」本身，看不到连接两个事件的必然联系或代表「因为」的箭头。

休谟认为，我们实际观察到的只是恒常结合（Constant Conjunction）：一类事件反复跟随另一类事件出现。再加上原因先于结果，以及两事件在时空上接近，这就是经验能够提供的全部内容。按照通常的休谟式解释，「必然性」——第二个球似乎「不得不」移动——来自习惯形成的预期，而不是来自我们看到了必然联系。所谓原因，一方面是世界中事件的稳定结合，另一方面是心智从一个事件联想到另一个事件的习惯。

这与第 2 日的归纳问题直接相关。如果因果性只是「一种事件总在另一种事件之后发生」，那么相信下一次碰撞也会如此，就等于假定自然始终齐一；而休谟已经说明，这一假定不能在不循环论证的情况下得到证明。这一挑战产生了规则性、反事实、概率性和干预主义等不同理论路径，至今没有一种理论被普遍认为能够处理所有重要反例。

「宇宙的黏合剂」这一说法

这个说法常被归于休谟，但更准确地说，它来自 J. L. 麦基 1974 年的著作《宇宙的黏合剂》（The Cement of the Universe）。「黏合剂」指我们无法直接观察、却用来解释事件稳定联系的因果结构。

四种理论路径

因果性究竟多出了什么？

如果因果性不只是恒常结合，就需要说明它多出了什么。20 世纪形成了几种重要答案，用不同方式完成「C 导致 E 意味着……」这句话。它们不一定互相排斥，现代因果模型常常分别借用其中的思想。

Lewis · 1973

反事实（Counterfactual）。在简单情形中，E 反事实地依赖于 C：若 C 未发生，E 就不会发生。刘易斯进一步通过这种因果依赖的链条来分析更一般的因果关系。该定义简洁直观，但需要应对备用原因（预截和过度决定）等复杂场景的挑战。

Reichenbach · Suppes · Cartwright

概率性。这些是不同的概率性方案，但共同口号是：原因会提高结果发生的概率。莱兴巴赫提出了共同原因原理（Common-Cause Principle）：若 A 与 B 相关但互不为因，则必有一个共同原因 C 将其屏蔽（Screen Off）——即在模型中固定 C 后，A 与 B 的相关性会消失。夏季就是这个玩具例子中预设的共同原因解释。

Woodward · 2003

干预主义。当一种合适的干预（Intervention）改变 $C$ 、切断 $C$ 的通常原因、避免通过 $C$ 以外的路径独立影响 $E$ ，并因此改变 $E$ 时， $C$ 就是 $E$ 的原因。这种干预无需人类参与：即便无人按下按钮，火山喷发依然是火山灰产生的原因。这与结构因果模型的干预语义高度一致：下文中，珀尔会把这种思想形式化为 $do (C)$ 算子和图上的剪箭头操作。

Mackie · 1974

INUS 条件。原因可以是某个非必要但充足条件中，一个不充足但非冗余的部分。例如，短路本身并不足以烧毁房屋；它之所以重要，是因为它是某个充足条件组合（短路、氧气、易燃物、无及时扑救）中一个非冗余的部分。

同一个问题有多种审视透镜：反事实关注「若非如此会怎样？」；概率关注「在固定竞争项时是否增加了概率？」；INUS 关注「这一部分在充足组合中扮演了什么角色？」；干预主义关注「在合适干预下会改变什么？」。结构因果模型为许多反事实和干预主义问题提供了精确语言，但并不解决关于因果性的每一种哲学说明。接下来的统计框架提出的是一个更窄的操作性问题：一旦指定了干预和目标效应，哪些假设能让数据识别该效应？注意南希·卡特赖特（Nancy Cartwright, 1979）是如何完善概率说法的，因为她的修正正是今日的核心枢纽。原因确实提高了结果发生的概率，但必须是在「因果同质」的背景下，即保持其他相关原因固定不变。忽略这个前提，你就会直接掉进统计学中最精妙的陷阱。

统计陷阱

辛普森悖论：总体与分组的结论相反

一个看似矛盾、却完全可能发生的事实是：一种疗法在小结石患者中的观测成功率更高，在大结石患者中的观测成功率也更高，但把所有患者合并后，整体成功率反而更低。下面的肾结石数据可以展示这种比例反转。

辛普森反转通常源于不同组别中子组比例不同。反转现象本身并不能告诉我们哪种比较具有因果意义，关键在于第三个变量的性质：它可能是需要控制的混杂因素（Confounder）；也可能是中介变量，此时控制它会把总体效应改成直接效应；还可能是对撞变量或选择变量，控制它反而会制造偏差；也可能只是一个受代数或非可合并性影响的描述性分组变量。应当汇总还是分层，必须由因果结构决定，不能由反转现象本身决定。

在 Charig 等人 1986 年的肾结石数据中，开放手术 A 与经皮肾镜取石术（PCNL）B 的比较是历史性的、非随机的。接受 B 的病例中，小结石患者占比高得多，因此 B 的总体成功率更高；但在小结石和大结石两个分层中，A 的观测成功率都更高。这些数据显示了病例构成和比例反转，却不能单独证明开放手术对同一批患者的因果效果更好。

下方表格把这一反转具体化：汇总数据偏向疗法 B，但在每个结石大小分层内都偏向疗法 A。在这个例子中，结石大小是合理的基线严重程度变量，因此分层比较有参考价值；在其他因果结构中，相同的调整可能回答不同问题，甚至造成偏差。

互动 · 观察反转

反转机器

基于 1986 年肾结石真实数据，每种疗法样本量为 350。病例位置保持不变；切换按钮只改变围绕这些病例的比较框。

疗法 A — 开放手术疗法 B — 经皮肾镜取石术（PCNL）有效无效

肾结石辛普森反转

当所有患者汇总时，疗法 B 观测成功率更高；但在小结石和大结石分层内部，疗法 A 的观测成功率都更高。这展示了比例反转，而非疗法优劣的直接因果推荐。

视图	疗法 A	疗法 B	更高观测率
所有患者	273 / 350 = 78.0%	289 / 350 = 82.6%	B
小结石	81 / 87 = 93.1%	234 / 270 = 86.7%	A
大结石	192 / 263 = 73.0%	55 / 80 = 68.8%	A

总体比较之所以反转，是因为两种治疗组中小结石与大结石病例的比例不同。

教训很明确：单凭数据表不能读出因果关系。同一组数字，若按照一个甚至未记录在表格中的变量分组，可能支持相反的结论。若数据本身不能决定答案，还需要什么？答案是一个说明「箭头指向何处」的因果模型，或者一组能够替代模型的研究设计。

因果推断

珀尔的因果之梯，以及一个关键动词

朱迪亚·珀尔（Judea Pearl）因在概率推理和因果推理演算方面的基础性贡献，获得 2011 年图灵奖。他在《为什么》（The Book of Why, 2018）中推广了因果之梯（Ladder of Causation）这一概念：关联、干预和反事实依次要求更强的推理能力与假设。不同因果推断传统的表述不完全相同，但这一层级区分很有帮助。

下面按这三个层级展开：

互动 · 攀爬因果之梯

因果性的三个阶梯

点击阶梯。每一层都增加了一个动词、一个记号以及一个下一层「无法」回答的问题。从第 1 层到第 2 层的跨越，正是今天我们要探讨的全部内容。

珀尔的因果之梯

层级	动词	记号	问题
1. 关联	观察	$P (Y ∣ X)$	在观测到 X 的案例中，结果有何不同？
2. 干预	行动	$P (Y ∣ do (X))$	如果通过干预设定了 X，会发生什么？
3. 反事实	想象	$P (Y_{x} ∣ X^{'}, Y^{'})$	在已知现实结果的前提下，若过去的操作有所不同，平行世界的结果会如何？

在最后一行的记号中， $Y_{x}$ 代表在 X 被干预设定为 x 的平行世界里 Y 的潜在值； $X^{'}$ 与 $Y^{'}$ 是我们已经观测到的现实事实。

do-算子：观察不等于干预

这是整个现代因果领域的概念枢纽，值得仔细体味。对于变量 X，你可以进行两种截然不同的操作。

你可以对它进行条件化（Conditioning）——记作 $P (Y ∣ X = x)$ 。这代表：在所有 X 「恰好」等于 x 的既定案例中，Y 的分布如何？你只是在筛选现有的数据池。这就是「观察」（Seeing）。

或者你可以进行干预——在珀尔的记号中写为 $P (Y ∣ do (X = x))$ 。这意味着：考虑一种在目标人群中把 X 设为 x 的制度，将 X 与其通常的原因切断，然后观察 Y。这就是「干预」（Doing）。在理想随机试验中，随机化处理分配被设计用来近似这种切断操作。

二者在数值上可能重合，但相等需要特定的实验设计或因果假设；仅凭数据上的接近不能推出二者等价。 $P (Y ∣ X = x)$ 描述的是在观测到 X 等于 x 的情况下结果 Y 的分布； $P (Y ∣ do (X = x))$ 则描述了一个假想制度下将 X 设为 x 时 Y 的分布。下方案例通过一个显式的结构模型计算这两个量，使它们的区别清晰可见。

潜在结果的视角

现代因果推断的另一套主要语言是从个体（Unit）层面来描述相同想法。对于个体 $i$ ，潜在结果（Potential Outcomes）写为 $Y_{i} (1)$ 和 $Y_{i} (0)$ ：分别代表接受处理和未接受处理时的结果。一个常见的估计目标（Causal Estimand）是在指定目标人群和时间范围内的平均处理效应，即 $A T E = E [Y (1) - Y (0)]$ 。然而，这里存在「因果推断根本问题」：对于任何一个个体，我们只能观测到这两个潜在结果之中的一个，另一个则是反事实的。

实验设计与假设能将上述估计目标与观测数据连接起来。一致性（Consistency）将观测结果与在实际接受的处理水平下的潜在结果联系起来。可交换性（Exchangeability）指被比较的组别在潜在结果上是可比的。正值性（Positivity）（又称重叠性）指每一个协变量分组都有非零概率接受各个处理水平。无干扰（No Interference）意味着一个个体受到的处理不会影响其他个体的结果（除非显式对这种溢出效应建模）。

一条可靠的因果分析流程是：明确定义分析对象（个体）、暴露（Exposure）、结果、时间顺序与具体干预措施；定义估计目标；列出因果假设；判断该估计目标在图或模型中是否可识别；进行统计估计；最后评估不确定性、测量误差、失访偏倚、选择偏差、重叠度以及对假设违背的敏感性分析。

互动 · 观察与干预

do-算子作为一个具体演算

一个玩具结构模型：下雨会增加带伞的可能性和衣服淋湿的可能性；而带伞本身能减少被淋湿的概率。滑动条设定的是 logistic 系数强度，而不是风险差。下方的所有数值均从这一设定模型中计算得出。

下雨→带伞系数强度 b=+2.80

带伞→淋湿系数 d=−1.49

第 1 层 · 观察

$P (wet ∣ umbrella) - P (wet ∣ no umbrella)$

+0.23观测风险差

第 2 层 · 干预

$P (wet ∣ do (umbrella)) - P (wet ∣ do (no umbrella))$

−0.16干预风险差

观察表	淋湿	干爽	淋湿概率
带伞	189	187	50.2%
不带伞	170	454	27.2%

模型参数	默认值
$P (S = 1)$	0.45
`a`	−2.00
`b`	4 × 滑块 = +2.80
`c`	−2.20
`d`	−3.3 × 滑块 = −1.49
`e`	+4.10

符号反转

观察上看，带伞者似乎更容易淋湿；干预上看，给人一把伞会降低淋湿概率。雨改变了两组人的构成。

模型公式为： $S \sim Bernoulli (0.45)$ ; $P (X = 1 ∣ S = s) = logit^{- 1} (a + b s)$ ; $P (Y = 1 ∣ X = x, S = s) = logit^{- 1} (c + d x + es)$ 。此处 S 代表下雨，X 代表带伞，Y 代表衣服湿；固定默认值为 a=-2.0、c=-2.2、e=4.1。

案例详解

观察不等于干预

在这个玩具结构模型中，下雨会让带伞和衣服湿的现象都变得更加常见。带伞本身确实能减少淋湿，但在观测数据中，带伞的人衣服反而更湿，因为他们绝大多数都站在雨中。

数量	提问含义	默认读数
$P (wet ∣ umbrella) - P (wet ∣ no umbrella)$	观察：比较现有的带伞者与不带伞者。	+0.23 观测风险差
$P (wet ∣ do (umbrella)) - P (wet ∣ do (no umbrella))$	干预：直接设定带伞行为，切断其通常原因。	−0.16 干预风险差
后门调整对照量	利用总体的下雨概率加权平均特定下雨状态下的带伞效应。	−0.16，与该模型下的干预对照量一致。

默认参数： $P (S = 1) = 0.45$ 、 $a = - 2.0$ 、 $b = + 2.8$ 、 $c = - 2.2$ 、 $d = - 1.485$ 、 $e = + 4.1$ 。公式： $P (Y = 1 ∣ do (X = x)) = \sum_{s} P (Y = 1 ∣ X = x, S = s) P (S = s)$ 。而观测对照量则使用了 $P (S = s ∣ X = x)$ ，当雨水影响带伞行为时，这一项就会发生改变。

右图中被切断的箭头直观展示了 do-算子。干预不是观察 X，而是把 X 直接设定为某个值，并切断原本指向 X 的原因。于是「下雨 → 带伞」的关系被移除，原来「带伞 ← 下雨 → 湿衣」的观测路径不再造成混杂。在这张有向图中，经过后门调整的比较量就可以恢复干预效应。

珀尔为这类操作提供了一套形式语法。本课使用的递归或无环结构因果模型（Structural Causal Models，简称 SCM）用有向无环图（Directed Acyclic Graphs，简称 DAG）表示。现实中也有有环和动态模型。在 DAG 中，叉形结构（Fork，X ← Z → Y）可能代表混杂；链形结构（Chain，X → Z → Y）通常代表中介；对撞结构（Collider，X → Z ← Y）则会带来选择偏差。两个箭头汇入同一节点的路径默认关闭，但如果对撞节点或其后代进行条件化，路径可能被打开并产生关联。因此，控制所有测量变量并不一定能减少偏差，反而可能引入偏差。

叉形 / 混杂夏季同时改变暴露与结果。比较前先对夏季取条件。

链形 / 中介焦油承载吸烟的部分效应。对焦油取条件会改变问题。

对撞结构能力与运气在录取处相遇。对录取取条件会诱发非因果关联。

前门准则

珀尔的前门准则（Front-Door Criterion）说明，在暴露与结果之间存在未观测混杂时，有时仍可通过测量中介识别总体因果效应。「吸烟 → 焦油 → 癌症」是教科书式的简化示意图（Stylized Graph），不是对真实生物系统的完整描述。标准前门准则要求：中介截获处理到结果的所有有向路径；处理到中介之间没有未阻断的后门路径；处理能够阻断中介到结果的所有后门路径。此外，还需要明确定义的干预、一致性、足够的数据，以及对测量和选择偏差的控制。

当这些条件满足时，因果效应的计算分为三步：估计处理如何改变中介因子；估计中介因子在考虑处理变量的情况下如何改变结果；最后在观测的处理分布上对这些部分进行加权平均。

P (y ∣ do (x)) = m \sum P (m ∣ x) x^{'} \sum P (y ∣ m, x^{'}) P (x^{'})

它是在给定因果图和假设下，用观测数据识别干预分布的方法；前提是图结构确实满足上述条件。

前沿 · 2026

三个研究方向，以及证据校准

现在讨论一个产生了大量研究的问题：能否仅凭观测数据推断因果？较准确的回答是：在某些条件下可以，但存在已被定理说明的限制。下方各项主张都标注了证据状态。证据覆盖至 2024 年；页面编辑审阅于 2026 年 6 月。

前沿 01do-演算马尔可夫天花板

两个界定因果推断范围的定理

这是本日最稳固的部分：它们不是可能被新数据推翻的经验发现，而是数学定理。首先，do-演算在规定的范围内具有完备性：给定非参数因果图及可用的观测分布，它能判断某个干预分布是否可以被识别；如果在这些信息下识别失败，就不存在另一种只使用同样观测信息的操作能够完成识别。额外实验、纵向数据、参数约束、有效代理变量或更强的函数假设会提供新信息，因此可能改变结论。

后门公式的推导过程

对于一个简单的后门图，其中 Z 阻断了从 X 到 Y 的所有后门路径，且 Z 中的任何元素都不是由 X 引起的：

P (y ∣ do (x)) = z \sum P (y ∣ do (x), z) P (z ∣ do (x)) = z \sum P (y ∣ x, z) P (z)

第一个等号是普通的对 Z 求和的全概率公式。第二个等号两次利用了因果图：一次是将对 X 的干预替换为在控制了充足调整集 Z 的条件后对 X 的观测，另一次则是说明对 X 的干预不会改变处理前变量 Z 的分布。因果图授权了哪些符号可以被擦除或交换。

其次是马尔可夫等价的限制（Markov-Equivalence Ceiling）。在因果马尔可夫假设、忠实性假设以及对潜在变量和选择偏差的特定处理下，条件独立性可以排除某些图，却不能排除所有图。例如，X→Y→Z、X←Y←Z 和 X←Y→Z 具有相同骨架，并暗示相同的条件独立模式：给定 Y 后，X 与 Z 独立。它们属于同一个马尔可夫等价类（Markov Equivalence Class）。X→Y←Z 是不同的对撞结构，因为控制 Y 会打开路径。结论是：仅凭观测独立性，在没有额外假设时不能确定唯一因果图，只能得到一个候选图类。这两项结果都是已确立的定理。

前沿 02方向识别RCT 基准

在额外假设下识别因果方向

限制并不意味着完全没有办法。引入条件独立性检验没有使用的额外假设后，有些方向可以被识别。LiNGAM（Shimizu 等，JMLR，2006）表明，在关系线性、无环、没有隐性混杂，且扰动独立并服从非高斯分布时，可以识别因果方向。加性噪声模型（Additive-Noise Models）把这种思路扩展到非线性关系。Tübingen 因果对基准测试中，Causal Mosaic 报告过约 83% 的非加权准确率（Wu & Fukumizu 2020）。但这些方法都依赖非高斯性、可加性、独立性等假设；其中部分推论可用数据检验，却不能仅凭有限观测完全确立。依赖假设

当干预可以分配时，随机分配仍是内部有效性的基准。随机对照试验（Randomized Controlled Trial，简称 RCT）使处理分配与处理前原因独立，最多只留下随机不平衡。在依从性、无干扰、治疗定义、随访和分析都满足要求时，分配与实际接受的处理足够接近，可以直接估计干预效应；如果存在不依从，清晰可识别的量可能是分配效应（意向性治疗效应），而实际处理效应需要额外假设。当随机化不可行时，经济学的可信度革命（Credibility Revolution）转而寻找近似随机分配的研究设计，如工具变量、断点回归和政策变化。该研究方向促成了卡德、安格里斯特和因本斯获得 2021 年诺贝尔经济学奖。可信度革命

前沿 03因果表征LLM 因果

机器能否学习因果？

这是最活跃、也最不确定的方向之一。因果表征学习（Causal Representation Learning）（Schölkopf 等，2021 年《IEEE 会报》）提出的问题是：传统因果发现假定变量已经给定，但现实输入往往只是像素、文本或传感器信号。神经网络能否从这些原始数据中学习高层因果变量，并因此更好地应对分布偏移（Distribution Shift）？这是严肃的研究方向，但其主要承诺尚未在大规模应用中得到充分验证。

大型语言模型能否进行因果推理仍更具争议。Kıcıman、Ness、Sharma 和 Tan（TMLR 2024）报告 GPT-4 在使用文本变量描述的 Tübingen 双变量因果方向任务上达到 97% 准确率，并在反事实评分中表现较强；但这不是数值观测数据上的完整因果推断。同期批评认为，大模型可能只是复述训练材料中的因果事实，而没有执行珀尔式的干预推理。模型表现高度依赖任务：它们能检索已知因果关系，却可能无法在去除语言和世界知识线索、要求组合并迁移因果机制时保持表现。一个输出正确因果主张的 LLM，若其输出理由与真实因果结构无关，是否算「知道」？目前稳妥的结论是：通用因果推理器模型可辅助因果分析，但尚未确立为通用因果推理器。DoWhy 和 EconML 是实际可用的工具，关于因果 AI 很快取代相关性机器学习的说法则明显超前于证据。EconML 强调正交机器学习方法。

未决问题

仍无定论

是否存在一种「正确」的因果理论？或者反事实、概率性、INUS、机制性和干预主义解释路径各抓住了不同的侧面，且都无法完全还原为其他论述？没有任何单一理论被普遍认为能解决所有主要类型的反例，包括早期和晚期预截、过度决定、遗漏和预防。
我们在多大程度上可以信任忠实性假设？即假设现实系统永远不会产生因果路径之间精确抵消的现象。这种假设很方便，一些推论可以对照数据检验，但忠实性无法完全从有限的观测样本中确立——反馈、调节与内稳态会让它在某些生物系统中变得可疑。
因果变量能否从原始数据（像素、语言）中自动学习，而不必由人工事先指定？这本身是不是一个定义良好的问题？毕竟，把世界划分成变量的「正确」方式，可能就取决于观察的视角。
大型模型是否构建了内部因果世界模型，还是仅仅建立了因果言论的统计模型？这一问题的答案直接关系到第 138–145 日，以及「预测是否等同于理解」的问题。
箭头从何而来？这里的每种方法都需要「某种」因果输入——一张因果图、一个假设或一个实验。休谟之问依然悬而未决：这些输入究竟是从世界中读出的，还是我们强加给世界的？

一日三句

核心观点: 因果效应是特定干预下结果的差异。观测数量与干预数量有时相等，但不能仅凭观测数据假定二者相等；必须依赖随机分配、因果图、潜在结果模型或其他可辩护的识别设计。
最佳类比: 冰淇淋与溺水人数共同受夏季影响，因此相关性不等于因果性。do-算子通过直接设定处理变量，区分观察与干预。
仍在争论: 仅凭观测数据能否确定因果方向；标准假设通常只能得到马尔可夫等价类，更强假设有时可以恢复方向。大模型究竟在进行通用因果推理，还是主要检索因果表述，也尚无定论。

今日线索 › 信息（因果图是数据本身所缺乏的额外信息；do-算子区分了证据与干预）· 计算（可识别性作为一个算法问题；因果发现作为一种在假设下的搜索）· 涌现（因果结构是原始相关性之上的更高层级）——并回溯至第 1 日（凭运气正确）、第 2 日（休谟）、第 3 日（溯因）以及第 4 日（ $P (y ∣ x)$ ），随后进入统计学与避免自欺的艺术。

明日 → 第 6 日

统计学与避免自欺的艺术

因果推断告诉我们哪些比较值得信任。明天把显微镜对准数字本身：p 值究竟说明什么、又不说明什么；置信区间与效应量如何解读；以及每一篇论文背后，都藏着怎样一个「分析的多元宇宙」。

来源

来源与延伸阅读

Hume, D. (1739–40). A Treatise of Human Nature, Book I, Part III; and (1748) An Enquiry Concerning Human Understanding, §VII. — 恒常结合；无可见的必然联系。
Mackie, J. L. (1974/1980). The Cement of the Universe: A Study of Causation. Oxford University Press. doi:10.1093/0198246420.001.0001。 doi.org/10.1093/0198246420.001.0001 — INUS 条件；书名短语。
Lewis, D. (1973). “Causation.” Journal of Philosophy 70(17): 556–567. doi:10.2307/2025310. doi.org/10.2307/2025310 另见 Lewis, Counterfactuals (Blackwell, 1973)；修订后的 “influence” 论述 (2000)。
Reichenbach, H. (1956). The Direction of Time. University of California Press. — 共同原因原理与屏蔽。
Suppes, P. (1970). A Probabilistic Theory of Causality. North-Holland. — 表面原因与虚假原因。
Cartwright, N. (1979). “Causal Laws and Effective Strategies.” Noûs 13(4): 419–437. doi:10.2307/2215337. doi.org/10.2307/2215337 — 仅在因果同质背景下的概率提升。概览
Woodward, J. (2003). Making Things Happen: A Theory of Causal Explanation. Oxford University Press. doi:10.1093/0195155270.001.0001. doi.org/10.1093/0195155270.001.0001 — 干预主义/操控主义理论。
Charig, C. R., Webb, D. R., Payne, S. R. & Wickham, J. E. A. (1986). “Comparison of treatment of renal calculi by open surgery, percutaneous nephrolithotomy, and extracorporeal shockwave lithotripsy.” British Medical Journal 292: 879–882. doi:10.1136/bmj.292.6524.879. doi.org/10.1136/bmj.292.6524.879 — 肾结石数据；观测与历史对比，而非治疗优势的随机化证据。
Simpson, E. H. (1951). “The Interpretation of Interaction in Contingency Tables.” JRSS B 13: 238–241. doi:10.1111/j.2517-6161.1951.tb00088.x. doi.org/10.1111/j.2517-6161.1951.tb00088.x Blyth, C. R. (1972), JASA 67: 364–366, doi:10.1080/01621459.1972.10482387（提出 “Simpson’s paradox” 一词）。doi.org/10.1080/01621459.1972.10482387 Yule, G. U. (1903) 关于虚假相关，doi:10.1093/biomet/2.2.121. doi.org/10.1093/biomet/2.2.121
Pearl, J. (2009). Causality: Models, Reasoning, and Inference, 2nd ed. Cambridge University Press. doi:10.1017/CBO9780511803161. doi.org/10.1017/CBO9780511803161 以及 Pearl, J. & Mackenzie, D. (2018). The Book of Why. Basic Books. — 因果之梯；do-演算；后门/前门。
Holland, P. W. (1986). “Statistics and Causal Inference.” JASA 81(396): 945–960. doi:10.1080/01621459.1986.10478354; 潜在结果与因果推断的基本问题。 doi.org/10.1080/01621459.1986.10478354 Rubin, D. B. (1974). “Estimating causal effects of treatments in randomized and nonrandomized studies.” Journal of Educational Psychology 66(5): 688–701. doi:10.1037/h0037350. doi.org/10.1037/h0037350
Imbens, G. W. & Rubin, D. B. (2015). Causal Inference for Statistics, Social, and Biomedical Sciences. Cambridge University Press. doi:10.1017/CBO9781139025751. doi.org/10.1017/CBO9781139025751 Hernán, M. A. & Robins, J. M. (2020). Causal Inference: What If. Chapman & Hall/CRC. 维护版 — 维护版于 2026 年 6 月查阅；估计目标、一致性、可交换性、正值性、干扰、前门/后门。
Shpitser, I. & Pearl, J. (2006). “Identification of Joint Interventional Distributions in Recursive Semi-Markovian Causal Models.” AAAI. AAAI PDF & Huang, Y. & Valtorta, M. (2006). “Pearl’s Calculus of Intervention Is Complete.” UAI. arXiv — 在所陈述的识别问题内 do-演算的完备性。
ACM (2012). 2011 A.M. Turing Award — Judea Pearl. amturing.acm.org/award_winners/pearl
Spirtes, P., Glymour, C. & Scheines, R. (2000). Causation, Prediction, and Search, 2nd ed. MIT Press. doi:10.7551/mitpress/1754.001.0001. doi.org/10.7551/mitpress/1754.001.0001 — PC 与 FCI 算法；马尔可夫等价。
Shimizu, S., Hoyer, P. O., Hyvärinen, A. & Kerminen, A. (2006). “A Linear Non-Gaussian Acyclic Model for Causal Discovery.” JMLR 7: 2003–2030. JMLR — LiNGAM；线性、无环、无隐性混杂、相互独立的非高斯扰动项。
Hoyer, P., Janzing, D., Mooij, J., Peters, J. & Schölkopf, B. (2008/2009). “Nonlinear causal discovery with additive noise models.” Advances in Neural Information Processing Systems 21. Mooij, J. et al. (2016). “Distinguishing Cause from Effect Using Observational Data.” JMLR 17(32): 1–102. Wu, P. & Fukumizu, K. (2020). “Causal Mosaic: Cause-Effect Inference via Nonlinear ICA and Ensemble Method.” Proceedings of Machine Learning Research 108: 1157–1167. PMLR — 加性噪声模型、Tübingen 成对基准与 Mosaic 报告的专家标记成对任务结果。
Schölkopf, B., Locatello, F., Bauer, S., Ke, N. R., Kalchbrenner, N., Goyal, A. & Bengio, Y. (2021). “Toward Causal Representation Learning.” Proceedings of the IEEE 109(5): 612–634. doi:10.1109/JPROC.2021.3058954. doi.org/10.1109/JPROC.2021.3058954
Kıcıman, E., Ness, R., Sharma, A. & Tan, C. (2024). “Causal Reasoning and Large Language Models.” TMLR. 初始 arXiv 预印本 2023 年；报告在使用文本元数据而非数值观测数据的自然语言成对因果方向任务上达到 97% 准确率。 OpenReview Zečević, M., Willig, M., Dhami, D. S. & Kersting, K. (2023). “Causal Parrots: Large Language Models May Talk Causality But Are Not Causal.” TMLR. arXiv:2308.13067. Jin, Z. et al. (2024). “Can Large Language Models Infer Causation from Correlation?” ICLR.
The Royal Swedish Academy of Sciences (2021). The Sveriges Riksbank Prize in Economic Sciences — Card, Angrist & Imbens. nobelprize.org/prizes/economic-sciences/2021
Stanford Encyclopedia of Philosophy. “Causation.” plato.stanford.edu/entries/causation-metaphysics
Stanford Encyclopedia of Philosophy. “Counterfactual Theories of Causation.” plato.stanford.edu/entries/causation-counterfactual
Stanford Encyclopedia of Philosophy. “Causal Models.” plato.stanford.edu/entries/causal-models
Stanford Encyclopedia of Philosophy. “Probabilistic Causation.” plato.stanford.edu/entries/causation-probabilistic

第 005 日终 · 尚有 175 日课程