下载本日课程：EPUB PDF

模块一 · 知识与推理的根基 · 第 004 日 / 180

概率：逻辑的延伸

主持人打开一扇门。直觉说换不换都一样；但直觉有三分之二的可能是错的。

● 你选了 1 号门 · 主持人打开 3 号门 · 该换到 2 号门吗？

一档 20 世纪 70 年代的电视游戏节目，意外呈现了贝叶斯推理的核心。

你选定了 1 号门。三扇门后有一辆跑车，另外两扇门后各有一只山羊。主持人知道奖品的位置，走到 3 号门前打开门，露出山羊，然后问：「要不要换到 2 号门？」现在只剩两扇关着的门和一辆汽车。直觉似乎告诉你，概率已经变成一半对一半，换不换只看运气。

事实并非如此，而且差别很大。坚持最初选择，获胜概率只有三分之一；改选另一扇门，概率则为三分之二。只需改变选择，获胜机会就增加一倍。这就是著名的蒙提霍尔问题（Monty Hall problem）。1990 年，它在杂志专栏中引发了广泛讨论和大量误判。这个反直觉的答案为什么对？它揭示的原则，又如何成为一切不确定推理的根基？

当前位置

在第 1 日中，我们认识了置信度（Credence），即用 0 到 1 的数值表示信念强度，也看到了荷兰赌论证：置信度若彼此不一致，就可能使人接受一组必然亏损的赌约。今天讨论证据到来时置信度应如何更新，核心规则是贝叶斯定理（Bayes’ theorem）。第 2 日讨论了科学如何区分信号与噪声，复现危机则显示这种区分有多困难。今天还会介绍一种以「下注」替代 p 值的统计方法。贯穿本日的线索是：信息（证据如何改变信念）、计算（心智与实验都可以执行推理），以及「贝叶斯大脑」所涉及的能量。

直觉失效

许多聪明人同时误判

1990 年 9 月，玛丽莲·沃斯·莎凡特——曾被《吉尼斯世界纪录》列为最高 IQ 纪录保持者，在《Parade》杂志主持「问玛丽莲」专栏——回答了一道关于电视游戏节目的问题。她写道，换门的获胜概率是三分之二。答案是对的，但随之而来的是大量来信反驳。

1974 年宣传照中，蒙提·霍尔、卡罗尔·梅里尔、杰伊·斯图尔特和参赛者站在《Let's Make a Deal》舞台上。 — 蒙提·霍尔的节目现场说明，这个谜题并非文字游戏：主持人知道奖品位置，并不是随机开门；他的行动本身就是信息。

据她统计，来信将近一万封，大多认为她错了，其中约一千封来自博士。数学家也写信批评她，一位教授留下了后来广为流传的评价：

「你搞砸了，而且搞砸得一塌糊涂！……这个国家的数学文盲已经够多了，不需要全世界 IQ 最高的人再来添乱。丢人！」 ——斯科特·史密斯博士，佛罗里达大学，1990 年致《Parade》杂志信

错误的恰恰是这位教授。严格按概率计算，他的大多数同行也得出了同样的结论。莎凡特在随后三篇专栏中继续解释，并请全美教师带领学生用纸杯和硬币进行实验。实验结果支持她的判断：换门的胜率是不换的两倍。批评者最终才陆续承认错误。

直到看见模拟结果才相信

就连保罗·埃尔德什——史上最高产的数学家之一——也拒绝接受这个答案。朋友安德鲁·瓦兹森尼解释了其中的逻辑，他仍不相信。直到对方运行计算机模拟，重复数百轮并显示换门约有三分之二的胜率，埃尔德什才接受结果。即便如此，他仍不满意：模拟证明了「确实如此」，却没有解释「为什么如此」。（见保罗·霍夫曼《只爱数字的人》，1998。）

这场争论的结论很清楚：蒙提霍尔问题不是文字游戏，而是可以证明、可以模拟的概率结果。人类直觉在不确定条件下存在系统性偏差——要校正它，就需要形式化工具。

交互 · 亲自玩一次

蒙提霍尔机器

选择一扇门。主持人会打开另一扇门——永远是山羊，永远不是你选的门，也永远不是跑车。然后点击原来的门表示坚持，或点击另一扇关着的门表示换门。先手动玩几次，再点击自动运行 1,000 次，观察两种策略如何拉开距离。计数不会说谎。

坚持保留第一次选择1/3

换门接住未选的组合2/3

步骤 1先选门

选一扇门开始。

如果每次都坚持

0 / 0

— 胜率

如果每次都换门

0 / 0

— 胜率

大规模实验（教师实验法的自动化版本）

蒙提霍尔结果表

在标准规则下，只要第一次选错了，换门就赢。

初次选择	主持人动作	坚持	换门
跑车，概率 1/3	打开任意一扇山羊门	赢	输
山羊，概率 2/3	被迫打开另一扇山羊门	输	赢

因此，坚持原选的概率仍是 1/3；换门则获得「第一次选错」所对应的 2/3 概率。

原理

主持人的行动带来了信息

先记住一点：第一次选中汽车的概率只有三分之一，而且不会因主持人随后开门而改变。你选择 1 号门时，汽车在该门后的概率是 1/3，在另外两扇门后的总概率是 2/3。主持人随后打开一扇有山羊的门；关键在于，他知道汽车在哪里，并且必须打开有山羊的门。因此，原本分布在两扇门上的 2/3 概率，集中到他没有打开的那一扇门上。

主持人的行动不是噪声，而是信息，也是本书五条线索之一首次以数量形式出现。第 1 日的停摆之钟说明，偶然说对不等于知道；在这里，知情主持人在规则约束下的选择构成证据，并改变置信度。换门等于选择 2/3，坚持则只保留最初的 1/3。

如果直觉仍不接受，可以把问题扩大到一千扇门。你随便选一扇，选中汽车的概率只有千分之一。知情的主持人打开另外 998 扇有山羊的门，只留下你的门和另一扇门。此时你还会认为两扇门各有一半机会吗？汽车几乎肯定在主持人没有打开的门后。三扇门只是同一逻辑的较小版本。

问题早于电视节目

这个问题并非始于蒙提霍尔。统计学家史蒂夫·塞尔文在 1975 年给《The American Statistician》的信中提出了同一结构，他的后续回应也是「蒙提霍尔问题」这一名称首次印刷出现的地方。更早的类似问题包括伯特兰箱子悖论（约瑟夫·伯特兰，1889）和马丁·加德纳的三囚犯问题（1959）。数学家把这类答案称为真实悖论（veridical paradox）：直觉觉得荒谬，但结果可以严格证明。不同传统反复发现同一结构，也说明它触及了人类概率判断的稳定弱点。

模型

贝叶斯定理：信念的更新规则

刚才对门的分析有一个名称和公式。公式看似抽象，含义却很直接：证据出现后，贝叶斯定理重新分配各个仍然可能假设的概率。

贝叶斯像一只筛子证据

E

=「主持人打开了 3 号门」。各假设先按先验概率获得权重；随后，越能预测这一证据的假设，更新后的概率越高。

P (H ∣ E) = \frac{P ( H ) P ( E ∣ H )}{P ( E )}

$H$ 本行的藏车位置假设	$P (H)$ 本行假设为真的先验概率	$P (E ∣ H)$ 若本行假设为真，主持人打开 3 号门的概率	$P (H) P (E ∣ H)$ 本行留下的权重	$P (E)$ 主持人打开 3 号门的总体概率	$P (H ∣ E)$ 开 3 号门后，本行假设为真的概率
$H :$ 车在你选的 1 号门后	$1/3$	$1/2$	$1/6$ 仍可能，但证据只支持一半	$1/2$	$1/3$
$H :$ 车在 2 号门后	$1/3$	$1$	$1/3$ 最强幸存者：这个揭示是被迫的	$1/2$	$2/3$
$H :$ 车在 3 号门后	$1/3$	$0$	$0$ 被排除：主持人不能打开藏车的门	$1/2$	$0$

$P (E)$ 是所有假设产生该证据的总概率： $1/6 + 1/3 + 0 = 1/2$ 。将各假设的联合概率除以 $1/2$ 后，未打开的 2 号门得到 $2/3$ 的后验概率。

P (H ∣ E) = \frac{P ( H ) P ( E ∣ H )}{P ( E )}

后验（看到证据后的置信度）= 先验（之前的置信度）× 似然（ $H$ 预测 $E$ 的能力），再用证据总量归一化

用一句话说：看到证据 $E$ 后，你对假设 $H$ 的后验置信度，等于先验置信度乘以似然——即 $H$ 对证据 $E$ 的预测能力——再除以证据出现的总概率。强证据是某个假设能够预期、而竞争假设无法预期的观察。贝叶斯更新的核心就是这一计算。

回到蒙提霍尔。令 $H$ =「汽车在 2 号门后」， $E$ =「主持人打开 3 号门」。若汽车在 2 号门后，主持人只能打开 3 号门，因此似然为 $1$ ；若汽车在你选的 1 号门后，主持人可以打开 2 号或 3 号门，所以打开 3 号门的似然只有 $1/2$ 。正是这种似然差异，使 2 号门的后验概率达到 $2/3$ 。公式只是完成了直觉不擅长的计算。

医生也会犯的概率错误

贝叶斯定理不只适用于游戏节目，也能解释一项著名研究中多数医生犯下的判断错误。

试试这个医学检测案例，观察基础率如何扭转直觉；同样的算术也支配垃圾邮件过滤和机场安检。

表格用医学检测案例说明：检测准确度之外，患病率同样决定结果。相同的算术也适用于垃圾邮件过滤和机场安检。

交互 · 基础概率陷阱

一种罕见病的 99% 灵敏度检测

某种病只影响人口中的极少数。检测非常优秀。你测出阳性。「你真的患病的概率有多大？」拖动滑块，看着 1000 人的方格自动归入四类。答案几乎总是远低于人们的直觉。

疾病患病率（基础概率） 0.1%

检测灵敏度——真患者能否被检出 99%

假阳性率——健康人被误报 5%

$P (患病 ∣ 阳性)$

1.9%

真阳性（患病，+）假阳性（健康，+）检测阴性

1978 年，Casscells、Schoenberger 与 Graboys 在《新英格兰医学杂志》发表的研究把本质相同的问题交给了 60 位哈佛医学院的师生。最常见的答案是 95%。正确答案约 2%。60 人中只有 11 人答对。罪魁祸首是混淆了 $P (阳性 ∣ 患病)$ 与 $P (患病 ∣ 阳性)$ ——再加上一个事实：当疾病本身很罕见时，寥寥几个真阳性会被假阳性的汪洋淹没。

基础概率陷阱

默认假设：患病率 0.1%，灵敏度 99%，假阳性率 5%。

组别	每 1000 人	阳性数
患病者	1	约 1 个真阳性
健康者	999	约 50 个假阳性
全部阳性	约 51	其中只有约 1 人真的患病

因此后验概率约为 $0.99/50.94$ ，即 $1.9%$ 。这就是 Casscells 研究中的结果，只是这里把灵敏度也明确列出。

理论含义

为什么说概率是逻辑的延伸

普通演绎逻辑——例如第 3 日的三段论——具有确定性：凡人皆有死，苏格拉底是人，所以苏格拉底会死。现实却几乎从不提供确定前提，因此我们需要一种能够处理概率介于 0 和 1 之间的推理。一个令人意外的结论是，在满足一定条件时，这套推理就是概率演算。

物理学家 R. T. 考克斯在 1946 年把这个想法表述为定理。假设你希望用数值表示「在给定前提下，这件事有多可信」，并坚持几项直观要求：置信度可以用实数表示；同一件事通过等价的正确方法计算时结果一致；「非 $A$ 」的置信度只取决于「 $A$ 」的置信度。考克斯证明，仅凭这些基本要求，经过适当重新标度后，否定必须遵循 $1 - P (A)$ ，合取必须遵循乘法规则，面对证据 $E$ 必须进行条件化。换言之，满足这些条件的一致性信念系统可以表示为概率论。

E. T. 杰恩斯的《概率论：科学的逻辑》（2003）建立在这一思想上。他认为，演绎逻辑只是概率论的特例，即所有概率都恰好为 0 或 1 的情况。概率把逻辑推广到不确定领域，也就是推广到现实世界。第 1 日的荷兰赌论证从避免必然损失出发，决策论则会从避免被支配的选择抵达同一套规则。不同论证指向了同一种一致的推理演算。

一个必要的限定

考克斯的原始证明并不完全严密。1999 年，计算机科学家约瑟夫·哈尔彭指出，还需要增加一项技术假设，该假设在某些有限情形下可能失效；后来的工作修补了这一问题。因此更准确的表述不是「概率是处理不确定性的唯一逻辑」，而是「在合理的附加条件下，一致的分级信念可以表示为概率」。考克斯定理

解释之争

同一套方程，不同的解释

概率理论的方程本身少有争议，分歧在于「这些数字意味着什么」。频率派和贝叶斯派都使用安德烈·柯尔莫戈洛夫 1933 年提出的公理；公理只规定概率应如何运作，并不回答概率究竟是什么。两种解释在同一形式框架上给出了不同的含义。

频率派

概率 = 长期频率

概率是事件在无限次重复中出现的频率。「硬币公平」意味着抛掷无穷多次，正面比例趋近一半。
参数是固定但未知的常数；数据才是随机的。你关心的是：你的方法有多大可能误导你。
工具：p 值、置信区间、第一/第二类错误（费希尔；奈曼与皮尔逊，1920–30 年代）。
说不出「火星上曾有生命的概率是 70%」——火星要么有过生命，要么没有，不存在可重复的样本可供计数。

贝叶斯派

概率 = 置信度

概率是一种置信度——你在已知条件下理性地有多确信（直接来自第 1 日的那只旋钮）。
参数自身也获得概率分布；你随数据不断用贝叶斯定理更新它们。
工具：先验、后验、贝叶斯因子。谱系：拉普拉斯 → 杰弗里斯 → 拉姆齐 → 德·菲内蒂 → 萨维奇。
可以理直气壮地说「火星上曾有生命的概率是 70%」——一次性事件无法重复，但置信度恰好为此而生。

频率派在 20 世纪占据主导地位，原因一方面是对客观性的追求：它的创立者不信任贝叶斯先验，认为先验会把主观判断悄悄带入分析；另一方面是计算条件，贝叶斯方法在当时需要大量计算，而廉价计算机尚未普及。贝叶斯派至今面对的核心问题仍是先验从何而来。客观贝叶斯派（杰弗里斯、杰恩斯）试图规定「无信息先验」；主观贝叶斯派则承认，任何推理都必须从某种起点开始。

「概率并不存在」

意大利统计学家布鲁诺·德·菲内蒂在专著开头写下「PROBABILITY DOES NOT EXIST」（概率并不存在）。他的意思是，世界上不存在像质量或电荷那样独立存在的概率，只有理性主体对结果保持的一致置信度，以及由此形成的公平赌约。1937 年的表示定理说明，如果一系列观测具有可交换性，即顺序对判断无关紧要，那么在数学上可以把这种判断表示为对某个固定但未知频率的先验分布。主观信念与看似客观的参数可以用同一套数学结构描述。

这里还有一条实用原则：克伦威尔法则（丹尼斯·林德利以克伦威尔 1650 年的恳求命名：「请在心里承认，你也可能错。」）。不要把先验精确设为 0 或 1，因为贝叶斯更新无法改变绝对的先验。即使「太阳绕着地球转」这样的命题看起来荒谬，也应保留极小的可能性；否则即使宇航员带回样本，证据也无法改变你的判断。这再次回到本模块的校准主题。

前沿 · 2026

p 值之外的统计方法

一个世纪以来，频率派的 p 值一直是科学研究中最常用的检验指标：低于 $0.05$ 时，结果常被称为「显著」。但第 2 日的复现危机已经说明，「显著」并不是稳固结论。p 值的一个结构性弱点是：如果研究者在实验中途查看数据，发现 $p < 0.05$ 就停止收集，假阳性率会被抬高。这种做法称为「可选停止」（optional stopping）。新的统计框架试图从检验规则本身解决这个问题，核心不是重新解释概率，而是引入一套受约束的赌局。

前沿 01e 值数学

e 值：把假设检验表示为赌局

e 值可以理解为针对零假设的赌局回报。你用 1 美元押注零假设为假，并设计赌约使其在零假设为真时公平：零假设成立时，赌局的期望回报至多为 $1$ 。如果最终财富增长到原来的二十倍，说明零假设要么为假，要么出现了极不寻常的结果。较大的 e 值就是较强的证据； $1/ e$ 在某些用法中类似较保守的 p 值。

在硬币例子里，零假设很具体：「硬币公平， $P (正面) = 0.5$ 」。e 值是两张似然比赌票合起来的财富。一张赌票押「正面偏多」的硬币，即 $P (正面) = 0.60$ ：每出现一次正面，这张票乘以 $0.60/0.50 = 1.2$ ；每出现一次反面，则乘以 $0.40/0.50 = 0.8$ 。另一张镜像赌票押「反面偏多」，即 $P (正面) = 0.40$ ，倍率正好反过来。把起始的 1 美元平均分到两张票上，无论硬币朝哪边持续偏，都可能让财富增长。如果硬币真的公平，每张票每轮的期望倍率都是 $1$ ；这场赌局在零假设下就是公平的。在这个玩具赌局里，「赢」就是财富大到足以拒绝「硬币公平」；「输」就是财富停滞或缩水，说明你还没有赢到反对公平的证据。

这不是宽泛的比喻，而是一套严格的统计框架——「博弈论统计学」。格伦·谢弗与弗拉基米尔·沃夫克建立了其基础，阿迪亚·拉姆达斯、彼得·格伦瓦尔德、王若度等人继续发展。谢弗的《以赌注检验》于 2020 年在英国皇家统计学会宣读，2021 年发表于该会《期刊》A 辑。相比 p 值，「我押注这个假设不成立，并赢得了二十倍回报」更容易解释其证据含义。

前沿 02中途查看取代 p 值

e 值的优势：可以在任意时点检验

连续进行公平赌局时，累计财富构成数学上的鞅（martingale）。维勒不等式保证：若零假设为真，财富仅凭运气增长到极大值的概率很低。这使 e 值具有随时有效性：研究者可以持续查看数据，随时停止或继续收集，无论查看多少次，错误率控制仍然成立。更完整的安全推断框架还可以构造随时有效的置信区间。e 值也便于合并：独立 e 值可以相乘，相关 e 值可以取平均，结果仍保持有效；这比 p 值更不容易受到重复查看和多重比较的影响。

让同一串数据分别经过怕中途查看的 p 值与随时有效的 e 值，看看两种证据尺度如何给出不同保证。

表格并列怕中途查看的 p 值与随时有效的 e 值，并说明两者的保证为何不同。

这个示例的目标很窄：它只检验「这枚硬币是公平的」，并不估计硬币的精确偏差，也不可能绝对证明硬币不公平。

交互 · 赌徒的证据曲线

对「公平」硬币下注

这里要检验的命题是零假设：硬币公平， $P (heads) = 0.5$ 。滑块设置的是模拟器真正用来生成数据的 $P (heads)$ ；在真实实验里，这个值当然不会告诉检验者。设为 $0.50$ 时，零假设为真；设为 0.65 或 0.35 时，零假设为假。这个小工具只问数据是否足以强烈反对「公平」，不负责估计精确偏差。e 值策略会逐次抛掷，对「公平」下注。若财富达到 20，这场赌就「赢」到足以在 0.05 水平拒绝公平；若财富停在 1 附近或下滑，就表示这场赌还没有找到反对公平的证据。

模拟中的真实正面概率：

P (heads)

:0.50

零假设：硬币公平（

p = 0.5

)

当前财富（e 值）

1.00

1 美元平分到两张赌票

已抛掷次数

0 次正面

裁决

收集数据中…

需财富 ≥ 20

把模拟中的真实 $P (heads)$ 设为 0.50，零假设就为真：多数财富路径只会徘徊或缓缓下滑，只有极少数好运路径能爬到 20。拨到 0.65 或 0.35，数据就来自一枚有偏硬币，其中一张赌票往往会复利增长。向上冲的曲线，是下注策略赢了，也是反对公平的证据；持平或下滑的曲线，则是这场赌输了，意思是「继续收集」或「不拒绝」，不是「已经证明硬币公平」。

e 值证据记录

e 值是非负回报，其在零假设下的期望值至多为 1。

量	含义	用途
$E = 1$	对零假设没有净赢面	起点
硬币演示赌票	似然比回报：押中的一面出现时乘以 $1.2$ ，另一面出现时乘以 $0.8$	若硬币的真实 $P (正面) = 0.5$ ，则期望上公平
$E = 20$	零假设下公平赌约的二十倍回报	$0.05$ 水平的拒绝阈值，因为 $1/20 = 0.05$
滚动财富	检验鞅或 e 过程	可持续监控，同时控制第一类错误

代价是偏保守：当所有建模假设完全正确时，随时有效的证据过程可能需要比固定样本量检验更强或更持久的证据。

在科学研究中，类似方法可以用于持续更新的临床元分析。例如，零假设可以是「BCG 疫苗不能在临床上显著降低医护人员感染 COVID-19 的风险」。新的随机试验会陆续提供数据，研究者希望及时更新综合分析，又不希望每次查看结果都增加误报风险。ALL-IN 元分析框架允许逐步加入新证据，同时保持第一类错误率和区间覆盖率的保证。在一个 BCG/COVID 应用中，该分析没有发现 BCG 能在临床上显著降低感染；住院结局因事件太少，仍不足以作出结论。这与硬币示例结构相同，只是结果换成了医学终点。

前沿 03产业采纳取代口号

e 值已经应用到哪里？

需要区分数学基础与现实采纳。e 值的数学已经确立，并经过《统计学年鉴》、RSS 两辑《期刊》和《统计科学》等期刊的同行评议；拉姆达斯与王若度还将相关成果汇集为 390 页的《Foundations and Trends》专著。这一部分证据充分。e 值数学

现实中的采纳则有限得多。最清楚的应用是在科技公司的A/B 测试中，因为持续查看数据本来就是产品实验的日常。Optimizely 围绕「始终有效推断」重建了平台，Netflix 和 Adobe 也公开使用随时有效的置信序列。这是真实的生产环境应用，但在生物统计、心理学和物理学等领域，p 值仍占主导地位。

新工具也有代价。在固定样本量比较中，e 值可能需要比 p 值更极端的数据才能达到相同的拒绝阈值；这可以被理解为更严格的证据要求，而不是简单缺陷。赌局的效率还取决于下注策略，类似于贝叶斯分析需要选择先验。帕维尔、赫尔德等批评者提醒，「安全」和「始终有效」的保证同样依赖模型正确、没有发表偏倚等假设，而这些假设也可能失效。稳妥的结论是：e 值是严格、有用且有前景的补充工具补充工具，但目前远不能全面取代 p 值。

什么能真正推动局面？如果 FDA 或 EMA 这类药物监管机构批准 e 值用于确证性临床试验，或者某家顶级综合科学期刊把它写进投稿指南，「取代」的口号才有可能从宣传语变成实际制度。让我们拭目以待。

未决问题

仍无定论

概率到底是什么？是世界中的频率、心智中的置信度，还是一个公平的赔率？三个世纪过去了，诠释之争有过停火（德·菲内蒂），但从没有投降。
先验从何而来？是否存在一种有原则、客观的方式来设定你的「事前」信念，还是一切推理终究立足于一个数学无法替你辩护的选择？
基于下注的统计学真能接管吗？还是只会沦为序贯实验的专用工具，而 p 值继续统治其余领域——而且，「选你的赌注」真的比「选你的先验」更不主观吗？
大脑真的在运行贝叶斯吗？第 1 日的预测加工线索说，感知就是神经组织中的贝叶斯推断。今天为这个主张提供了规范性骨架——但「大脑近似贝叶斯」和「大脑就是贝叶斯」是两笔截然不同的赌注，我们将在第 119 日重返这个话题。
考克斯定理真的对任何理性主体都有效吗——包括人工主体——还是只对那些已经接受了它的一致性公理的主体有效？（这个问题对 AI 板块格外要紧，第 138–145 日。）

一日三句

核心观点: 概率把逻辑推广到不确定情形。贝叶斯定理规定，看到证据后，应提高能够预测该证据的假设的概率。
最佳类比: 蒙提霍尔主持人的选择不是随机信息；因为他知道奖品位置，打开山羊门后，未打开的另一扇门获得了 2/3 的概率。
仍在争论: 频率派和贝叶斯派对概率含义的分歧仍未消失。e 值的数学基础已经确立，也已在部分科技公司的 A/B 测试中应用，但尚未成为 p 值的全面替代方案。

今日线索 › 信息（主持人的揭示和 e 值都是更新信念的证据） · 计算（心智与实验室作为推理引擎） · 能量（对「贝叶斯大脑」的一次轻回调）——而校准这条暗线，从第 1 日和第 2 日一路延续至此；干预问题则通向因果性。

明日 → 第 5 日

因果性

概率告诉我们信念应如何随证据变化，但规律本身并不回答「为什么」。明天讨论干预与观测的区别、因果图，以及一条相关性要经过怎样的检验，才配得上「因为」二字。

来源

来源与延伸阅读

Selvin, S. (1975). “A Problem in Probability” (Letter to the Editor). The American Statistician 29(1): 67. doi:10.1080/00031305.1975.10479121。 doi.org/10.1080/00031305.1975.10479121 ——以及后续回应 “On the Monty Hall Problem,” 29(3): 134，doi:10.1080/00031305.1975.10477398。 doi.org/10.1080/00031305.1975.10477398 该回应为该名称首次见诸印刷。
vos Savant, M. “Ask Marilyn.” Parade (Sept 9, 1990, and follow-ups 1990–91). marilynvossavant.com/game-show-problem ——专栏、读者来信，以及约一万封信 / 约一千位博士的估计（莎凡特本人统计）。
Tierney, J. (July 21, 1991). “Behind Monty Hall’s Doors: Puzzle, Debate and Answer?” The New York Times. nytimes.com ——包括蒙提·霍尔与 Persi Diaconis 关于主持人协议附注的讨论。
Hoffman, P. (1998). The Man Who Loved Only Numbers. Hyperion. ——埃尔德什 / 瓦兹森尼模拟轶事。
Bertrand, J. (1889). Calcul des probabilités. Gauthier-Villars. ——伯特兰箱子悖论，结构上的祖先。另见 Gardner, M. (1959), “Mathematical Games,” Scientific American (Three Prisoners)。
Casscells, W., Schoenberger, A. & Graboys, T. B. (1978). “Interpretation by Physicians of Clinical Laboratory Results.” New England Journal of Medicine 299(18): 999–1001. doi:10.1056/NEJM197811022991808。 doi.org/10.1056/NEJM197811022991808 ——60 名临床医生中只有 11 人给出约 2% 的答案。
Cox, R. T. (1946). “Probability, Frequency and Reasonable Expectation.” American Journal of Physics 14(1): 1–13. doi:10.1119/1.1990764。 doi.org/10.1119/1.1990764 ——从分级可信度推出概率规则所需的条件。
Jaynes, E. T. (2003). Probability Theory: The Logic of Science. Cambridge University Press (ed. G. L. Bretthorst). doi:10.1017/CBO9780511790423。 doi.org/10.1017/CBO9780511790423 ——概率成为逻辑的扩展。
Halpern, J. Y. (1999). “A Counterexample to Theorems of Cox and Fine.” Journal of Artificial Intelligence Research 10: 67–85. doi:10.1613/jair.536。 doi.org/10.1613/jair.536 ——关于考克斯定理严谨性的附注。
Kolmogorov, A. N. (1933). Grundbegriffe der Wahrscheinlichkeitsrechnung (Foundations of the Theory of Probability). Springer. ——诠释中立的公理。
de Finetti, B. (1937 / 1974). “La prévision…”; Theory of Probability (Eng. trans.). ——“PROBABILITY DOES NOT EXIST”；表示定理。
Lindley, D. V. (1991). Making Decisions, 2nd ed. Wiley. ——克伦威尔法则（第 104 页）。
Shafer, G. (2021). “Testing by Betting: A Strategy for Statistical and Scientific Communication.” Journal of the Royal Statistical Society Series A 184(2): 407–431. doi:10.1111/rssa.12647。 doi.org/10.1111/rssa.12647 ——含发表讨论（包括沃夫克的评论，JRSS-A 184(2): 445–446）。
Vovk, V. & Wang, R. (2021). “E-values: Calibration, combination, and applications.” The Annals of Statistics 49(3): 1736–1754. doi:10.1214/20-AOS2020。 doi.org/10.1214/20-AOS2020 pdf
Grünwald, P., de Heide, R. & Koolen, W. (2024). “Safe Testing.” Journal of the Royal Statistical Society Series B 86(5): 1091–1128. doi:10.1093/jrsssb/qkae011。 doi.org/10.1093/jrsssb/qkae011 (read paper, with discussion incl. Shafer, Pawel & Held).
Ramdas, A., Grünwald, P., Vovk, V. & Shafer, G. (2023). “Game-Theoretic Statistics and Safe Anytime-Valid Inference.” Statistical Science 38(4): 576–601. doi:10.1214/23-STS894。 doi.org/10.1214/23-STS894 arXiv:2210.01948
Ramdas, A. & Wang, R. (2025; first posted 2024). “Hypothesis Testing with E-values.” Foundations and Trends in Statistics 1(1–2): 1–390. doi:10.1561/3600000002。 doi.org/10.1561/3600000002 ——综合专著。
ter Schure, J., Ly, A., Belin, L. et al. (2022). “Bacillus Calmette-Guérin vaccine to reduce COVID-19 infections and hospitalisations in healthcare workers.” Prospective ALL-IN meta-analysis preprint. Amsterdam UMC ——在持续更新的临床元分析中使用 exact e-value logrank tests 与随时有效置信区间。
Johari, R., Koomen, P., Pekelis, L. & Walsh, D. (2022). “Always Valid Inference: Continuous Monitoring of A/B Tests.” Operations Research 70(3): 1806–1821. doi:10.1287/opre.2021.2135。 doi.org/10.1287/opre.2021.2135 ——Optimizely 的部署；参见 Netflix Research 关于随时有效推断的研究，以及 Adobe Experience Platform 置信序列。
Wasserstein, R. L. & Lazar, N. A. (2016). “The ASA Statement on p-Values.” The American Statistician 70(2): 129–133. doi:10.1080/00031305.2016.1154108。 doi.org/10.1080/00031305.2016.1154108 ——以及 Amrhein, Greenland & McShane (2019), “Retire statistical significance,” Nature 567: 305–307, doi:10.1038/d41586-019-00857-9。 doi.org/10.1038/d41586-019-00857-9

第 004 日终 · 尚有 176 日课程