下载本日课程：EPUB PDF

模块一 · 知识与推理的根基 · 第 006 日 / 180

统计学与避免自欺的艺术

只要分析选择足够多，几乎任何数据集都可能出现一条通向 $p < .05$ 的路径。统计学要防止我们在不知不觉中只报告那一条。

分岔路径花园。数据只有噪声；分支一多，就很容易冒出一条看似「发现」的路径。真正的危险，是看过数据后再决定走哪条路。

2011 年，三位心理学家故意设计了一项荒诞实验。他们让 20 名本科生分别听披头士的《当我六十四岁》（When I’m Sixty-Four）或一首对照曲目，再回答包括出生日期在内的一系列问题。按常规方式分析，听前一首歌的学生似乎「年轻」了约一年半， $p = .04$ 。这不是主观感受，而是按出生日期计算出的差异。

歌曲当然不可能改变出生年份，这正是实验要说明的事情。约瑟夫·西蒙斯、莱夫·纳尔逊和尤里·西蒙逊展示的不是罕见骗局，而是日常研究中的结构性漏洞：研究者没有捏造数据，却可以自由决定何时停止收集、选择哪个结果变量、是否加入协变量以及比较哪些组别。每一项选择单独看都合理，合在一起却足以把随机噪声报告成「发现」。

当前位置

在第 2 日中，我们看到复现危机的数字：原始心理学研究中 97% 报告了统计显著效应，复现研究中只有 36% 得到同方向的显著结果。我们提到过p 值操纵（p-hacking），今天进一步说明它如何产生。

这也是第 1 日「盖梯尔问题」在科学研究中的版本：结论可能碰巧为真，却没有通过可靠方法得到。第 4 日提醒我们，p 值不是零假设为真的概率；第 5 日说明，选择控制哪些变量本身就是分析决策。今天的线索是信息、计算，以及科学如何通过协作和复核超越单个分析者的局限。

问题的起点

最容易被欺骗的对象

「首要原则是你不能欺骗自己——而你恰恰是最容易被自己愚弄的人。」——理查德·费曼，加州理工学院毕业典礼，1974 年

1959 年，理查德·费曼站在黑板前。上方引文出自他 1974 年在加州理工学院关于「货物崇拜科学」的毕业典礼演讲。图片：*The Big T* 1959，经 Wikimedia Commons，美国公有领域。

费曼强调的是公式不能取代求真的纪律。现代统计学面临的困难是：公式可能完全正确，但一旦研究者灵活地搜索分析方案，错误率就不再保持在名义水平，数学符号反而会给预先想要的结论增添权威感。

这个陷阱有一个名称：研究者自由度（researcher degrees of freedom）。每项研究都包含许多小而合理的决定：剔除哪些异常值，是否控制年龄或性别，何时停止收集，测量了三个指标后报告哪一个。若在看到数据后才作出这些决定，它们的累积效果就可能把噪声制造成「发现」。

西蒙斯、纳尔逊和西蒙逊先用模拟展示了这一点。把四种常见自由度结合起来——根据需要增加样本、在两个相关结果中选择一个、按性别等变量拆分子组、从三个实验条件中删除一个——就能把名义上的 5% 假阳性率提高到 61%。这些选择本身都可能合理，问题在于它们被同时使用且不事先说明。

运行假阳性工厂：每项模拟研究都没有真实效应，任何貌似的发现都来自你允许的分析选择。观察研究自由度如何把噪声变成新闻标题。

这些案例展示：每增加一种分析自由度，纯噪声就多一条伪装成「发现」的路径。

互动 · 实时蒙特卡洛模拟

假阳性工厂

每次运行都会模拟约 1500 次没有真实效应的实验。若零假设成立、模型假设满足，而且只进行一项预先指定的检验，约 5% 的实验仍会偶然得到 $p < .05$ 。现在开启几项研究者自由度，再观察工厂能从所有允许的分析中挑出多么有利的结果。

假阳性率 · 纯噪声中产生的「发现」

0%↑ 名义 5%~65%

未启用灵活分析。如果零假设成立且模型假设满足，一次预先指定的检验会给出统计系统承诺的错误率。

假阳性工厂

每增加一项看似普通的分析自由度，偶然结果被选中并报告的机会都会增加。

分析自由度	具体变动	为何会抬高假阳性率
两个结果指标	测量两个相关结果，只报告显著的那个。	噪声获得了两次跨过 p < .05 的机会。
可选停止	在 n=20 时观察，需要时再增加参与者。	停止规则本身成了数据中的另一条路径。
灵活的子组分析	尝试整体结果及子组拆分。	如果在看到数据后才选择，合理的子组检查就变成了多次比较。
剔除实验条件	运行三个小组，报告最好的一对。	报告的对比结果是被特意挑选出来的。

西蒙斯、纳尔逊和西蒙逊展示，即使数据中没有真实效应，结合这四种自由度也能将名义上 5% 的假阳性率提高到约 61%。

核心模型

p 值究竟说明什么（以及六种常见误解）

要避免被统计结果误导，首先要明确 p 值回答的是什么问题。即使受过训练的科学家和统计学教师，也常在这里出错。下面的定义值得仔细阅读：

定义 · p 值

p 值（p-value）是在指定零模型及其假设成立时，观察到当前检验统计量或更极端值的概率。这里的「零模型成立」包括零假设以及相应的抽样和建模假设。

举个简单例子：假设零模型认为两组均值相同。如果在这个模型下，观察到当前大小或更大差异的概率是 3%，那么 p = .03。这不表示零假设为真的概率是 3%。

课程风格的零模型钟形曲线图，阴影尾部标为 p 值，并强调 P(数据 | 零假设) 不是 P(零假设 | 数据)。 — 阴影尾部就是 p 值：在零模型下，出现如此极端或更极端结果的频率。改编自 Repapetilto 与 Chen-Pan Liao，经 Wikimedia Commons，CC BY-SA 3.0。

这句话值得再读一遍。它描述的是「在假设给定时，数据有多极端」——写作 $P (数据 ∣ 零假设)$ 。它不是「在数据给定时，假设为真的概率」 $P (零假设 ∣ 数据)$ 。混淆两者正是第 4 日中医学检测问题的逆概率错误： $P (阳性 ∣ 患病)$ 不等于 $P (患病 ∣ 阳性)$ ，没有先验概率，前者不能转换为后者。下面列出格陵兰等人总结的 25 种常见误读中的六种。

人们最常混淆的三种概率

α 水平描述检验程序的长期第一类错误率。 $α = .05$ 意味着：在零假设确实成立、程序及其假设均正确的重复检验中，约 5% 会被误判为显著。错误发现率问的是另一个问题：反复采用同一检验程序时，在所有被判为发现的结果中，假发现所占比例的期望是多少？它取决于基础率、功效和选择机制，并不等同于 $α$ 。后验概率又是第三件事，例如 $P (零假设 ∣ 数据)$ ，它需要先验分布和完整的概率模型。5% 的 $α$ 既不是 5% 的错误发现率，也不是零假设为真的概率为 5%。

「p = .03 意味着零假设为真的概率只有 3%。」错误。那是 $P (零假设 ∣ 数据)$ ——这是一个需要先验分布和完整概率模型的贝叶斯量。p 值本来就是在零假设成立的前提下计算的。
「p = .05 意味着结果纯属偶然的概率是 5%。」错误。p 值的计算已经以零模型为前提；它并不回答「结果纯属偶然的概率是多少」。
「p > .05 意味着没有效应。」错误。没有证据，不等于有证据表明没有——功效不足的研究经常无法检测出真实的效应。
「 $1 - p$ 是备择假设为真的概率。」错误。p 值及其补数都不是关于任何假设的概率。
「p 值告诉你结果能否复现。」错误。单个研究中的小 p 值，并不能说明下一次研究能否复现。
「显著的结果意味着效应很大或很重要。」错误。只要样本量足够大，微不足道的差异也能变得「显著」。显著性 ≠ 大小 ≠ 重要性。

最后一种误读尤其隐蔽，因此值得单独展开一节。

显著性不等于大小：效应量

p 值由效应量、噪声、样本量和模型假设共同决定。样本量足够大时，微小且没有实际意义的差异也可能达到显著。因此，统计报告应同时给出效应量（effect size），例如Cohen’s d或相关系数 $r$ 。科恩给出的 d ≈ 0.2、0.5、0.8 的小、中、大分级只是经验规则，并非自然界的界线。只报告 p 值，不报告效应量，几乎无法判断结果是否具有实际意义。

互动 · 显著性与大小

效应量演示器

设定真实均值差、每组样本量和噪声水平。这里的「组」指两组比较中的一组，例如处理组与对照组；每组 n = 50 意味着两边各 50 个观察值，总共 100 个。图中使用固定的 x 轴和 y 轴：均值差从 -3 到 +3，y 轴是重复估计的分箱频数。更细的柱形显示估计分布，曲线表示对应的抽样分布，横条则是在同一 x 尺度上的 95% 置信区间。

真实均值差0.30每组样本量50噪声 / 标准差1.00

p 值.14

95% CI[-0.10, 0.70]

Cohen’s d0.30

效应大小小

显著性与大小

同一个真实效应，会随着样本量和噪声变化而呈现出非常不同的统计表现。

情境	p 值	均值差的 95% CI	Cohen’s d	实际解读
均值差 0.30，每组 n = 20，噪声 = 1.00	.35	[-0.34, 0.94]	0.30	小效应，估计太不精确。
均值差 0.30，每组 n = 500，噪声 = 1.00	< .001	[0.18, 0.42]	0.30	统计证据较明确，估计也更精确，但效应仍然很小。
均值差 0.80，每组 n = 50，噪声 = 1.00	< .001	[0.40, 1.20]	0.80	按科恩惯例属于大效应。
均值差 0.30，每组 n = 50，噪声 = 2.00	.46	[-0.49, 1.09]	0.15	相对于噪声而言非常小。

要点不是「p 值越小越好」。p 值会变小，可能因为效应更大，也可能因为样本巨大、噪声更低，或三者同时改变。请同时报告效应量和区间。

置信区间同样容易误解

置信区间（confidence intervals）常被视为比 p 值更直观的替代方案，但它同样容易被误读。

定义 · 95% 置信区间

95% 置信区间中的「95%」描述的是构造区间的方法：如果不断重复同一抽样过程，并用同一种方法计算区间，那么这些区间中约有 95% 会覆盖真实参数。它并不是说，在已经得到某个具体区间之后，真值有 95% 的概率落在其中。

因此，人们自然会说「真实值在这个区间内的概率是 95%」，但在频率学派框架下，这种说法不准确。研究完成后，这个具体区间要么包含真值，要么不包含；95% 描述的是方法的长期覆盖率。

第 4 日提到的贝叶斯「可信区间」可以作概率解释，但前提是指定先验分布和完整的概率模型。工具不同，承诺也不同。置信区间也不意味着 95% 的数据落在其中，更不意味着区间外的参数值绝无可能。更合适的理解是：它给出了一组在当前模型下与数据较为相容的参数值。区间越宽，估计越不精确；但区间内的值并非得到同等支持。

互动 · 长期覆盖率

100 次置信区间覆盖实验

从一个已知真实均值为 0 的世界中生成 100 次重复样本。x 轴固定为 -4 到 +4，这样区间宽度的变化不会被自动缩放掩盖。置信水平滑块改变长期覆盖目标：置信水平越高，覆盖次数通常越多，但区间也越宽。样本量和噪声主要改变精度。高亮区间代表一项具体研究：它要么覆盖，要么不覆盖。

每项研究样本量30噪声 / 标准差1.00置信水平95%

覆盖真值95 / 100

漏掉真值5 / 100

高亮区间覆盖

典型宽度0.74

算例

置信区间覆盖率

该表概括了长期教训：95% 置信区间程序在 100 次重复使用中大约 95 次覆盖真值，但任何单个区间只会覆盖或漏掉。

对象	重复使用时会发生什么	正确读法
100 个重复生成的 95% 区间，真实均值 = 0	大约 95 个覆盖 0；大约 5 个漏掉 0。	这个程序具有约 95% 的长期覆盖率。
一个观察到的区间，例如 [-0.31, 0.41]	它覆盖真实均值 0。	观察之后，这个区间要么包含 0，要么不包含；95% 属于方法。
一个观察到的区间，例如 [0.04, 0.76]	它漏掉真实均值 0。	即使是 95% 的方法，在重复使用中也会产生未覆盖真值的区间。

为什么小样本研究会夸大检测到的效应

经典假设检验区分两类错误：第一类错误（Type I error）（假警报——宣称存在实际并不存在的效应）和第二类错误（Type II error）（漏报——未能发现确实存在的效应）。检验功效（statistical power）是你捕捉到真实效应的机会；在其他条件相同时，增加样本量通常会提高检验功效。

功效不足不只是让研究更容易漏掉真实效应。它还会扭曲那些成功越过显著性门槛的估计：当功效较低时，往往只有被随机误差放大的结果才能达到显著，这就是赢家诅咒（winner’s curse）。再叠加对显著结果更友好的发表机制，文献中留下的往往是被夸大的效应，而且较难复现。2013 年的一项系统性审查（Button 等人的《功效失败》）估计，他们所考察的神经科学元分析的功效中位数约为 21%；Nord 等人在 2017 年的再分析则指出，不同子领域的功效差异很大。这个限定不改变核心教训：研究功效不足时，真实效应更容易被漏掉，而成功发表的效应估计往往偏大。

更深层的陷阱

即使没有故意操纵，也可能被误导

更值得警惕的是，即使研究者没有故意操纵分析，假阳性率也可能偏高。你可以只运行一个预先计划的分析并忠实报告，但如果数据稍有不同，你原本可能会选择另一套同样合理的方案。这就是安德鲁·格尔曼和埃里克·洛肯所说的多重分析路径（garden of forking paths）：数据的不同形态会影响研究者在多个合理选择之间作出哪一项决定。

关键不在于研究者实际上是否运行了许多分析，而在于最终采用的分析是否受已看到的数据影响。如果数据稍有变化——多一点噪声，或出现一个聚类——研究者可能就会选择另一套同样说得通的方案：控制年龄而不是收入，只分析女性而不是全样本，使用中位数而不是均值。

那些分析路径虽然没有真正运行，却仍然构成了多重性，因为数据的形态会影响研究者选择哪条路。因此，即使假设事先已经确定、研究者也没有故意进行数据钓鱼或 p 值操纵，假阳性率仍可能上升。

这与第 5 日相呼应。那里讨论了选择哪些变量进行条件化；对对撞变量（collider）条件化，可能凭空制造关联。这里同一问题扩展到整个分析过程：每个看似合理的选择都可能受数据模式影响。研究者即使没有意识到这一点，也可能得到与刻意操纵分析相同的错误结果。

不同改革方案各自针对不同问题

如果问题在于决策是在看到数据之后才做出的，那么最直接的对策就是在看到数据之前就做决策：预注册（preregistration）（提前公开记录分析计划）和注册报告（Registered Reports）（期刊在结果揭晓前评审研究问题与方法，并对稿件作出原则性接收）。我们在第 2 日见过它们；现在我们明白了它们为何有效。它们事先确定验证性分析方案；偏离计划的分析仍可报告，但应标为探索性，而不是伪装成预先计划的验证性分析。

争论

收紧阈值，还是放弃「显著性」？

如果 p < .05 如此容易被误用，应该如何改进？统计学界对此有几种严肃立场，并不是非专业人士与专家之间的简单对立。有人主张调整阈值，有人主张放弃把显著性当作二元裁决。

图示 · 改革光谱

与 p 值共存的四种方式

这条线上的所有人都同意现状已支离破碎。他们的分歧在于疗法需要多彻底。

重定义 —— 本杰明（Benjamin）等 (2018) 保留了阈值的想法，但将显著性阈值收紧至 p < .005：低于 .005 才称为「发现」，而 .005–.05 仅称为「提示性证据」。简单直接，但批评者认为这只是治标不治本。

说明 α 的设定依据 —— 拉肯斯（Lakens）等 (2018) 反对把任何单一数字当作通用阈值。他们认为应该根据具体情况，权衡「假警报」与「漏报」的真实成本，审慎选择阈值，并展示你的推理过程。

弃用显著性 —— 阿姆瑞恩（Amrhein）、格陵兰和麦克沙恩（McShane）(2019) 在《自然》杂志上联合 800 多名签名者，呼吁废除「显著 / 不显著」这种二元对立的习惯——即不再把 p = .04 和 p = .06 看作两个不同的世界。他们并非主张禁用 p 值，而是反对用一条硬阈值把结果一分为二。

统计学界的专业学会 —— 美国统计协会（ASA）曾两度发声：先是在 2016 年发表了包含六项原则的审慎声明，随后在 2019 年发表了一篇更为激进的社论，敦促大家停止把结果称为「统计显著」。（2019 年那篇是编辑观点，并非 ASA 的正式政策——这一区别本身也引发了一场争论。）

这些改革立场不同，却都在推动同一转变：不再寄希望于通过一个单一阈值给出「是 / 否」的判定，而是转向报告效应的大小、不确定程度，以及结论对分析选择的敏感程度。最后这个「敏感程度」（或称结论的脆弱性），正是当前改革的重点之一。

前沿 · 2024–2026

让结论的脆弱性可见

如果单一分析可能误导，一个直接办法是运行一组有理论和方法依据的分析方案，并展示结果如何变化。目前主要有多元宇宙分析和设定曲线分析；另一类研究则让多个独立团队分析同一份数据，观察结论差异有多大。每项主张仍需按证据强度判断。

前沿 01透明度正式检验

多元宇宙分析与设定曲线分析

不要只报告一套分析。研究者可以先界定一组在理论和方法上有依据的分析设定，逐一运行，再展示结论如何随选择变化。多元宇宙分析（multiverse analysis）（Steegen 等，2016）报告所有设定下结果的分布；设定曲线分析（specification-curve analysis）（Simonsohn 等，2020）则按效应估计排序，使读者看到结论在哪些设定下稳定、在哪些设定下改变。下面先看曲线，再讨论其限制。

这里还必须守住一条纪律：有些「合理设定」会改变估计目标。控制 W 只有在 W 是有因果理由的控制变量时，才是在估计同一个问题；秩变换、剔除异常值或仅分析某个子组，可能把目标从均值差异改成有序关联、对异常值不敏感的效应估计，或某个特定人群中的效应。设定曲线能暴露这个分岔，但不能替研究者决定原本想问的究竟是哪一个问题。

这些方法是很好的透明度工具，但作为推断工具仍有限。设定曲线的作者也承认，哪些设定算「合理」本身需要主观判断，不能交给算法决定；研究者必须说明纳入和排除哪些设定，以及理由。目前没有公认方法能从曲线直接计算出一个单一而有效的结论，2024 年出现的 PIMA 等工具正试图填补这一空白。稳健性展示自动消除主观性

互动 · 运行你自己的多元宇宙

设定曲线（Specification Curve）

这是一个固定的合成数据集，X 和 Y 之间有一个较弱且受混杂影响的关联：基线模型一开始不会跨过通常的 $p < .05$ 线，但某些看似合理的选择可以把它推过去。这里的 r 是皮尔逊相关系数，范围从 -1 到 +1；正的 r 表示 X 越大时 Y 往往也越大，接近 0 则表示关联较弱。画出这条曲线，是因为只报告一个模型可能很任意：问题是结论能否经受合理分析选择的扰动，还是只依赖某一条路径。面板默认开启所有选择，并高亮「择优报告」；关闭某项选择，就会减少纳入的分析方案。青色点表示 $p < .05$ ，灰色点则不显著。下方的勾选矩阵显示每个设定用了哪些选择，包括它是否控制了第 5 日讨论的混杂变量 W。

完整报告下的解读

前沿 02分析分歧

同一份数据，众多分析师：最直观的证据

这项实验应该会改变你阅读每一条头条新闻的方式。拿出一份数据集，设定一个清晰的问题，然后将相同的副本分发给几十个专家团队。他们会得出同一个判定吗？很多时候，不会。

在 Silberzahn 等 (2018) 的研究中，29 个团队（61 位分析师）被问了一个简单的问题：足球裁判是否更容易向肤色较深的球员出示红牌？他们估计的优势比（OR）从 0.89 到 2.93 不等；20 个团队发现了显著的正向效应，9 个团队则没有。耐人寻味的是，分析师的先验信念甚至他们的统计专业知识都无法解释这种差异。在 Botvinik-Nezer 等 (2020) 的研究中，70 个团队（180 位研究者）针对同一份脑成像数据集分析了九个预设假设——结果没有两个团队使用了完全相同的流程；即使各团队得到的底层统计图高度相关，他们的「是/否」结论也发生了严重分歧。Breznau 等 (2022) 将相同的数据和假设（移民是否会削弱对社会政策的支持？）交给 73 个团队，观察到估计效应从明显为负一直散布到明显为正。甚至金融领域也有自己的版本：Menkveld 等人的《非标准误差》(2024) 让 164 个团队在相同的市场数据上测试相同的假设，发现团队间的变异性与普通的统计误差旗鼓相当——令人欣慰的是，当增加额外的同行评审环节时，这种变异性有所收缩。

这可以看作第 1 日盖梯尔问题在数据分析中的缩影：每个团队都能用专业分析为自己的结论提供理由，但结论是否反映现实关系，可能取决于分析路径。一项分析只是众多合理方案之一，不应自动被视为唯一答案。

前沿 03新方法改革基础设施

从多种分析得到有效推断

上述方法仍留下一个问题：如何从多元分析中作出有效推断？2024 年的研究提出 PIMA（多元宇宙分析中的选择后推断；Girardi 等，2024），使用符号翻转得分检验，试图为多元宇宙提供联合误差保证，并突破设定曲线的部分限制。它已经过同行评议，值得关注，但仍然较新，尚未成为标准方法，属于有前景的研究方向而非定论。

与此同时，那些朴素但可靠的改革措施正在不断普及：「注册报告」格式目前已有数百家期刊提供，预注册也正在逐渐从倡议走向常规做法。还记得第 4 日提到的 e 值（e-values）和「通过投注进行测试」吗？这种 p 值的替代方案在正确构造、且模型和技术条件成立时，允许研究者根据已观察数据决定是否继续采样，同时保持规定的错误率或证据保证。目前这仍处于研究前沿而非主流实践——有前景，值得持续关注。

设定曲线摘要

同一份合成数据集可以通过多套合理的分析设定进行分析。

选择	对分析的影响	解读风险
剔除异常值	在估计关联之前排除极端值。	可能使结果更稳定，也可能选择性地移除不利的数据点。
控制变量 W	调整同时驱动 X 和 Y 的背景混杂变量。	通常会缩减虚假关联，但这种控制必须有因果论证支持。
秩变换	在计算关联之前用排名代替原始值。	可以降低对分布形状的敏感性，但也会改变估计的目标。
仅分析某个子组	仅分析数据的子集。	可以测试真实的边界条件，也可以制造出一个讨巧的子集。

完整报告会展示所有合理设定下的分布情况；有选择的报告则只展示曲线上最有利的那一点。

未决问题

仍无定论

「统计显著性」是否应该彻底消失？改革者在规范阈值使用与彻底弃用阈值之间存在分歧。但决策总要在某个地方做出——一种药物要么获批要么不获批——主张弃用阈值者仍需说明，实际决策应如何作出。
多元宇宙是否真能产生一个可信的总体结论？还是说，对「合理设定」的选择本身就是一种无法消除的主观行为，只是把主观选择上移了一层？PIMA 等工具是早期的尝试，目前尚无定论。
分析结论的差异，是否意味着真实效应也同样不同？ 2023 年的一项细致重分析指出，在一些「同一份数据，众多分析师」研究中，引人注目的分歧其实是关于「显著性」判定的，而底层的效应量其实相当一致且微小。对结论的分歧可能会超过对数字本身的分歧。不应据此断言所有分析都不可靠。
未来更可能以 p 值还是 e 值为主？基于投注的工具优雅地解决了「可选停止」问题，但可能需要更多数据，并引入了新的建模负担（该怎么下注？）。两者共存似乎比一方取代另一方更有可能。
还有一个留给 AI 单元的问题：当一个在数百万篇论文上训练出来的模型报告某个「稳健」的结果时，它是在依据证据推理，还是在复述那些把我们带到今天这般处境的「分岔路径」习惯？（见第 138–145 日。）

一日三句

核心观点: 统计工具不能自动防止自欺。分析选择越灵活，越可能让随机噪声看起来像发现；更可靠的做法是预登记验证性分析，报告效应量和不确定性，并检验结论在多种合理方案下是否稳定。
最佳类比: 研究者自由度的叠加可以把纯噪声中的名义 5% 假阳性率提高到约 61%。即使只运行一个分析，数据模式也可能影响研究者在多个合理方案之间的选择。
仍在争论: 应当把显著性阈值收紧到 p < .005、按具体研究说明 α，还是彻底放弃「统计显著性」；多元宇宙分析和多团队研究显示，结论在多大程度上取决于分析路径。

今日线索 › 信息（将信号从噪声中分离；p 值作为一种常被误读的证据度量）· 计算（作为易错推理机的实验室；多元宇宙作为穷举法的应用）· 涌现（科学作为一个超越任何单个分析者的纠错系统——预注册、多团队分析、元分析），并直接通向信息论。

明日 → 第 7 日

信息论

统计学把信号从噪声中分离出来；明天要问的是：信号本身是什么？香农的比特、作为「预期意外」的熵、信道容量、麦克斯韦妖，以及兰道尔的发现——擦除信息，是要付出物理代价的。

来源

来源与延伸阅读

Feynman, R. P. (1974). “Cargo Cult Science.” Engineering and Science 37(7): 10–13. 加州理工学院 1974 年毕业典礼演讲；开篇引文来源。 calteches.library.caltech.edu
Open Science Collaboration. (2015). “Estimating the reproducibility of psychological science.” Science 349(6251): aac4716. doi:10.1126/science.aac4716；97% 原研究显著 / 36% 复现显著统计的来源。 doi.org/10.1126/science.aac4716
Simmons, J. P., Nelson, L. D. & Simonsohn, U. (2011). “False-Positive Psychology: Undisclosed Flexibility in Data Collection and Analysis Allows Presenting Anything as Significant.” Psychological Science 22(11): 1359–1366. doi:10.1177/0956797611417632。 doi.org/10.1177/0956797611417632 — 《当我六十四岁》演示；5%→61% 的模拟。
Gelman, A. & Loken, E. (2014). “The Statistical Crisis in Science.” American Scientist 102(6): 460–465. — 「分岔路径花园」；更早为 2013 年哥伦比亚大学工作论文。 americanscientist.org
Greenland, S., Senn, S. J., Rothman, K. J., Carlin, J. B., Poole, C., Goodman, S. N. & Altman, D. G. (2016). “Statistical tests, P values, confidence intervals, and power: a guide to misinterpretations.” European Journal of Epidemiology 31(4): 337–350. doi:10.1007/s10654-016-0149-3。 doi.org/10.1007/s10654-016-0149-3 — 25 种常见误读的权威清单。
Haller, H. & Krauss, S. (2002). “Misinterpretations of Significance: A Problem Students Share with Their Teachers?” Methods of Psychological Research Online 7(1): 1–20. — p 值误解即使在统计学教师中也持续存在的调查证据。 epub.uni-regensburg.de/34338
Badenes-Ribera, L., Frias-Navarro, D., Iotti, B., Bonilla-Campos, A. & Longobardi, C. (2016). “Misconceptions of the p-value among Chilean and Italian Academic Psychologists.” Frontiers in Psychology 7: 1247. doi:10.3389/fpsyg.2016.01247。 doi.org/10.3389/fpsyg.2016.01247
Wasserstein, R. L. & Lazar, N. A. (2016). “The ASA Statement on p-Values: Context, Process, and Purpose.” The American Statistician 70(2): 129–133. doi:10.1080/00031305.2016.1154108。 doi.org/10.1080/00031305.2016.1154108 — 六项基本原则。
Wasserstein, R. L., Schirm, A. L. & Lazar, N. A. (2019). “Moving to a World Beyond ‘p < 0.05’.” The American Statistician 73(sup1): 1–19. doi:10.1080/00031305.2019.1583913。 doi.org/10.1080/00031305.2019.1583913 — 43 篇文章特刊的社论；「停止把结果称为统计显著」（编辑观点，非 ASA 正式政策）。
Benjamin, D. J., Berger, J. O., Johannesson, M., et al. (2018). “Redefine statistical significance.” Nature Human Behaviour 2(1): 6–10. doi:10.1038/s41562-017-0189-z。 doi.org/10.1038/s41562-017-0189-z
Lakens, D., Adolfi, F. G., Albers, C. J., et al. (2018). “Justify your alpha.” Nature Human Behaviour 2(3): 168–171. doi:10.1038/s41562-018-0311-x。 doi.org/10.1038/s41562-018-0311-x
Amrhein, V., Greenland, S. & McShane, B. (2019). “Scientists rise up against statistical significance.” Nature 567(7748): 305–307. doi:10.1038/d41586-019-00857-9；800 余名共同签名者。 doi.org/10.1038/d41586-019-00857-9
Button, K. S., Ioannidis, J. P. A., Mokrysz, C., et al. (2013). “Power failure: why small sample size undermines the reliability of neuroscience.” Nature Reviews Neuroscience 14(5): 365–376. doi:10.1038/nrn3475；功效中位数约 21%。 doi.org/10.1038/nrn3475
Nord, C. L., Valton, V., Wood, J. & Roiser, J. P. (2017). “Power-up: A Reanalysis of ‘Power Failure’ in Neuroscience Using Mixture Modeling.” The Journal of Neuroscience 37(34): 8051–8061. doi:10.1523/JNEUROSCI.3592-16.2017；关于神经科学低检验功效是否均匀分布的限定。 doi.org/10.1523/JNEUROSCI.3592-16.2017
Center for Open Science. “Registered Reports.” COS 官方说明和参与期刊列表；「300 多家期刊」说法的来源。 cos.io/initiatives/registered-reports
Steegen, S., Tuerlinckx, F., Gelman, A. & Vanpaemel, W. (2016). “Increasing Transparency Through a Multiverse Analysis.” Perspectives on Psychological Science 11(5): 702–712. doi:10.1177/1745691616658637。 doi.org/10.1177/1745691616658637
Simonsohn, U., Simmons, J. P. & Nelson, L. D. (2020). “Specification curve analysis.” Nature Human Behaviour 4(11): 1208–1214. doi:10.1038/s41562-020-0912-z。 doi.org/10.1038/s41562-020-0912-z
Silberzahn, R., Uhlmann, E. L., Martin, D. P., et al. (2018). “Many Analysts, One Data Set.” Advances in Methods and Practices in Psychological Science 1(3): 337–356. doi:10.1177/2515245917747646；29 个团队，OR 0.89–2.93。 doi.org/10.1177/2515245917747646
Botvinik-Nezer, R., Holzmeister, F., Camerer, C. F., et al. (2020). “Variability in the analysis of a single neuroimaging dataset by many teams.” Nature 582(7810): 84–88. doi:10.1038/s41586-020-2314-9；70 个团队。 doi.org/10.1038/s41586-020-2314-9
Breznau, N., Rinke, E. M., Wuttke, A., et al. (2022). “Observing many researchers using the same data and hypothesis reveals a hidden universe of uncertainty.” PNAS 119(44): e2203150119. doi:10.1073/pnas.2203150119；73 个团队。 doi.org/10.1073/pnas.2203150119
Mathur, M. B., Covington, C. & VanderWeele, T. J. (2023). “Variation across analysts in statistical significance, yet consistently small effect sizes.” PNAS 120(3): e2218957120. doi:10.1073/pnas.2218957120；提醒读者用效应量和区间、而不只是显著性标签来理解「多人同数」分歧。 doi.org/10.1073/pnas.2218957120
Menkveld, A. J., Dreber, A., Holzmeister, F., et al. (2024). “Nonstandard Errors.” The Journal of Finance 79(3): 2339–2390. doi:10.1111/jofi.13337；164 个团队。 doi.org/10.1111/jofi.13337
Girardi, P., Vesely, A., Lakens, D., et al. (2024). “Post-selection Inference in Multiverse Analysis (PIMA): An Inferential Framework Based on the Sign Flipping Score Test.” Psychometrika 89(2): 542–568. doi:10.1007/s11336-024-09973-6。 doi.org/10.1007/s11336-024-09973-6
Ramdas, A., Grünwald, P., Vovk, V. & Shafer, G. (2023). “Game-theoretic statistics and safe anytime-valid inference.” Statistical Science 38(4): 576–601. doi:10.1214/23-STS894；e-process、testing by betting 与可选停止下仍有效的推断。 doi.org/10.1214/23-STS894
Cohen, J. (1988). Statistical Power Analysis for the Behavioral Sciences (2nd ed.). Lawrence Erlbaum. — 效应量分级惯例，作者本人也承认是刻意随意的。

专题深入附录统计学的深层结构选读内容。

正文提到 p 值容易被误读，但还没有解释这种误读为何会发生。现代显著性检验混合了费舍尔式的证据衡量和内曼—皮尔逊式的长期错误率控制；这两套传统回答的问题并不相同。本附录说明这种混合如何导致概念混乱，反复查看数据为何会提高偶然显著的概率，如何从已发表数字中识别异常，以及哪些替代工具能够补充或改进 p 值。最后，我们将用硬币投掷的次数说明 p 值所代表的惊异程度。

接续正文内容

你已经见识过假阳性工厂、小径分岔的花园、改革光谱以及多团队分析研究。请特别关注这三条线索：第 4 日的贝叶斯（p 值并不是 $P (假设 ∣ 数据)$ ，在这里我们将最终算出忘掉这一点的代价）、第 2 日的波普尔与约安尼迪斯（检验严苛度与「大多数发现都是错误的」），以及第 1 日的校准直觉。下文将展开这些思想背后的统计结构。

§1 两种统计传统

p 值检验为何容易产生概念混乱

这里有一个事实，足以解释许多统计困惑：许多理工科学生都接触过的标准「假设检验」其实是一种混合体。它把费舍尔式的证据衡量与内曼-皮尔逊式的长期决策规则糅合在一起，而这种混合经常制造混乱。

一边是罗纳德·费舍尔 (Ronald Fisher)。在 1925 年的《研究工作者的统计方法》中，他提出了 p 值，将其作为针对单一零假设的一种非正式、连续的证据强弱指标，用来衡量数据与零假设有多不相容。他不需要备择假设，不需要拒绝域，也不需要长期重复抽样。他建议将 $p < .05$ 仅作为一个朴素的经验法则，即低于这一阈值时，结果开始值得进一步调查；他明确表示，如果你愿意，可以选择其他阈值。对于费舍尔来说，一个微小的 $p$ 是进一步研究的信号，而非必须「服从」的判决。他写道，零假设永远不会被证明，只是偶尔会「陷入尴尬」。

另一派则是耶日·内曼 (Jerzy Neyman) 与埃贡·皮尔逊 (Egon Pearson)。到 1933 年，他们的一系列论文形成了较完整的框架：把整个体系重塑为一种「决策规则」，而非证据衡量标准。你预先指定两个假设，提前确定你要控制的误报率（ $α$ ，第一类错误率）和漏报率（ $β$ ，第二类错误率；检验功效 = $1 - β$ ），事先设定决策阈值或拒绝域，随后按预先规定的决策规则行动：拒绝或接受。在预先规定的检验程序下， $α$ 和 $β$ 控制相应的长期错误率；它们并不保证每一批研究中恰好有相同比例的错误。重点在于，它对眼前的单一案例「不提供」任何证据衡量——它只是一套具有已知长期属性的程序。内曼认为费舍尔的归纳「证据」谈论含混不清；费舍尔则认为内曼把科学变成了工厂的质量控制。两人的尖锐分歧持续了一生。

图表 · 费舍尔与内曼—皮尔逊的区别

费舍尔 vs. 内曼-皮尔逊

他们回答的是不同的问题。现代的「 $p < .05$ 检验」假装同时回答了这两者 —— 这也正是它无法清晰回答任何一个问题的原因。

费舍尔的显著性检验

1925 · 证据性 / 归纳式

单一假设（零假设）—— 不需要备择假设。
$p$ 衡量数据与零假设不相容的程度。
.05 是一个灵活的惯例，而非法律。
提示研究者结合具体情境作进一步调查。
没有「接受零假设」一说，也没有固定的长期错误率。

内曼-皮尔逊检验

1928–1933 · 行为式 / 决策式

预先固定的两个假设（ $H_{0}$ 和 $H_{1}$ ）。
在看到数据前就设定好 $α$ 、 $β$ 和检验功效。
.05 是一个既定的门槛，根据成本选择。
一套用于指导行动的规则 —— 拒绝或接受，然后继续。
不对单一案例提供证据主张；只关注长期错误率。

—— 焊接在一起 ——

零假设仪式（实际教导的内容）

计算

p

。将其与神圣的 .05 进行比较。将低于这一阈值的行为同时视为费舍尔式的「证据充分」和内曼-皮尔逊式的「已做决策」——在报告精确的

p

值时，既把它当成证据强度，又像固定

α

决策那样给它设限。心理学家格尔德·吉仁泽 (Gerd Gigerenzer) 将这种不连贯的混杂体称为「零假设仪式」，它被机械地执行，却很少有人真正理解。你在正文中遇到的混乱并不是因为学生注意力不集中，而是因为它本身就被植入了一个从未被设计好的工具中。

一旦你看清了这道接缝，整个复现危机读起来就完全不同了。我们取了一个灵活的、费舍尔式的「进一步研究信号」，将其冻结为内曼-皮尔逊式的「关卡」，剔除了内曼-皮尔逊体系中保证决策规则具有预定错误率的部分（预先承诺的 $α$ 、充足的功效、真正的备择假设），然后只发表那些过关的研究。令人惊讶的不是有这么多研究无法复现，而是仍有部分结论经得起复现。

§2 偶然显著的数学原因

两个基本事实：偶然显著与重复查看

假阳性工厂并不是某种聪明的编程技巧。它建立在两个数学事实之上。只要掌握这两点，你就会明白为什么反复检验最终能让纯噪声产生看似显著的结果。

事实一：零假设成立时也会出现小 p 值

在零假设模型成立且其假设满足时，如果你对连续数据运行一个精确检验，得到的 p 值就是一个 0 到 1 之间的均匀随机数。对于离散、复合或保守的检验，有效的 p 值往往是超均匀的： $P (p \leq α) \leq α$ ，而不一定正好相等。这个限定并不会改变实际警告。在连续且校准良好的理想情形中，区间 [0, 1] 中正好有 5% 位于 .05 以下；在保守情形中，这个比例不会更大。但换个角度看，威胁就出现了：没有真实效应的规范实验也会纯靠运气交给你一个「显著」结果。以二十种方式运行实验——二十个结果变量、二十个协变量、二十个亚组——你实际上就是买了许多张小概率彩票。在一批不存在真实效应的检验中，预期能得到的「发现」数量，会被你查看的次数推动。

用实时面板观察连续精确检验的理想化情形。真实效应为零时，p 值近似平坦分布，约有 5% 落在 .05 以下。调高「真实效应」，分布会向较小数值倾斜：真实信号会让极小的显著 p 值多于勉强显著的 p 值。这种富集是文献中的脉搏；完全看不到它，就是一个警讯。

交互式 · 实时模拟

p 值的形状

每次运行都会模拟 4,000 次实验（两组，每组 n = 30）并对其 p 值进行分桶。将「真实效应」从 0（无真实效应）向上滑动。在这个连续模拟中，零假设下的分布是平坦的；随着信号出现，小 p 值会更常见，低于 .05 的比例也会从约 5%（即 $α$ ）攀升至你研究的实际「检验功效」。

真实效应量 (Cohen’s

d

) 0.00

p 值分布示意

该表概括了与模拟实验相同的教训：在连续精确检验的理想化情形中，零假设下的 p 值是均匀的；在存在真实效应时，小 p 值变得更常见。

设定	预期形状	解读
真实效应 = 0	从 0 到 1 保持平坦	按检验的构造，约 5% 会低于 .05。
微弱真实效应	小 p 值略有增多但噪声很大	功效提升缓慢；许多真实效应被漏掉。
显著真实效应	极小 p 值明显增多	高检验功效，呈现健康的 P-curve 特征。

事实二：反复查看会改变错误率

正文中「假阳性工厂」的「可选停止」开关隐藏了一个本该更加著名的结论。假设你在每增加一名受试者后就进行一次检验，并在 $p$ 跌破 .05 的那一刻立即停止。无论是否存在真实效应，未经校正的反复查看都会改变检验程序的长期性质；在零假设成立时，误报风险尤其清楚地暴露出来。更准确地说，在零假设成立、反复查看结果且不作校正的理想化条件下，随着查看次数增加，最终越过固定显著性阈值的概率可以趋近于 1，而不是保持在 5%。Anscombe 在 1954 年证明了这一点，Armitage 等人在 1969 年进一步强调了它：只要反复查看的次数足够多，随样本增加而不断波动的 p 值即使在零假设成立时，也很可能仅仅由于运气而跌破任何固定界线。

这就是为什么反复查看中间结果不仅是某种轻微的过失，而是一种结构性的漏洞——也是为什么第 4 日提到的 e 值和随时有效检验是如此优雅的解决方案：经过正确构造的随时有效程序，在其模型和技术条件成立时，允许研究者根据已观察的数据决定是否继续采样，同时保持规定的错误率或证据保证。这也是为什么必须监测积累数据以确保安全的真实临床试验会使用 $α$ 支出 (alpha spending) 和成组序贯设计——它们会在每次中期查看时分配少量错误率预算，从而使总的第一类错误预算仍维持在 5%。未经校正的可选停止会破坏错误率控制；而通过支出规则进行的停止，则是 20 世纪统计学的重要成就之一。

§3 统计诊断

从已发表数据识别选择性报告

如果真实效应存在且研究具有一定功效，显著 p 值的分布通常会包含较多的小 p 值；而 p 值操纵更容易留下紧贴 .05 下方的堆积。于是，只需查看已发表的数字，就可以审查一个研究领域的已发表结果，而无需重做任何一个实验。这一认识催生了一个充满活力的统计取证领域。

其旗舰工具是 P-curve (Simonsohn, Nelson & Simmons, 2014 —— 没错，正是正文中提到的那三位)。收集关于某一效应的一组研究中的显著 p 值，观察它们的形状。当真实效应存在且研究具有一定功效时，较小的显著 p 值通常会更常见：.01 较多，.04 较少。紧贴 .05 的异常堆积可能提示选择性报告或分析灵活性，例如不自然的 .04 和 .049 过剩；但这种模式本身不是研究不端的证据。

此外还有一些精心设计的反例演示，旨在揭示多重比较问题不容回避：

🐟 死去的大西洋鲑

Bennett et al., 2009 · 2012 搞笑诺贝尔奖（Ig Nobel Prize）

研究者把一条死去的大西洋鲑放进 fMRI 扫描仪，并向它「展示」人类社交场景的照片。在不对约 130,000 个测试体素进行校正的情况下，死鱼脑中也会出现所谓「显著」区域。重点在于：只要测试的东西够多，噪声也能产生看似显著的结果。

🪄 巫毒相关

Vul et al., 2009

许多著名的关于大脑与情感的研究报告的相关性如此之高，甚至超过了它们自身测量工具的可靠性——这在数学上是不可能的。其元凶是「循环分析」：挑选出相关性最强的体素，然后将该相关性作为独立结果进行报告。筛选本身就是结果。这正是实验室中的多重比较与分析自由度问题。

🔢 GRIM 与侦探们

Brown & Heathers, 2017

GRIM 检验会检查报告的平均值在给定的样本量和整数答案下，在「算术上」是否可能。令人震惊的是，不少报告值在算术上并不一致。一小群非正式的「数据侦探」现在正利用这类工具在已发表的论文中搜寻不可能出现的数字。

🤖 statcheck

Nuijten et al., 2016

一种检查所报告的检验统计量、自由度和 p 值在算术上是否一致的算法。在扫描了 25 万个结果后，它发现约一半的论文包含至少一个不一致的 p 值，且约八分之一的错误可能改变结果是否跨过显著性阈值的判断。

前沿校准器：P-curve 和这些取证工具已确立，可用作诊断手段——但它们检测的是「模式」而非罪行；即使不存在研究不端，发表偏差也可能产生类似模式，因此它们发出的是可疑信号，而非铁证。

§4 完整计算

显著结果的误报风险

现在我们来看一个本该印在每本统计教科书首页却几乎从未出现的数字。你进行了一项干净的研究，没有操纵，得到了 $p = .05$ 。人们很容易误以为：「只有约 5% 的概率这是个意外。」这个直觉是大错特错的，我们仅凭第 4 日的贝叶斯就能证明这一点。

p 值回答的是 $P (数据 ∣ 零假设)$ ，而研究者真正关心的往往是 $P (零假设 ∣ 显著结果)$ —— 也就是看似亮眼的发现其实是假阳性的概率。架起这两者之间的桥梁需要一个「先验」：在看到数据之前，你的假设有多大的可信度？一旦你提供了一个现实的先验，误报风险往往会明显高于 5%。其逻辑与约安尼迪斯在其著名的第 2 日文章《为什么大多数发表的研究发现都是错误的》中所使用的一致：在给定先验概率、功效和 $α$ 的模型下，误报风险 (false positive risk) 表示显著结果为误报的条件概率。

用计算器看看显著发现有多大比例可能出错：即使先验概率为 50% 且检验功效不错，长得惊人的假设仍可能带来很高的误报比例。

交互式 · 误报风险引擎

在 100 项「发现」中，有多少是假的？

想象许多假设都在常用的 $p < .05$ 下进行检验。设定你的假设真正为真的频率（先验）以及你的研究功效。网格显示了 100 个你会称为「显著」的结果，颜色区分了它们是货真价实的（青色）还是误报（红色）。

先验：被检假设中真正为真的比例 50%

检验功效（捕捉到真实效应的几率） 50%

—的「显著」发现是错误的

真实发现误报

误报风险示例

该示例将 $α$ 与已发表发现中的误报风险区分开来。

先验真实效应	功效	$α$	显著结果中的错误比例
50%	50%	.05	约 9% 的误报。
10%	50%	.05	约 47% 的误报。
2%	50%	.05	约 83% 的误报。

有两个细节让情况变得更糟，而非更好 —— 而它们正是这里的核心本质。

「情况比网格显示的更严峻」 (Colquhoun)。上述计算器使用整个 .05 「尾部」作为误报率。但 David Colquhoun (2014, 2017) 指出，一个恰好位于 $p = .05$ 的结果，在真实效应下发生的可能性几乎不比在零假设下更高，因此其误报风险比尾部显示的更高。在 Colquhoun 所采用的特定先验概率、功效和模型设定下，刚好达到 $p \approx .05$ 的结果可对应约 26% 的误报风险。这个数字不是 p 值本身的固定含义。如果要求真正的发现率， $p < .05$ 的阈值实在不够严格。这就是正文中提到的 Benjamin 等人推动将阈值收紧至 .005 的量化核心。

「零假设几乎从不完全正确」 (Meehl 的普遍微弱相关现象)。Paul Meehl 观察到，在大规模社会科学数据集中，「一切」都与「一切」存在微弱的相关性 —— 出生顺序与政治倾向、身高与幽默感 —— 因为世界是一个由微弱真实联系交织成的致密网络，他称之为普遍微弱相关现象 (crud factor)。因此，一个「精确为零」的点零假设其实是一个稻草人；只要样本量够大，你就能拒绝任何一对变量之间的零假设。此时「统计显著」仅证明了你的样本量够大，而非你发现了任何有意义的东西。这就是显著性与重要性是两码事的深层原因。

贝叶斯与频率学派的差异：杰弗里斯—林德利悖论

这里有一个值得注意的现象。在样本量极大时，一个恰好为 $p = .05$ 的结果在贝叶斯分析中可能成为支持零假设的证据——两个框架不仅结论不同，甚至可能给出相反判断 (Lindley, 1957)。频率学派检验可能拒绝 $H_{0}$ ，而贝叶斯分析却可能支持 $H_{0}$ 。这并不意味着某个框架更荒谬，而是因为它们回答的问题不同：在样本量 n 很大时，「在零假设下令人惊讶」与「在备择假设下更可能」之间的差异会显著扩大。现代贝叶斯派的答案是贝叶斯因子——它比较数据在两个假设下的边际似然，也就是当前数据在两种假设下分别有多可能出现。它能做到 p 值从定义上无法做到的事：收集支持零假设的证据，而不仅仅是「未能拒绝」它。

§5 替代与补充方法

更稳健的替代与补充方法

指出问题还不够，还需要给出可用的替代方案。以效应估计为中心的工具箱并不神秘——它由分别针对上述问题的一组方法组成。

S 类与 M 类错误

Andrew Gelman 和 John Carlin (2014) 认为，在我们实际身处的低检验功效世界中，经典的第 I 类 / 第 II 类错误框架没有涵盖这里最关键的问题。另外两种更尖锐的失败更重要。S 类（方向）错误 (Type S / sign error) 是指搞错了「方向」——结论认为某种治疗有效，实则有害。M 类（幅度）错误 (Type M / magnitude error) 是指「夸大倍数」——你的「显著」估计值比真实值大了多少倍。他们的论点直指正文中的「赢家诅咒」：在低检验功效研究中，被筛选为显著的效应估计可能明显高于真实效应；在某些设定下，夸大程度可达到数倍。已发表效应可能是被系统性放大的版本。

用等效性检验支持「无实质效应」

正文警告说「p > .05」并不意味着「没有效应」。但有时你确实想得出「这里没有什么有意义的东西」的结论，而你可以通过等效性检验 (equivalence testing; Lakens, 2017) 做到这一点。等效性检验先根据最小有实际意义的效应量设定上下等效界限，再检验真实效应是否落在这一范围内。双单侧检验（TOST）是最常用的方法之一。只有当等效性检验支持效应落在事先设定的等效界限内，才可据此排除具有实质意义的效应；单凭 p > .05 仍不能这样做。

多重检验与错误发现率控制

当你确实必须运行许多检验（每一个基因、每一个脑区）时，传统方法之一是 Bonferroni 校正——将 $α$ 除以检验次数。Bonferroni 校正控制的是一组检验中至少出现一次第一类错误的概率，即族错误率。它通常较为保守，因此可能降低检验功效。Benjamini 与 Hochberg 于 1995 年提出的错误发现率控制方法，来自统计学中引用极高的一篇论文。它改变了目标：错误发现率控制的是反复采用同一程序时，在所有被判为显著的结果中，假阳性比例的期望值。这是一种务实的交易，它使大规模多重检验变得可行——接受少量错误发现，换取真正能发现东西的能力。

用「相容性区间」准确描述区间含义

最后是一个具有强大澄清能力的微小举措：Amrhein、Greenland 等人敦促将置信区间称为相容性区间 (compatibility interval) —— 即与你的数据和模型合理「相容」的效应量范围。这个词能同时消除两种错误：它能阻止你将区间内的数值视为已证明、将区间外的数值视为不可能，并促使你将整个区间作为一个关于「大小和不确定性」的陈述来报告，而非只看区间是否跨过零的二元判断。

§6 对显著性检验的辩护

检验严苛性与证据强度

如果以「p 值很坏，估计很好」作为结尾就太简单化了。公允和准确要求我们提供一个有力的反方观点，而哲学家德博拉·梅奥 (Deborah Mayo) 提供了这一点。在 2018 年的《统计推断作为严苛检验》中，她用一个苛刻的原则为误差统计学推理辩护，回应废除派和贝叶斯派的批评。

只有在一项主张为假时，检验很可能揭示其错误，而这项主张仍然通过了检验，我们才获得了支持它的证据。

这就是检验严苛性 (severity)。换句话说，证据的分量不仅取决于结果是否与主张相符，也取决于检验是否真的有能力发现主张是错的。注意，这就是被量化后的第 2 日的波普尔思想。从这个角度看，问题的根源不在于 p 值，而在于对检验严苛性的背弃。通过数据钓鱼或反复尝试才得到的 p 值毫无价值，不是因为它是个 p 值，而是因为那场「检验」从未严苛过：它几乎不可能得出其他结果。梅奥对改革者的警告很尖锐：如果丢掉所有门槛和错误控制，你得到的不是更细腻的科学，而是更缺乏问责的科学，对于一个主张何时可被认为经受住了较严苛的检验，将失去公共标准。正文所追求的较为稳妥的综合立场就存在于此：既不迷信 p 值，也不一概弃用，而是要求检验严苛性，报告大小和不确定性，并让错误假设有较大概率被检验排除。

§7 与下一日的联系

用硬币投掷理解 p 值

最后介绍一个简洁的转换，因为它悄悄地翻开了第 7 日的内容。Sander Greenland (2019) 建议我们不要只盯着单独报告的 p 值，而是取它的「惊异度」 (surprisal)，这直接借用了信息论的概念：S 值，定义为 $S = - lo g_{2} p$ 。S 值把 p 值转换为以比特表示的惊异度，用来描述数据与受检模型的不相容程度。

这种转化非常具体。问：同一枚公平硬币要连续出现多少次正面，才能达到这种罕见程度？那个次数就是 S 值。一个 $p = .05$ 的结果带有约 4.3 比特，这一惊异度大致相当于公平硬币连续出现四至五次正面的罕见程度。一旦这样表达，魔力就消失了。连续四次正面朝上有点意思，但它算不上发现。

移动滑块，把任意 p 值换算成第 7 日的信息单位。

换算表把常见的 p 值转换成第 7 日介绍的比特惊异度。

交互式 · 以比特计量的惊异度

S-值

拖动以设定 p 值。S-值 ( $S = - lo g_{2} p$ ) 会告诉你它代表多少次「硬币全正面」的惊异度，也就是以比特表示数据在受检模型下有多出人意料。

p 值 0.050

4.3比特的惊异度 ≈ 4–5 枚硬币全部正面

S 值参考

S 值将 p 值转化为比特惊异度：S = -log2(p)。

p 值	S 值	硬币投掷类比
.05	4.3 比特	约连续 4 到 5 次正面。
.01	6.6 比特	约连续 7 次正面。
.005	7.6 比特	约连续 8 次正面。

实践指南

研究者的统计防错清单

从上文及正文中提炼出的精髓 —— 将运气转化为知识的举措：

预注册验证性检验。在看到数据前明确主要结果变量、模型、样本量和停止规则。偏离方案或新增的分析应标为探索性分析。
始终报告效应量及相容性区间。效应量及其不确定性「才是」结果；p 值只是个脚注。
围绕最小实质重要效应规划样本量。先设定目标功效，再计算检测这一效应所需的样本量；样本量不足的研究得出的「显著」结果很可能是虚高的（M 类错误）。
将你的 p 值转化为比特。如果它只有几次硬币投掷的惊异度，请如实说明，不要过度推销。
检查跨合理分析的稳健性（模型设定曲线），并询问结果是通过了严苛检验，还是仅仅通过了一个「有利」的检验。
当必须测试许多事物时，控制错误发现率，同时说明族错误率和功效之间的取舍。
如果你想排除具有实质意义的效应，请进行等效性检验。在你真正寻找过「不存在具有实质意义的效应」的证据之前，缺乏证据并不能证明不存在。

附录要点总结

核心观点: p 值既不是假设为真的概率，也不是结果由偶然造成的概率；它只衡量在指定模型成立时，数据有多不相容。费舍尔式证据与内曼—皮尔逊式决策规则的混合，是许多误读的来源。
关键计算: 在连续精确检验中，零假设成立时 p 值近似均匀分布；未经校正地反复查看，会使最终越过固定阈值的概率高于名义错误率。p = .05 所代表的惊异程度并不等于 95% 的真实性。
实践转向: 更可靠的分析应同时报告效应量和不确定性，使用等效性检验、错误发现率控制、贝叶斯因子或检验严苛性，并通过 P-curve、GRIM 和 statcheck 等工具审查发表结果。

来源 · 附录

来源与延伸阅读

Fisher, R. A. (1925). Statistical Methods for Research Workers. Oliver & Boyd. — p 值作为连续证据衡量标准；.05 作为灵活惯例。
Neyman, J. & Pearson, E. S. (1933). “On the Problem of the Most Efficient Tests of Statistical Hypotheses.” Philosophical Transactions of the Royal Society A 231: 289–337. — 将检验视为具有 α、β 和功效的决策规则。
Gigerenzer, G. (2004). “Mindless statistics.” The Journal of Socio-Economics 33(5): 587–606. — 将「零假设仪式」视为不连贯的费舍尔/内曼-皮尔逊混合体。
Goodman, S. N. (1999). “Toward Evidence-Based Medical Statistics. 1: The P Value Fallacy.” Annals of Internal Medicine 130(12): 995–1004. doi:10.7326/0003-4819-130-12-199906150-00008.
Anscombe, F. J. (1954). “Fixed-Sample-Size Analysis of Sequential Observations.” Biometrics 10(1): 89–100. — 采样至预设结论。
Armitage, P., McPherson, C. K. & Rowe, B. C. (1969). “Repeated Significance Tests on Accumulating Data.” Journal of the Royal Statistical Society A 132(2): 235–244. — 在 H₀ 下，可选停止以概率 → 1 跨过任何阈值。
Simonsohn, U., Nelson, L. D. & Simmons, J. P. (2014). “P-curve: A Key to the File-Drawer.” Journal of Experimental Psychology: General 143(2): 534–547. doi:10.1037/a0033242.
Bennett, C. M., Baird, A. A., Miller, M. B. & Wolford, G. L. (2010). “Neural Correlates of Interspecies Perspective Taking in the Post-Mortem Atlantic Salmon.” Journal of Serendipitous and Unexpected Results 1: 1–5. (HBM 2009 海报; 2012 搞笑诺贝尔奖 / Ig Nobel Prize) — fMRI 中的多重比较。
Vul, E., Harris, C., Winkielman, P. & Pashler, H. (2009). “Puzzlingly High Correlations in fMRI Studies of Emotion, Personality, and Social Cognition.” Perspectives on Psychological Science 4(3): 274–290. — 「巫毒相关」；非独立性错误。
Brown, N. J. L. & Heathers, J. A. J. (2017). “The GRIM Test: A Simple Technique Detects Numerous Anomalies in the Reporting of Results in Psychology.” Social Psychological and Personality Science 8(4): 363–369. doi:10.1177/1948550616673876.
Nuijten, M. B., Hartgerink, C. H. J., van Assen, M. A. L. M., Epskamp, S. & Wicherts, J. M. (2016). “The prevalence of statistical reporting errors in psychology (1985–2013).” Behavior Research Methods 48: 1205–1226. doi:10.3758/s13428-015-0664-2 — statcheck 审计。
Ioannidis, J. P. A. (2005). “Why Most Published Research Findings Are False.” PLoS Medicine 2(8): e124. — 阳性预测值引擎（重温第 2 日内容）。
Colquhoun, D. (2014). “An investigation of the false discovery rate and the misinterpretation of p-values.” Royal Society Open Science 1: 140216. doi:10.1098/rsos.140216. Colquhoun, D. (2017). “The reproducibility of research and the misinterpretation of p-values.” Royal Society Open Science 4: 171085. — 在特定先验概率、功效和模型设定下， $p \approx .05$ 可对应约 $26%$ 的误报风险。
Lindley, D. V. (1957). “A Statistical Paradox.” Biometrika 44(1–2): 187–192. — 在大 n 下，p 值与贝叶斯因子的杰弗里斯-林德利分歧。
Meehl, P. E. (1990). “Why Summaries of Research on Psychological Theories Are Often Uninterpretable.” Psychological Reports 66(1): 195–244. — 普遍微弱相关现象（crud factor）；点零假设几乎从不完全正确。
Gelman, A. & Carlin, J. (2014). “Beyond Power Calculations: Assessing Type S (Sign) and Type M (Magnitude) Errors.” Perspectives on Psychological Science 9(6): 641–651. doi:10.1177/1745691614551642.
Lakens, D. (2017). “Equivalence Tests: A Practical Primer for t Tests, Correlations, and Meta-Analyses.” Social Psychological and Personality Science 8(4): 355–362. doi:10.1177/1948550617697177 — TOST 程序。
Benjamini, Y. & Hochberg, Y. (1995). “Controlling the False Discovery Rate.” Journal of the Royal Statistical Society B 57(1): 289–300. — FDR 与全族错误率。
Mayo, D. G. (2018). Statistical Inference as Severe Testing: How to Get Beyond the Statistics Wars. Cambridge University Press. — 检验严苛性；误差统计学推理。
Greenland, S. (2019). “Valid P-Values Behave Exactly as They Should: Some Misleading Criticisms of P-Values and Their Resolution With S-Values.” The American Statistician 73(sup1): 106–114. doi:10.1080/00031305.2018.1529625 — S 值 / 惊异度，以比特为单位。

专题深入附录2020 年后的统计方法选读内容。

正文讨论了 p 值与分析灵活性如何把噪声转化为发表结果。本附录转向 2020 年以来的统计方法，考察研究者如何把错误率控制落实到具体工作流程：停止规则、校准集、金标准标注、选择程序、隐私机制和审计日志。新方法可以在持续查看数据时保持统计保证，也可以用少量可靠标注校正大规模模型预测，或把隐私机制产生的额外噪声纳入不确定性。但每种方法都有明确适用条件，不能被视为普遍有效的保障。

范围与基本规则

本附录延续第 6 日的原则：没有任何方法被视为灵丹妙药。每类方法都会贴上成熟度标签、滥用警告，并回溯第 1 至 5 日关于 p 值操纵、基础率和因果推断的教训。只有当 2020 年后的方法改变了实践时，才会包含较旧的基础内容。

领域地图

十类新方法：按所解决的统计问题分类

按成熟度筛选这张图谱。绿色表示核心理论已经确立；琥珀色表示严肃且有前景但仍在沉淀；红色表示可能很重要，但当前也很危险。

下方图谱按十种 2020 年后方法所攻击的失败模式排序，并标出成熟度。

Wave 01

随时有效推断

能承受可选停止、连续监控和顺序累积的检验与区间。

已确立

Wave 02

保形风险控制

围绕黑箱模型，为预测集、弃权和一般风险指标提供分布无关的外包装。

核心已确立

Wave 03

预测驱动推断

使用廉价 AI 预测，但不把它们当真值；用少量金标准样本校正。

Science / PNAS

Wave 04

正交因果机器学习

让灵活机器学习拟合辅助函数，同时用正交得分保护因果估计。

正在成熟

Wave 05

发现之后的推断

选择后推断、数据裂变和因果发现校正，让探索不再双重使用数据。

快速前沿

Wave 06

私有数据推断

把差分隐私和合成数据释放引入的不确定性纳入置信区间。

正在成长

Wave 07

贝叶斯工作流

先验预测检查、后验预测检查、SBC、模型批评：把推断当作可审计流程。

实践迁移

Wave 08

大规模取证

数据侦探、决策市场、机器学习复现预测、论文工厂检测和期刊层面分诊。

有前景

Wave 09

硅基样本

把 LLM 当作模拟受访者或实验参与者：可用于试运行，危险在于替代真人。

有争议

Wave 10

AI 分析师与基准

自动分析代理、基准污染、复现漂移和“AI 科学家”流水线。

未定

01随时 02保形 03PPI 04因果 ML 05发现后 06隐私 07工作流 08取证 09硅基 10AI 分析师

§1 允许持续查看数据的推断

随时有效推断：在持续查看下保持错误率控制

方法 01理论已确立普及尚不均衡

传统的固定样本检验非常脆弱，因为它假设你在看到数据前就确定了样本量。但现代科学并非如此。A/B 测试的数据持续流入。平台团队不断刷新仪表盘。临床试验有中期查看。实验室在第一批数据「几乎显著」时会增加受试者。传统固定样本 p 值并不适用于这种持续监测环境。

随时有效推断 (anytime-valid inference) 改写了统计保证的适用条件。它不再使用仅在预设停止时点有效的 p 值，而是使用 e 值 (e-values)、e 过程 (e-processes)、随时有效的 p 值以及置信序列：这些证据衡量标准和区间旨在对任意停止时点保持有效。在程序正确构造且假设成立时，研究者可以根据当前数据决定是否继续采样，同时保持规定的错误率或证据保证。

这并非装饰性的升级。它直接针对第 6 日提到的欺骗自己的核心机制之一：可选停止。2020 年后的前沿是「博弈论统计 / 安全的随时有效推断」语言的整合。它将证据视为与自然进行序贯博弈时的资本过程。如果零假设为真，这个资本过程就无法系统性地无限制增长；Ville 式不等式将这一逻辑转化为序贯检验和置信序列。

前沿校准器：相关理论已经相当成熟。实际风险在于文化层面：困难往往不在理论，而在团队仍沿用普通的固定样本 p 值。如果一个团队运行着持续监测的实验，却仍在报告普通的固定样本 p 值，那么其 UI 可能看起来很现代，但推断程序仍停留在 1930 年代的纸笔时代。

回顾第 6 日

可选停止是假阳性工厂的开关之一。随时有效推断并不是说「永远不要查看中间结果」。它说的是：如果中途查看数据本来就是流程的一部分，就要把这种查看纳入统计程序，而非假装它没有发生。

交互式 · 可选停止

重复查看风险

一个简易模型：将每次查看视为一次跨过 $p < α$ 的新机会。真实的序贯依赖性更微妙，但趋势才是重点。固定样本 p 值在重复查看下非常脆弱；而随时有效程序则是专为停止规则设计的。

名义

α

0.05

查看次数12

固定样本 p 值46%

随时有效5%

红色条是在简单的独立查看近似下，至少有一次查看产生虚假「发现」的概率。绿色条则保持在预设的假警报水平。

可选停止示例

除非检验是为序贯监测而设计，否则重复查看会提高至少产生一次假警报的几率。

在 $α = .05$ 下的查看次数	朴素假警报风险	随时有效目标
1	5%	5%
12	约 46%	5%
100	约 99%	5%

§2 为黑盒模型提供统计保证

共形预测与共形风险控制

方法 02核心方法已确立风险控制前沿

共形预测 (conformal prediction) 是当前统计学 / 机器学习交界处一个简洁而重要的思想。研究者可以先训练预测模型，再留出校准数据，测量模型在这些留出数据上的错误程度，并利用这些错误的经验分位数为下一个案例构建预测集。无论底层预测器是线性模型、神经网络还是其他黑盒，只要校准数据和可交换性等条件成立，共形预测就可以在有限样本下提供边际覆盖保证。

但它通常不保证每个子群、每个输入点或分布偏移后的条件覆盖，因此实际部署还需要分组诊断和压力测试。2020 年后的前沿更为广阔：共形风险控制 (conformal risk control) 不仅仅询问「真实标签是否落在集合内？」，而是询问「我们能否控制选定的风险函数？」。在视觉和语言任务中，有用的错误指标可能是漏报率、图距离、暂缓决策的风险、检索遗漏率或词元级 F1。共形风险控制将共形思想扩展到单调损失，并实现了预期风险的有限样本控制。

这对 AI 系统尤其重要，因为输出往往不是一个简单数值。聊天回答、分割区域、医学影像标记和结构化抽取都不能只用「对 / 错」来概括。共形风险控制可以在黑盒模型外加上一层经过校准的直接输出 / 暂缓决策 / 转交处理 / 人工复核决策机制。在最安全的版本中，模型保持为预测引擎；而共形校准层则规定在什么条件下可以信任预测。

前沿校准器：边际覆盖保证可以在总体平均意义上成立；更难实现的目标是条件覆盖。在分布偏移下，经典的可交换性保证会变弱。最近的研究处理了加权和非可交换设置、条件式保证以及 e 值变体，但从业者仍需追问校准数据是否与部署环境相似。共形方法可以校准预测不确定性，但它们无法让一个糟糕的部署环境变得安全。

交互式 · 共形方法的权衡

更高覆盖率的代价是更大的预测集

这只是一个概念性的拨盘，而非定理。更低的 $α$ 要求更高的覆盖率；模型预测性能越弱、部署分布偏移越大，预测集通常越大或越不可信。真实的保证取决于可交换性或经论证的偏移修正。

α

（允许的未覆盖率）0.10

模型预测性能0.70

部署分布偏移0.00

目标覆盖率90%

压力测试覆盖率90%

集合大小42%

一个大到毫无用处的集合也可以满足覆盖率要求。统计有效性只能兜底，不能让人高枕无忧。

共形风险参考

共形保证在覆盖率与集合大小之间进行权衡，且取决于校准数据是否与部署环境相似。

选择	何处改善	何处可能失效
较低的 $α$	更高的目标覆盖率	更大的预测集。
更好的模型预测性能	更小且有用的集合	仍需校准。
部署分布偏移	无自动改善	可交换性可能被破坏。

§3 使用 AI 预测并校正偏差

预测辅助推断：偏差校正是关键

方法 03Science 2023PNAS 2024 扩展普及中

AI 可以标记一百万个星系、卫星图像切片、病理切片、蛋白质记录或临床笔记。但从这些预测中得出的统计估计并不会自动具备有效性，因为模型误差不是无规律的录入噪声，而会沿着模型的盲区系统性出现。

预测辅助推断 (prediction-powered inference, PPI) 利用大量低成本模型预测提高估计效率，再用一小批人工或仪器核验的金标准标注校正模型偏差。关键是不把模型预测直接当成真值。金标准样本用于估计模型对估计目标造成的偏差，并形成一个偏差校正项 (rectifier)；大量预测则用于提高估计精度。模型预测越有用，区间通常越窄；如果模型表现较差，方法会退回到接近仅使用标注数据的结果，而不是让有偏预测主导结论。

PPI++ 通过适应预测质量提高了这一思想的效率。交叉预测辅助推断 (Cross-PPI) 则通过交叉拟合，在交叉验证的不同折中分别完成预测和偏差校正。其架构体现了一种典型模式：利用黑盒预测提高精度，但在校正步骤中建立统计保证。

它的主要限制来自实践条件。研究者仍需从目标人群中抽取具有代表性的金标准标注样本。不要因为某个变量容易由模型标注，就反过来改变原先的研究问题或估计目标。且如果标注集漏掉了模型失效的亚组，偏差校正项也可能会继承这一盲点。

交互式 · PPI 权衡

低成本预测只有经过金标准校正后才会提高精确度

移动滑块以比较三种区间：经典的仅标注、朴素地将 ML 视为真值、以及 PPI。未经校正的区间可能很窄但却是错的。PPI 旨在比仅标注区间更窄，同时通过偏差校正项保持统计有效性。

金标准标注200

未标注预测20,000

模型预测与真实标签的相关性0.70

未经校正的模型偏差0.20

仅标注

朴素 ML

PPI

仅标注朴素预测 PPI 真值

预测辅助推断参考

PPI 利用模型预测提高精度，依靠金标准标注保证统计有效性。

估计量	优势	失效模式
仅标注	依靠金标准标注保证统计有效性	标注稀缺时区间较宽。
朴素地将 ML 视为真值	非常窄	模型有偏差时可能错过真值。
PPI	校正后仍保持的精度	需要具有代表性的金标准标注。

§4 机器学习辅助因果推断

因果效应的双重／去偏机器学习

方法 04理论已确立工具链成熟

第 5 日的警告直截了当：相关性不等于干预。要从观测数据中估计因果效应，你必须调整混杂因素，同时又不能把复杂的非线性结构强行纳入线性模型。

双重 / 去偏机器学习 (DML) 让机器学习负责拟合高维辅助函数（统计文献中也称滋扰函数，nuisance functions），也就是为估计目标参数而引入的辅助模型，例如结果模型和倾向得分模型；再以正交得分和交叉拟合保护目标参数估计，降低辅助模型中的小误差对最终结果的一阶影响。

2020 年后的变化并不是 DML 在 2020 年后才被发明；事实并非如此。变化在于软件生态和应用实践逐渐成熟。Python 和 R 中的 DoubleML 实现、因果森林工作流以及生物医学异质性治疗效应综述，已经将「对滋扰函数作正交化处理」从研讨会术语变成了应用工作流。

前沿校准器必不可少：DML 降低了对辅助模型具体参数形式的依赖，但并不放宽因果识别所需的假设。如果用于后门调整的变量集选错、存在未测量混杂，或处理分配受隐藏变量影响，即使正交得分计算得很精确，估计得再精确，也可能不是目标因果效应。DML 解决的是灵活建模混杂关系，不能替代因果识别。

回顾第 5 日

只有在设计和识别论证表明目标可达时，DML 才能帮助估计 $P (Y ∣ do (X))$ 。算法不能把 $P (Y ∣ X)$ 硬说成因果关系。

§5 探索后推断：校正选择过程

发现后的推断：选择后分析、因果发现与数据拆分

方法 05快速变动的前沿核心理论较成熟

小径分岔的花园不会消失。现代分析往往始于发现：对细胞进行聚类、寻找亚组、选择变量、学习因果图、选择图像区域、选择变量变换方式、要求 AI 分析师「找出重要的东西」。关键错误在于使用同一份数据来发现目标，然后假装该目标是预先指定的。

选择后推断 (post-selection inference) 是统计学在正面计入选择代价方面的尝试。经典方法包括以选择事件为条件、将数据拆分为探索集和验证集、或构建考虑选择过程后仍保持覆盖率的同时置信区间。2020 年后的前沿增加了三个特别相关的想法：

算法稳定性如果选择规则是随机且稳定的，那么它对任何单一观测值的敏感性就可以被量化。这种稳定性可以转化为选择后修正，借鉴了差分隐私和自适应数据分析的思想。

数据裂变 (data fission) 与数据稀化 (data thinning)。与其拆分行，不如把单个观测所包含的统计信息拆分为选择部分和推断部分。一块用于探索；另一块用于检验。对于某些分布，最近的数据稀化方法可以产生相互独立的数据部分，而无需丢弃整个观测值。

因果发现后的有效推断。运行图发现算法然后在同一份数据上估计效应会破坏覆盖率。新工作对发现过程进行了随机化和修正，使后续因果区间恢复有效覆盖。

前沿校准器：这并不容易，在预注册可行的情况下，它也不是预注册的替代品。但它是探索性科学值得继续发展的方向，因为科学不可能禁止探索；关键是后续推断必须计入选择过程。

交互式 · AI 分析师多重宇宙

当分析成本低廉时，花园长得更快

假定纯粹是噪声且名义 $α = .05$ 。每组提示词设定、模型、结果和清洗规则都会使可能的分析路径成倍增加。独立性近似虽显粗糙，但其中的警示意义不言自明。

尝试的提示词设定4

尝试的模型 / 智能体3

考虑的结果变量5

清洗 / 协变量规则4

240 条分析路径

假阳性风险≈100%

预注册5%

一个报告完整多重宇宙的 AI 分析师可以提高透明度。一个悄悄选择最有利路径的 AI 分析师，则是 p 值操纵的加速器。

AI 分析多重宇宙参考

更多的提示词、模型、结果和清洗规则会使可能的分析路径成倍增加。

提示词	模型	结果变量	清洗规则	路径数
4	3	5	4	240
10	5	10	5	2,500
单一预注册方案	1	1	1	1

§6 发布数据并非原始数据时

差分隐私：将隐私噪声纳入数据发布设计

方法 06高风险前沿政策相关

开放科学想要数据共享。研究参与者、公司、医院和政府则要求保密。差分隐私是一种成熟而有力的形式化框架：它通过添加随机噪声，使得加入或移除任意一个个体对发布结果的影响都被限制在一定范围内。

对于第 6 日的内容，其中的统计要点在于：隐私噪声并不是一个文件格式的细节。如果你把经过差分隐私处理的统计数据或合成数据当成普通观测值来分析，你的区间可能会过窄，不确定性会被低估，显著性判断和区间估计都可能失真。隐私机制本身就是数据生成过程的一部分，因此有效的推断必须将其包含在内。

2020 年后的工作一直致力于构建噪声感知型置信区间、差分隐私 bootstrap（自助法）、从差分隐私合成数据中进行推断，以及评估所声称的隐私保证是否真的符合用户理解。这并不华丽，但至关重要。在未来的十年里，许多研究者将无法直接接触原始行政或医疗数据，只能使用经过隐私机制处理的输出。前沿问题变成了：我们如何在不暴露个人身份的前提下，让这些输出在科学上发挥作用？

前沿校准器：差分隐私通过牺牲某些分析的精确度来保护个人。一个有效的差分隐私置信区间可能会宽得多。这并不是失败，而是明确显示隐私保护带来的精度代价。真正危险的是忽略隐私噪声，只报告一个过窄的区间。

§7 建模与推断是一套工作流程

贝叶斯工作流程与基于模拟的校准

方法 07实践转型计算敏感

贝叶斯统计常被描述为比 p 值更直接的替代方案：给未知量设定先验，计算后验，报告关于参数的概率。这很有吸引力，但如果先验未经审视、模型设定错误且采样算法未收敛或诊断失败，它也会变成另一种形式的仪式。

2020 年后的贝叶斯工作流运动提出：真正值得信任的，不是一个孤立的后验分布，而是生成、检查并修正它的完整工作流。先验预测检查会询问模型在看到数据前能否生成合理的数据；后验预测检查会询问拟合后的模型仍然无法复现哪些特征；交叉验证会询问预测在留出数据上是否仍然表现良好；而基于模拟的校准 (SBC) 则会检查当数据从模型模拟出来时，推断算法是否能恢复已知的参数。

这之所以属于前沿附录，是因为它直接回答了第 1 日关于「停摆的钟偶尔也会报对时间」的担忧。模型即使设定错误，也可能在某些数值指标上看起来表现良好。而工作流使路径变得可见：什么是假设的，什么是模拟的，什么失败了，什么改变了，以及还剩多少不确定性。

前沿校准器：模型检查不能证明模型正确。后验预测检查可能会错过关键的偏差。SBC 是在假定的生成模型下验证计算，而非验证模型本身的真实性。但与单独报告的后验区间相比，完整记录的工作流更不容易掩盖模型问题。

§8 统计取证工具的发展

大规模统计取证与复现筛查

方法 08取证方法已验证规模化仍处于早期

附录 I 中的统计取证工具箱还是手工作坊式的：GRIM 检验、statcheck、p-curve、数字异常、电子表格中的异常模式。而 2020 年后的变化是，自动化程度和覆盖规模都显著提高了。

Francesca Gino / Data Colada 案例展示了这种力量与危险。Data Colada 在 2023 年发表了详细的异常分析；哈佛大学的调查结论认为存在研究不端行为；Gino 否认有错并提起诉讼。2024 年 9 月，联邦法官驳回了针对 Data Colada 被告的全部诉讼请求；2025 年 5 月，哈佛撤销了 Gino 的终身教职并解雇了她，与此同时，与哈佛有关的部分法律争议仍在继续。这一科学教训并不是「博主应该接管大学」，而是透明的取证论证可以成为正式纠错系统的一部分。

下一层是风险筛查。我们无法复现每一项主张。决策市场已经表明，科学家们的集体预测可以识别出哪些发现更可能复现、更不可能复现：在《自然-人类行为》的一项研究中，市场看好的研究的复现率远高于不被看好的研究。开放科学中心的 Predicting Replicability Challenge 加入了基于数千项复现结果训练的机器学习模型。初步结果是发人深省的：第一轮在某些指标上表现较弱，第二轮有所提高。这种细微差别非常重要：复现性预测是一个很有前景的烟雾报警器，而非真理机器。

前沿校准器：取证工具可能会被误用为自动定罪工具。异常的数据集并不自动等同于造假；较低的可复现性评分也不是判决。统计取证适合发现值得核查的异常和确定复现优先级，不应被当成自动判定学术不端的工具。这类工具还需要公开代码、经过校准的误报率，以及同时保护举报者和被指控研究者的制度。

时间线 · 方法成熟度与适用边界

成熟度一瞥

2021–2024

随时有效推断整合

随时有效 A/B 测试、e-过程、置信序列和安全检验成为面向序贯研究的新推断框架。

2023–2025

共形预测开始走向实际应用

通俗教程、超越可交换性的理论、共形风险控制、条件式保证以及 NLP/LLM 应用拓宽了使用场景。

2023–2024

预测辅助推断落地

Science 论文、PPI++ 和 Cross-PPI 实现了利用低成本模型预测加少量金标准标注的有效估计。

2023–2025

发现后的推断进入实践

算法稳定性、数据裂变 / 数据稀化以及因果发现后的有效推断直接解决了探索性工作流中的重复利用数据问题。

2022–2026

隐私感知型推断变得不可回避

DP 合成数据和差分隐私置信区间迫使分析师将隐私噪声包含在不确定性中，而非将发布的数据视为原始数据。

2023–2026

LLM 进入研究流水线

模拟受试者、AI 数据分析师、基准测试污染以及 AI 科学家系统制造了一个新的可复现性问题：不仅在于人类选择了什么，还在于机器选择了什么？

§9 模拟受试者不等于真实受试者

LLM 社会模拟与模拟受试者

方法 09对初步研究有用作为证据存在争议

LLM 社交模拟提出了一个很有吸引力的问题：如果一个语言模型已经吸收了足够的有关社会互动与观点的数据，它能否扮演模拟调查受访者或实验参与者的角色？第一波结果令人兴奋。在给定人口统计背景的情况下，模型有时能大致复现群体层面的回答分布。基于智能体的模拟产生了看起来合理的局部互动模式。大规模复现实验发现，在心理学和管理场景中，LLM 往往能匹配主要效应的方向。

第二波则是警示。LLM 即使在边际分布看起来正确时也可能扭曲相关性。它们往往会把回答过度集中到最常见的选项。它们可能会放大效应量。它们在社会敏感话题上的表现可能更糟。其模拟「人群」由训练数据、对齐方式、提示词和模型版本共同塑造。那不是抽样框，而是一面被机器塑造的镜子。

因此，较稳妥的用途虽然狭窄但确实存在：问卷试测、发现含糊表述、检查实验材料是否清楚，以及在正式开展真人研究之前生成初步假设。这类模拟至多可以帮助研究者形成关于效应方向和样本量的初步假设；正式的功效分析仍应以真实人类数据、可靠的既有研究或先导研究为依据。而不负责任的使用场景则是：在没有人类验证的情况下将其作为验证性证据。

报告标准应当变得严苛：模型名称及版本、日期、系统提示词、角色设定、温度、采样方案、重复运行的变异性、针对人类数据的验证，以及一套预注册规则，用以规定何时可把模拟结果计入证据。否则，模拟受试者就会变成又一座隐蔽的分岔路径迷宫，只不过披上了人类数据的外表。

§10 当 AI 承担分析工作

AI 分析师、自动化科学与基准测试污染

方法 10结论仍高度不确定工具链进展飞速

真正危险的前沿，并不是把 AI 用作分析中的一个模型，而是让 AI 决定采用哪套分析方案。

数据分析智能体可以清洗数据、编写代码、选择模型、运行检验、生成图表并撰写结果说明。StatLLM 等新基准测试评估统计代码；数据智能体基准测试则评估更长的工作流。对 LLM 数据分析的研究显示，更换模型、提示词或温度，或重复运行同一任务，都可能产生不同结果；即便任务和数据集相同，也可能得到实质上不同的估计值。在更前沿的方向上，自主研究系统现在可以生成想法、编写代码、运行实验、绘制结果、起草论文并进行自我审阅。

这并未使 AI 变得毫无用处。问题在于，AI 会以极低成本放大我们已经熟悉的统计风险。多分析师问题如今可以以极低成本反复运行。研究者自由度如今又增加了提示词、模型选择、重试次数、工具调用和内部推理路径等新的自由度。

同一种失效模式也出现在 AI 基准测试中。公开排行榜相当于对同一测试集反复试验。当静态基准测试泄露到训练数据中时，就会发生基准测试污染。开发者可以针对基准测试进行微调。分数上升可能是因为模型泛化能力更强，也可能是因为它们记住了更多，或者因为测试框架变了，亦或是因为基准测试已被过度优化、区分能力正在下降。统计对象不再是「在测试集上的准确率」；它是模型构建者、基准测试维护者与隐藏测试数据之间的一场动态博弈。

更负责任的做法包括：提示词日志、容器化代码、重复的独立智能体运行、多重宇宙报告、隐藏测试集评估、污染审计、预注册的分析指令，以及对系统决策的人类审查。梦想是让 AI 分析师暴露每一个分岔路径。噩梦则是 AI 分析师悄悄选择那个能发表的路径。

回顾第 1 日

AI 会给人一种理解的幻觉：产出更多、呈现更精美、语气更自信，但与支撑结论的可靠证据之间的联系却更少。不要把语言流畅、分析完整或排行榜分数漂亮，误当成结论已经得到可靠证据支持。解药不是少做计算，而是加强审计。

交互式 · 公开基准分数

排行榜分数不等于部署表现

下面用一个简化模型说明公开基准分数如何被高估。污染和重复提交可以提高公开分数，而不会改善未公开测试集上的部署表现。

真实部署表现72%

基准测试污染20%

排行榜提交次数12

隐藏测试集72%

公开排行榜80%

泛化差距8%

健康的评估需要轮换或隐藏测试集、审计污染、限制排行榜过拟合，并报告排名差异的不确定性。

基准测试污染参考

当调优和污染累积时，公开基准测试分数可能会高估未公开测试集上的部署表现。

情况	公开分数	隐藏测试集
干净的留出集，少量提交	更接近实际部署	更可信。
存在污染	虚高	如果真正隐藏则影响较小。
重复的排行榜调优	无需新能力即可上升	差距揭示了过拟合。

共同原则

核心不是信任 AI，而是约束并审计分析自由度

2020 年后最强大的方法共享一个模式。它们接受模型可能是黑盒、分析师可能去探索、实验可能被持续监测、数据可能被隐私保护机制处理、且科研系统可能庞大到无法人工检查。然后它们追问：在哪个环节仍能建立统计保证？

失效模式	旧有的诱惑	新的保障机制	何处仍会失效
可选停止	偷看到 p < .05 为止	随时有效 p 值、e-过程、置信序列	功效、实施细节、以及人们是否真正使用了正确的程序
黑盒预测	将 AI 输出视为真值	共形集合、共形风险控制、PPI 偏差校正项	可交换性、校准覆盖率、有偏或低质量的金标准标注、部署分布偏移
灵活因果调整	选择一个随手可用的回归模型	DML、正交得分、交叉拟合	未测量的混杂因素和错误的识别论证
探索性发现	筛选后假装是预先计划的推断	选择后推断、数据拆分 / 数据裂变 / 数据稀化、稳定性修正	功效损失、适用范围窄、未报告的探索行为
隐私过滤数据	将发布的输出视为原始观测值进行分析	噪声感知型 DP 推断、差分隐私 bootstrap（自助法）、有效的 DP 置信区间	区间过宽、效用弱、隐私预算设定或解释不当
自动化科学	让智能体报告最有利的结果	提示词日志、重复运行、隐藏测试集评估、多重宇宙报告、统计取证风险筛查	不透明模型、围绕公开基准的策略性优化、发表激励

最初的统计学危机并不只由恶意造假造成。它也来自灵活的人类在奖励「漂亮故事」的激励系统中，使用脆弱的程序。下一次危机可能有异曲同工之处：灵活的机器在奖励「惊人产出」的激励系统中，使用脆弱的评估方案。其解药在更高层面是一致的：使分岔路径可见，在合适环节建立统计保证，并拒绝将呈现精美误认为已有可靠证据支撑。

附录要点总结

新工具箱: 面对黑盒模型、流式数据、隐私限制和 AI 辅助分析，统计学发展出共形校准、预测辅助推断、正交因果得分、随时有效证据、选择后修正和工作流程审计等方法。
核心教训: 统计保证必须落实在工作流程中真正影响结果的环节：停止规则、校准集、金标准标注、选择程序、隐私机制和审计日志。
现实风险: 模拟受试者、AI 分析师和公开基准测试都可能以机器速度重复分析偏差。提示词、模型版本、重复运行、隐藏测试和完整分析记录应成为常规科学记录的一部分。

来源 · 附录 II

来源与延伸阅读

Ramdas, A., Grünwald, P., Vovk, V. & Shafer, G. (2023). 「Game-Theoretic Statistics and Safe Anytime-Valid Inference.」 Statistical Science. doi. 关于 e-过程和置信序列的核心综述。
「Game-Theoretic Statistics and Safe Anytime-Valid Inference」 editorial (2024), New England Journal of Statistics in Data Science. 期刊页面.
Johari, R., Pekelis, L. & Walsh, D. J. 「Always Valid Inference: Continuous Monitoring of A/B Tests.」 Operations Research. doi.
Angelopoulos, A. N. & Bates, S. (2023). 「Conformal Prediction: A Gentle Introduction.」 Foundations and Trends in Machine Learning 16(4):494–591. doi.
Barber, R. F., Candès, E. J., Ramdas, A. & Tibshirani, R. J. (2023). 「Conformal Prediction Beyond Exchangeability.」 Annals of Statistics. doi.
Angelopoulos, A. N., Bates, S., Fisch, A., Lei, L. & Schuster, T. (2024). 「Conformal Risk Control.」 ICLR. OpenReview.
Gibbs, I., Cherian, J. J. & Candès, E. J. (2025). 「Conformal Prediction with Conditional Guarantees.」 JRSS-B. doi.
Gauthier, E., Bach, F. & Jordan, M. I. (2025). 「E-Values Expand the Scope of Conformal Prediction.」预印本. arXiv.
Campos, M. et al. (2024). 「Conformal Prediction for Natural Language Processing: A Survey.」 TACL. 期刊页面.
Angelopoulos, A. N., Bates, S., Fannjiang, C., Jordan, M. I. & Zrnic, T. (2023). 「Prediction-Powered Inference.」 Science 382:669–674. doi.
Angelopoulos, A. N., Duchi, J. C. & Zrnic, T. (2023). 「PPI++: Efficient Prediction-Powered Inference.」 arXiv.
Zrnic, T. et al. (2024). 「Cross-Prediction-Powered Inference.」 PNAS. doi.
Chernozhukov, V. et al. (2018). 「Double/Debiased Machine Learning for Treatment and Structural Parameters.」 The Econometrics Journal. doi.
Bach, P., Chernozhukov, V., Kurz, M. S. & Spindler, M. (2022). 「DoubleML — An Object-Oriented Implementation of Double Machine Learning in Python.」 JMLR. 期刊页面.
Bach, P. et al. (2024). 「DoubleML — An Object-Oriented Implementation of Double Machine Learning in R.」 Journal of Statistical Software. 期刊页面.
Abécassis, J. et al. (2025). 「From Prediction to Prescription: Machine Learning and Causal Inference for the Heterogeneous Treatment Effect.」 Annual Review of Biomedical Data Science. doi.
Gradu, P., Zrnic, T., Wang, Y. & Jordan, M. I. (2025). 「Valid Inference After Causal Discovery.」 JASA. doi.
Zrnic, T. & Jordan, M. I. (2023). 「Post-Selection Inference via Algorithmic Stability.」 Annals of Statistics. doi.
Dharamshi, A. et al. (2025). 「Generalized Data Thinning Using Sufficient Statistics.」 JASA. doi.
Neufeld, A., Dharamshi, A., Gao, L. L. & Witten, D. (2024). 「Data Thinning for Convolution-Closed Distributions.」 JMLR. pdf.
Räisä, O. et al. (2023). 「Noise-Aware Statistical Inference with Differentially Private Synthetic Data.」 AISTATS. PMLR.
Drechsler, J. et al. (2022). 「Nonparametric Differentially Private Confidence Intervals for the Median.」 Journal of Survey Statistics and Methodology. 期刊页面.
NIST (2025). Guidelines for Evaluating Differential Privacy Guarantees, SP 800-226. pdf.
Gelman, A. et al. (2026). Bayesian Workflow. 维护版.
Modrák, M. et al. 「Simulation-Based Calibration Checking for Bayesian Computation.」 Bayesian Analysis. doi.
Säilynoja, T., Schmitt, M., Bürkner, P.-C. & Vehtari, A. (2026). 「Posterior SBC: Simulation-Based Calibration Checking Conditional on Data.」 Statistics and Computing. doi.
Argyle, L. P. et al. (2023). 「Out of One, Many: Using Language Models to Simulate Human Samples.」 Political Analysis. doi.
Bisbee, J., Clinton, J., Dorff, C., Kenkel, B. & Larson, J. (2024). 「Synthetic Replacements for Human Survey Data? The Perils of Large Language Models.」 Political Analysis. doi.
Cui, Z., Li, N. & Zhou, H. (2025). 「A Large-Scale Replication of Scenario-Based Experiments in Psychology and Management Using Large Language Models.」 Nature Computational Science. doi.
Messeri, L. & Crockett, M. J. (2024). 「Artificial Intelligence and Illusions of Understanding in Scientific Research.」 Nature. doi.
Holzmeister, F. et al. (2025). 「Examining the Replicability of Online Experiments Selected by a Decision Market.」 Nature Human Behaviour. doi.
Center for Open Science (2026). 「Predicting Replicability Challenge: Round 2 Results.」 COS 博客.
Science (2024). 「Honesty Researcher’s Lawsuit Against Data Sleuths Dismissed.」新闻.
The Guardian (2025). 「Harvard Professor Fired Following Claims She Falsified Ethics Research Data.」新闻.
Lu, C. et al. (2026). 「Towards End-to-End Automation of AI Research.」 Nature. doi.
Song, X. et al. (2026). 「StatLLM: A Dataset for Evaluating the Performance of Large Language Models in Statistical Analysis.」 Scientific Data. doi.
Cui, J. & Alexander, R. (2026). 「Same Prompt, Different Outcomes: Evaluating the Reproducibility of Data Analysis by LLMs.」 arXiv.
Deng, C. et al. (2024). 「Investigating Data Contamination in Modern Benchmarks for Large Language Models.」 NAACL. ACL Anthology.
Xu, C. et al. (2024). 「Benchmark Data Contamination of Large Language Models: A Survey.」 arXiv.
Choi, H. K. et al. (2025). 「How Contaminated Is Your Benchmark? Measuring Dataset Leakage in Large Language Models with Kernel Divergence.」 ICML. PMLR.

第 006 日终 · 尚有 174 日课程