下载本日课程：EPUB PDF

模块一 · 知识与推理的根基 · 第 002 日 / 180

科学方法与划界问题

太阳四十五亿年来每日东升。明天也一定会升起吗？

● 每一次过往的日出都是证据——却证明不了下一次日出

若问孩子明天太阳会不会升起，他大概会觉得这是个荒唐问题：当然会，它一直如此。可一旦追问「你凭什么相信」，问题便转向了认识论。1739 年，一位沉默寡言的苏格兰哲学家指出，我们唯一能引用的依据是太阳过去升起过；我们的论证于是变成：未来会像过去，因为过去的经验表明未来会像过去。请再读一遍：这个论证预先假定了它要证明的结论。

这就是归纳问题（Problem of Induction）。科学并不是在解决了它之后才开始运作，恰恰相反，科学始终在这个限制条件下运作。今天我们将看到，思想家用了两个多世纪重新思考它：有人放弃证明，转而强调可证伪性；有人指出真实的科学实践远比教科书的步骤复杂；到了现代，科学家又通过大规模复现，直接检验已发表的发现究竟能否再次出现。

当前位置

昨日（第 1 日）我们问一个信念何时才算知识，并看到盖梯尔式信念如何因运气而非可靠联系得到真值。今天把这个问题扩大到科学这一社会制度：科学如何判断哪些主张值得接受检验？请保留昨天的工具。第 1 日的信念刻度盘说明信念有程度之分，这会成为回应休谟的一个重要资源；而证据校准的原则，也将在今天的复现研究中接受检验。

归纳问题

休谟：归纳没有逻辑保证

1739 年，二十八岁的戴维·休谟出版《人性论》。这部著作当时反响冷淡，他后来甚至说它「一出生就夭折了」。但书中提出了一个影响深远的问题：我们对于尚未经历之事的信念——相信明天的面包仍能充饥，相信太阳仍会升起——都依赖一个未明说的假设，即自然齐一，未观察到的情形会按照过去的方式发生。

休谟指出，这个假设无法得到逻辑证明。太阳明天不升起并不包含矛盾。正如他以简洁而严谨的笔触所写：

太阳明日不会升起，这一命题并不比它明日会升起更不可理解，也不蕴涵更多矛盾。 ——休谟，《人类理解研究》，§IV（1748）

因此，自然齐一不是逻辑真理。能否用经验为它辩护，例如说「过去一向如此，所以未来大概也如此」？问题在于，这种辩护正是利用过去预测未来的成功来证明过去预测未来的方法可靠，因而构成循环论证。休谟的结论相当激进：我们对未来的确信没有演绎意义上的理性证明；我们期待日出，首先是因为习惯，而不是因为逻辑已经保证了它。

这也是科学方法从一开始就必须面对的限制。如果无论积累多少个例都不能证明普遍定律——再多的白天鹅也不能证明「所有天鹅都是白的」——那么科学在提出自然定律时，究竟是在做什么？

黑天鹅的教训

欧洲人曾深信所有天鹅都是白的，以至于「黑天鹅」几百年来一直被用来指称不可能之物。1697 年，荷兰探险家抵达西澳大利亚，在河湾中发现了黑天鹅（Cygnus atratus）。无数次确认也无法使普遍命题成为必然真理；一个反例却足以使它失效。这种不对称性是理解今天内容的关键。

一只黑天鹅带着几只灰色幼雏在水面上游动。 — 黑天鹅清楚地显示出两者的不对称：确认案例可以积累数百年，一个反例却足以推翻普遍命题。

一种回应

波普尔：不要证明，尝试反驳

1920 年代的维也纳，年轻的卡尔·波普尔身处几种都声称自己是「科学」的思想运动之间：弗洛伊德的精神分析、阿德勒的个体心理学和马克思的历史理论。支持者似乎随处都能找到证据：一句口误可以印证弗洛伊德，一次政治动荡可以印证马克思。波普尔认为，这正是问题所在。

能够解释一切的理论，往往也就没有排除任何可能。如果无论有人救起溺水儿童，还是有人眼看着他溺毙，都能被同一套弗洛伊德式解释吸收，那么这套理论就没有真正承担风险。它没有排除任何观察结果，因此也没有哪一种结果能够使它受到挑战。

爱因斯坦的广义相对论正好相反。1915 年，它作出一个明确且可能失败的预言：掠过太阳的星光应弯曲 1.75 角秒，是牛顿理论预言值的两倍。如果 1919 年日食期间的测量支持牛顿而非爱因斯坦，广义相对论就会受到严重打击。波普尔认为，愿意接受这种检验，才是科学的标志。

波普尔由此提出了一个方法论转向。休谟说得对：普遍定律永远无法被有限的观察彻底证明。那就不再试图证明，而是利用黑天鹅所揭示的不对称性：

一种理论之科学地位的标准，在于其可证伪性，或可检验性。 ——波普尔，《猜想与反驳》（1963）

任何数量的白天鹅都不能证明「所有天鹅皆白」，但一只黑天鹅就足以使它失效。证实不可能达到绝对确定；证伪却可以在特定条件下推翻一项预测。按照波普尔的观点，科学不是从证据逐级抵达确定性，而是提出大胆猜想，并尽力寻找反例。经受住严厉检验的理论并未因此被证明，只是在下一次检验之前得到暂时接受。科学知识的增长，来自猜想在反驳中存续，而不只是来自确认案例的累积。

由此产生了划界标准，即区分科学与伪科学的标准。一项主张是否具有科学性，取决于它是否排除某些可能，是否作出可能失败的预测，是否事先说明什么结果会使它错误。「经济由阶级斗争支配」在通常表述下没有明确排除任何结果；「星光弯曲 1.75 角秒」则排除了 1.74 和 1.76。后者提出了可检验的科学主张，前者更像一种可以解释一切的世界观。

也要谨慎评价弗洛伊德

这是一个清楚而有说服力的故事，也可能过于清楚。后来的哲学家，尤其是阿道夫·格伦鲍姆（1984），认为波普尔把精神分析说得过于简单：弗洛伊德有时确实提出过可能反驳自己的条件。许多受到尊重的科学领域——历史学、进化论和宇宙学——也无法进行严格的对照实验。可证伪性是重要的标准，却不是一把可以独立解决所有问题的尺子。

科学实践

库恩：科学并不按这套规则运行

波普尔描述的是科学应当如何运作。1962 年，物理学家出身的科学史家托马斯·库恩考察了科学实际如何运作，看到的过程更复杂，也更具共同体特征。他的《科学革命的结构》成为二十世纪被引用最多的学术著作之一，并使范式一词进入了广泛使用。

库恩的核心判断是：科学家在日常工作中几乎从不主动证伪宏大理论。他们从事的是常规科学，也就是在一个已被接受的框架——一个范式——内解决具体问题。化学家不会每天醒来都试图反驳元素周期表，而是用它分析反应。范式不是等待审判的理论，而是决定哪些问题有意义、怎样算作解答的框架。

实验出现异常时，科学家通常也不会按照波普尔的理想立即放弃理论。他们会把异常看作反常，暂时当作有待解决的问题，或者怀疑实验和测量出了差错。一个有用且富有成果的理论，不会因为一个难以解释的数据点就被抛弃。耐人寻味的是，这种做法偏离了朴素的证伪主义，却恰恰是波普尔曾批评弗洛伊德主义者和马克思主义者的那种做法。

只有当反常不断积累，变得过于多、过于核心而无法忽视，学科才会进入危机。危机的解决也不只是一次干净的反驳，而往往是向新范式的整体转变：托勒密的本轮和均轮让位于开普勒的椭圆，牛顿的绝对空间让位于爱因斯坦的时空。库恩认为，这类变化可能彻底到两个范式不可通约，即没有共同尺度：双方甚至不能完全同意关键词的含义以及哪些问题最重要。范式转变因此不仅是论证输赢，也涉及观察世界和提出问题的方式发生改变。

不要把库恩读成相对主义者

库恩常被引用来证明「科学只是意见」或「所有范式都同样有效」，但这并不是他的观点。他反复反驳这种解读。库恩认为科学仍然具有理性，只是这种理性比单纯的证伪规则更受共同体、历史和既有实践影响，也更加保守。范式被替代，通常是因为新的范式能够解决更多问题，而不是因为一切观点都同样合理。

进一步修正

拉卡托斯：被检验的不是孤立理论

波普尔强调证伪，库恩则指出科学家事实上不会轻易放弃范式。能否同时保留可检验性，又承认科学史的复杂性？匈牙利流亡哲学家、任教于伦敦经济学院的伊姆雷·拉卡托斯试图作出调和。但在此之前，需要先说明一个更基本的困难。

这就是杜恒–奎因论题。它的主张简单却影响深远：没有任何假说会被单独检验。当你检验「这颗星位于那里」时，同时依赖着光学理论、大气模型、望远镜校准以及关于光传播的假设。因此，预言失败时，逻辑本身无法告诉你究竟是哪一环出了问题。可能是核心假说错了，也可能只是校准失误；研究者总可以把问题归于某个辅助假设，以保住原来的理论。波普尔式「一只黑天鹅即可推翻理论」在真实研究中从来没有那么简单，因为你还可以怀疑这只黑天鹅是否被正确观察。

这不是书斋里的细节，而是科学发现的一部分。1840 年代，天王星偏离牛顿理论预测的轨道，没有人立即宣布牛顿理论被推翻；研究者认为可能有一颗尚未发现的行星在施加引力。这个辅助假设最终导向了海王星的发现（1846）。后来，天文学家用同一思路解释水星轨道的异常，提出祝融星的存在，却寻找多年仍一无所获。水星的异常最终说明需要修正的是牛顿理论本身，直到 1915 年爱因斯坦才给出解释。同样的逻辑，有时带来新发现，有时只是延缓承认理论出了问题。关键在于如何区分二者。

拉卡托斯的回答是重新定义科学评价的单位：不要评价孤立理论，而要评价随时间发展的研究纲领。每个纲领都有一个硬核（例如「牛顿定律成立」），周围是由辅助假设组成、可以调整的保护带。遇到异常时，研究者会先修改保护带，而不是立刻放弃核心。这样做本身没有问题，重要的是修改之后发生什么：

进步的纲领会提出新的、可检验的预测，而且预测得到证实。「存在一颗隐匿行星」不仅解释了异常，还预言了海王星应当出现的位置；海王星的发现因此增加了新的知识。
退化的纲领只在失败之后不断追加解释，从不产生新的成功预测。若祝融星每次都被重新安排到恰好无法观察的位置，这就是一个警告信号。

这条划界线更符合科学史：科学不是一个孤立理论接受一次裁决，而是一个研究纲领在时间中不断接受评价。它能否持续产生新的、成功的预测，决定了它是在进步，还是在退化。

方法的限度

费耶阿本德：不存在唯一的方法

拉卡托斯的朋友和论敌保罗·费耶阿本德把这个问题推向了另一端。《反对方法》（1975）考察科学突破的真实历史后指出，几乎每一条方法规则都曾在关键时刻被违反，而且这种违反有时正是进步的条件。伽利略借助宣传和修辞推进哥白尼理论，也忽略过不利数据；如果他始终遵守整齐划一的方法规则，科学革命或许不会发生。

他的结论后来被概括为科学哲学中最著名、也最容易被误解的口号：「一切皆可。」这并不是说任何想法都同样合理，也不是鼓励随意研究。费耶阿本德是在作一个归谬论证：如果一条方法规则从未允许任何历史上的反例，那么它可能宽泛到什么都允许。他反对的是存在一种可以一劳永逸地规定科学的大写字母「方法」，而不是主张科学应当没有约束。

1983 年，哲学家拉里·劳丹在《划界问题的消亡》中提出，所有画出清晰界线的尝试——包括波普尔的方案——都失败了。「科学」和「伪科学」种类繁多，不可能共享一个决定性的标志；在他看来，这两个词有时只是承载情感评价的空洞标签。两千五百年的争论似乎走到了尽头。

实际需要

为什么界线仍然重要

但这个问题在实践中无法被搁置。2013 年，马西莫·皮柳奇与马尔滕·布德里编纂《伪科学哲学：重新思考划界问题》，回应了劳丹。理由很现实：在疫苗拒绝、气候否认、神迹疗法和智能设计「理论」并存的世界里，区分科学与仿科学并非纯粹的学术游戏，而会影响公共政策和个人生死。

他们提出的转向是，不再寻找一个万能的单一标准，而把科学视为家族相似概念，借用维特根斯坦的术语。科学活动未必共享某一项共同特征，而是具有一组相互重叠的特征：可检验的预测、经验证据、接受修正的能力、与既有知识的协调、对异常的正视，以及不依赖无休止的事后补救或受迫害叙事。没有一项特征能够独自决定界线，但多项特征结合起来可以形成较强或较弱的科学画像。

这也把问题从哲学讨论带到了经验研究。过去十五年里，科学界用大规模复现直接检验自身的成果：那些已经发表、经过同行评议、广受赞誉的发现，能否经受最基本的科学要求？

互动 · 启动探照灯

划界实验室

选择一项主张。我们先以波普尔检验它（是否可证伪？）——再交给库恩、拉卡托斯与簇群视角，让裁决变得复杂。注意四种视角相左之频繁。那分歧本身，便是科学哲学。

划界标准表

主张	波普尔	库恩	拉卡托斯	簇群视角
星光弯折 1.75 角秒	科学	科学	进步	强科学画像
水星逆行扰乱通讯	非科学	非成熟科学	退化	弱画像
阶级斗争驱动历史	按常用方式往往不可证伪	视情况而定	可能退化	社会科学兼哲学的混合
弦理论	关键形式尚未可检验	无决定性检验的常规科学	未决问题	鲜活的边界案例
共同祖先	可证伪	生物学核心范式	进步	强科学画像

前沿 · 2026

复现危机：划界接受现实检验

如果有一项几乎人人都重视的科学品质——波普尔、库恩，甚至中学老师都会重视——那就是可复现性。稳健的结果应当经得起别人按同样程序认真重做；它不该只依赖一次侥幸、隐藏的灵活性或一时的风潮。于是，2010 年代的研究者系统地挑选出一批已发表、经过同行评议且备受赞誉的发现，逐一尝试复现。

前沿 01核心数字解读

心理学的关键检验

开放科学合作组织的《估计心理科学的可复现性》（Science，2015 年 8 月 28 日）是其中的里程碑。约 270 位研究者在布莱恩·诺塞克领导下，尝试复现三本顶尖心理学期刊上的 100 项研究，并与原作者合作核对方法。最重要的教训是：不存在一个可以概括一切的「复现率」。论文报告了几种不同的指标，而每种指标回答的问题不同。

97% 的原始研究报告了统计显著效应

97%

36% 的复现实验再次达到显著性 ← 那个著名而惊人的数字

36%

47% 的原始效应落在复现实验的 95% 置信区间内

47%

39% 被复现团队主观判定为已复现

39%

≈50%——复现实验的效应量平均约为原始大小的一半

~50%

每当你听见「只有三分之一的心理学是真实的」，便是有人抓起了 36% 而丢弃了其余。更准确的概括要微妙得多，也更有意思：复现实验中的效应平均更弱——大约为首次报告的一半强度，且往往因复现实验功效不足而未能检出。[核心数字已确立]；这些数字究竟能在多大程度上说明哪些原始效应真实存在，[解释仍有争议]。

作者也拒绝让乐观或悲观的读者过度解读结果。他们的结论十分克制，也直接呼应了第 1 日的教训：即使一个结论为真，如果支持它的理由不可靠，也不能因此算作知识：

我们已确立为真实的效应，有多少？零。而我们已确立为虚假的效应，有多少？零。 ——开放科学合作组织，Science（2015）

还要记住杜恒–奎因论题：一次复现失败并不能在逻辑上单独推翻原始研究，因为两次研究的条件总会有差异。批评者正是据此提出异议。Gilbert、King、Pettigrew 与 Wilson（Science，2016 年 3 月）认为该项目的复现实验检验功效不足，校正后数据甚至可能与相反结论相容；原团队则回应说，乐观和悲观的解释都没有得到充分支持。具体数字如何解读仍属 [有争议]，但复现危机本身已经被普遍视为真实现象。

前沿 02跨领域

问题并不只在一个领域

「那只是软科学」的辩护，随着其他领域的复现研究得到相似结果，便站不住脚了。这不是单一学科的问题。下面列出几组较为可靠的数字；需要注意每项研究使用的指标不同，因为指标本身会影响我们如何理解结果。

项目与发表处	复现对象	已复现*	效应量缩减
心理学OSC, Science 2015	100 项研究，3 本顶尖期刊	36%	约为原始效应的 50%
癌症生物学Errington et al., eLife 2021	计划复现 193 项实验——仅约 50 项得以尝试	~46%†	约缩小 85%
实验经济学Camerer et al., Science 2016	18 项实验室实验（AER, QJE）	61%	约为原始效应的 66%
社会科学Camerer et al., Nat. Hum. Behav. 2018	Nature 与 Science 中的 21 项实验	62%	约为原始效应的 50%
临床前肿瘤学Begley & Ellis, Nature 2012	53 篇「里程碑」论文（安进）	11%	——（53 篇中仅 6 篇被确认）

*「已复现」= 同方向显著效应，最严格的一般度量。†癌症生物学数字为已完成实验中的比例；引人注目的是，193 项原始实验中无一能仅凭发表的方法复现，且仅有 2% 可获得原始数据。[已确立]

更令人担忧的并不只是失败率。癌症生物学复现团队发现，他们常常无法确定原研究者究竟做了什么：方法说明过于简略，方案和数据也未必能够获得。一个无法被实际重做的发现，不是通过了波普尔意义上的检验，而是根本没有接受检验。Nature 2016 年对 1,576 位科学家的调查也显示，超过 70% 的人曾尝试复现他人的实验却失败，超过一半无法复现自己的实验。[已确立]这项调查反映的是研究者的报告，而不是对实际复现率的直接测量。

前沿 03失效案例彻底死亡？

一些结果未能重现

抽象数字容易被忽略，具体案例却更能说明问题。一些曾经广受宣传的效应，在检验功效更高、采用预注册的复现研究中没有出现；更值得注意的是，部分原作者公开修正了自己的立场：

权力姿势。2010 年的研究称，采用「神奇女侠」式站姿两分钟可以提高睾酮和风险承受意愿；2015 年规模更大的复现研究没有在任何生理指标上发现这一效应。原论文第一作者达娜·卡尼后来公开表示：「我不相信『权力姿势』效应是真实的。」[已确立]
自我损耗。「意志力是使用后会耗竭的有限资源」这一主流理论在 23 个实验室（N = 2,141，2016 年）接受检验，合并效应在统计上无法与零区分（d = 0.04）。标准效应没有复现；是否仍存在较小效应，仍有争议。[已确立]
社会启动。经典主张认为，阅读与老年有关的词语会让参与者离开实验室时走得更慢；2012 年的独立复现未能重现这一结果。丹尼尔·卡尼曼随后致公开信，提醒该领域注意研究诚信问题。就这一具体案例而言，复现失败已属 [已确立]；更广泛的启动效应则仍需区分具体主张。
斯坦福监狱实验（1971）。档案研究（Le Texier，American Psychologist，2019 年）显示，这项心理学史上最著名的「研究」或许更接近一场被引导的戏剧：研究人员鼓励狱卒表现残酷，结果也被夸大呈现。它未必只是复现失败，更可能是划界问题的警示：这项演示或许从未具备一项真正实验应有的条件。[有争议]津巴多在世时反驳了这些批评，是否应将它从教科书中删除仍有争论。

前沿 04自我修正

这是科学失败，还是科学正在发挥作用？

换一个角度，复现危机也可以被理解为科学自我检验的过程，而不只是丑闻。上述数字来自研究者用预注册、较高检验功效和公开方法审查科学成果，并淘汰证据不足的主张。波普尔式的反驳终于被用于检验科学自身。危机未必说明科学标准失效，也可能说明这些标准正在发挥作用，只是过程公开且并不轻松。

这场危机也推动了改革。预注册要求研究者在看到数据前写明假设和分析方法，从而减少事后选择结果的空间；注册报告让期刊在结果出现前依据方法接受研究，目前已有 300 多家期刊采用。有人提议把「显著」阈值从 p < 0.05 收紧到 p < 0.005，开放数据和多实验室合作也日益普遍。科学界开始正视休谟所指出的限制，以及运气和偏见如何制造貌似可靠的知识——这正是第 1 日盖梯尔问题在研究制度中的重现。第 149 日还会回到这场改革。

未决问题

仍无定论

两千五百年过去，对「何为科学？」的审慎回答仍有几个问题悬而未决：

是否存在任何单一的划界标准？还是说劳丹是对的：只剩下维特根斯坦式相互重叠的特征家族，而没有统一的总纲？
杜恒–奎因问题能在多大程度上被约束？如果一次失败的检验在逻辑上从不指向某个特定假说，那么预注册、高检验功效的复现实验能把辩解的余地压缩到什么程度——又能否彻底堵死？
那些根本无法做实验的科学怎么办——宇宙学、进化生物学、弦理论？如果一种理论在整整一代人的时间里都无法作出可检验的预言（这正是第 48 日量子引力要面对的难题），它是科学、前科学，还是数学？
复现的底线在哪里？社会科学 62% 的复现率，面对复杂的人类行为，究竟算失败、算合理水平，还是在「复现」的定义达成一致之前根本无从判断？
还有一个会伴随整门课程的问题：如果连经过同行评议、备受赞誉的发现，效应量都常常缩水一半，那么面对任何言之凿凿的断言——包括本页上的——你应当把信念调到几分？（请带着第 1 日的置信度刻度盘，继续读第 4 日与第 6 日。）

一日三句

核心观点: 休谟说明，有限的确认不能证明普遍定律。波普尔因此强调大胆且可证伪的猜想；库恩、拉卡托斯和费耶阿本德则提醒我们，真实科学比单一规则复杂。现代复现研究把这场哲学争论转化为经验检验。
最佳类比: 无数只白天鹅不能证明「所有天鹅都是白的」，一只黑天鹅却足以推翻它。科学确认和科学反驳并不对称。
仍在争论: 科学与伪科学之间是否存在单一界线，以及复现率究竟表示什么：科学成果的脆弱性，还是科学公开纠错能力的体现。

今日线索 › 信息（复现实验检验一项主张承载的是真实信号还是噪声） · 演化（在波普尔那里，知识像自然选择一样增长——猜想在反驳中存续；预告第 74 日） · 计算与涌现（略作提示——科学是一个分布式的自我纠错系统，能够完成任何单个心智无法完成的事）。

明日 → 第 3 日

逻辑与有效推理

复现危机展示了推理大规模失灵的后果。明天回到推理机器本身：演绎、归纳与溯因各自提供什么保证；一个形式上完全有效的论证，又为何会因一个假前提而得出荒谬结论。

来源

来源与延伸阅读

Hume, D. (1739–40). A Treatise of Human Nature, Book I, Part iii. And (1748) An Enquiry Concerning Human Understanding, §IV–V. ——归纳问题；日出段落。见 Stanford Encyclopedia of Philosophy, “The Problem of Induction” （修订版 2018）。
Popper, K. (1959). The Logic of Scientific Discovery (orig. Logik der Forschung, 1934). And (1963) Conjectures and Refutations: The Growth of Scientific Knowledge. Routledge. ——可证伪性；爱因斯坦 vs 弗洛伊德/阿德勒/马克思。见 SEP, “Karl Popper”。
Kuhn, T. S. (1962; 2nd ed. 1970). The Structure of Scientific Revolutions. University of Chicago Press. ——常规科学、范式、反常、危机、革命、不可通约性。见 SEP, “Thomas Kuhn”。
Lakatos, I. (1970). “Falsification and the Methodology of Scientific Research Programmes,” in Lakatos & Musgrave (eds.), Criticism and the Growth of Knowledge. Collected in Philosophical Papers, Vol. 1 (Cambridge UP, 1978). ——硬核、保护带、进步与退化纲领。
Feyerabend, P. (1975). Against Method: Outline of an Anarchistic Theory of Knowledge. New Left Books. ——认识论无政府主义；「一切皆可」作为归谬。见 SEP, “Paul Feyerabend”。
Duhem, P. (1906). The Aim and Structure of Physical Theory. And Quine, W. V. O. (1951). “Two Dogmas of Empiricism,” The Philosophical Review 60(1): 20–43. doi:10.2307/2181906。 doi.org/10.2307/2181906 ——欠决定 / 整体确证论。见 SEP, “Underdetermination of Scientific Theory”。
Laudan, L. (1983). “The Demise of the Demarcation Problem,” in Cohen & Laudan (eds.), Physics, Philosophy and Psychoanalysis. Reidel, pp. 111–127. doi:10.1007/978-94-009-7055-7_6。 doi.org/10.1007/978-94-009-7055-7_6
Pigliucci, M. & Boudry, M. (eds.) (2013). Philosophy of Pseudoscience: Reconsidering the Demarcation Problem. University of Chicago Press. press.uchicago.edu ——复兴；科学作为家族相似 / 簇群概念。
Open Science Collaboration (2015). “Estimating the reproducibility of psychological science.” Science 349(6251): aac4716. doi:10.1126/science.aac4716。 doi.org science.org ——97% / 36% / 47% / 39% / ~50%。
Gilbert, D. T., King, G., Pettigrew, S. & Wilson, T. D. (2016). “Comment on ‘Estimating the reproducibility of psychological science.’” Science 351(6277): 1037. doi:10.1126/science.aad7243。 doi.org/10.1126/science.aad7243 ——批评；OSC 回应 doi:10.1126/science.aad9163。 doi.org/10.1126/science.aad9163
Errington, T. M. et al. (2021). “Investigating the replicability of preclinical cancer biology.” eLife 10: e71601 (Reproducibility Project: Cancer Biology). doi:10.7554/eLife.71601。 doi.org/10.7554/eLife.71601 ——193 项中约 50 项实验被尝试；效应约缩小 85%；方法/数据大多无法获得。
Camerer, C. F. et al. (2016). “Evaluating replicability of laboratory experiments in economics.” Science 351(6280): 1433–1436. doi:10.1126/science.aaf0918。 doi.org ——18 项中 11 项（61%）。
Camerer, C. F. et al. (2018). “Evaluating the replicability of social science experiments in Nature and Science between 2010 and 2015.” Nature Human Behaviour 2: 637–644. doi:10.1038/s41562-018-0399-z。 doi.org/10.1038/s41562-018-0399-z ——21 项中 13 项（62%）。
Klein, R. A. et al. (2018). “Many Labs 2: Investigating variation in replicability across samples and settings.” Advances in Methods and Practices in Psychological Science 1(4): 443–490. doi:10.1177/2515245918810225。 doi.org/10.1177/2515245918810225 ——28 项中 15 项（54%）；场景未能解释失败。
Begley, C. G. & Ellis, L. M. (2012). “Raise standards for preclinical cancer research.” Nature 483: 531–533. doi:10.1038/483531a。 doi.org ——53 项中 6 项（11%）里程碑论文被确认（安进）。
Baker, M. (2016). “1,500 scientists lift the lid on reproducibility.” Nature 533: 452–454. doi:10.1038/533452a。 doi.org ——>70% 未能复现他人结果；>50% 未能复现自己的结果。
Hagger, M. S. et al. (2016). “A multilab preregistered replication of the ego-depletion effect.” Perspectives on Psychological Science 11(4): 546–573. doi:10.1177/1745691616652873。 doi.org/10.1177/1745691616652873 ——23 间实验室；d = 0.04。
Ranehill, E. et al. (2015). “Assessing the robustness of power posing.” Psychological Science 26(5): 653–656. doi:10.1177/0956797614553946。 doi.org/10.1177/0956797614553946 And Carney, D. R. (2016), 公开声明否定权力姿势效应。见概述。
Le Texier, T. (2019). “Debunking the Stanford Prison Experiment.” American Psychologist 74(7): 823–839. doi:10.1037/amp0000401。 doi.org pubmed
Ioannidis, J. P. A. (2005). “Why most published research findings are false.” PLoS Medicine 2(8): e124. doi:10.1371/journal.pmed.0020124。 doi.org/10.1371/journal.pmed.0020124 ——奠基性（且基于模型，故细节上有争议）论文。
Benjamin, D. J. et al. (2018). “Redefine statistical significance.” Nature Human Behaviour 2: 6–10. doi:10.1038/s41562-017-0189-z。 doi.org ——p < 0.005 提案（及 Amrhein & Greenland 「移除而非重新定义」的反驳）。
Chambers, C. D. (2013). “Registered Reports: A new publishing initiative at Cortex.” Cortex 49(3): 609–610. doi:10.1016/j.cortex.2012.12.016。 doi.org/10.1016/j.cortex.2012.12.016 And Chambers & Tzavella (2022), Nature Human Behaviour 6: 29–42, doi:10.1038/s41562-021-01193-7。 doi.org/10.1038/s41562-021-01193-7 ——注册报告如今已有 300 余家期刊采纳。

专题深入附录没有根基的基础选读内容。

正文介绍了休谟的归纳问题、波普尔的证伪、库恩的范式、拉卡托斯的研究纲领，以及复现危机。本附录进一步追问：归纳为何无法获得非循环的辩护；概念如何影响我们对未来的投射；观察是否能够完全独立于理论；科学证据的可靠性受到哪些统计条件制约。结论并非科学没有依据，而是科学依据从来不是绝对、不可修正的基础。它依靠可公开检验的方法、暂时接受的观察报告和持续修正的共同实践。

我们在哪里

本附录紧承第 2 日正文，从复现危机和「科学是否按其真实方式运转」这一问题出发，进一步讨论四件事：(1) 休谟之后归纳问题的形态，以及古德曼提出的更深难题；(2) 波普尔对证伪理论局限的承认；(3) 理论负载如何限制所谓中立观察；(4) 基础率、研究者自由度和发表偏倚如何共同影响已发表结果。全篇都应保持第 1 日建立的证据校准意识。

第一部分 · 归纳问题的进一步发展

休谟的描述性回答与古德曼的新归纳之谜

正文把休谟留在了这样一个位置：没有任何不循环的方式可以论证我们对日出的信心。但休谟本人并未止步于此，而教科书略去的那个部分，反倒最有人情味。在证明理性无法为归纳奠基之后，他紧接着问了一个再自然不过的问题：既然如此，我们为何每时每刻仍在归纳，却从未因此陷入混乱？他的回答带着一种温柔。我们靠习俗推断——靠习惯。孩子被火烫过一次，再见火焰便知道避让；这不是演绎，而是反复经验刻入身心的条件反射：

在许多实例中发现，两类对象……总是联结在一起的；如果火焰或冰雪再次呈现于感官之前，心智便被习俗引向对热或冷的预期……这种信念是将心智置于如此情境中的必然结果。 ——休谟，《人类理解研究》，§V（1748）

这个拆分值得命名，因为它将在整部课程中反复现身。休谟把一个问题劈成两半：一个是辩护问题——归纳能否被演绎地、不循环地证明？答案是不能，这道伤口永远不会愈合。另一个是描述问题——心智为什么还是照样推断？答案是我们天生如此，靠的是习俗。他放弃了前者，回答了后者。我们并非碰巧拥有本能的推理机器；我们是有本能的机器，只是学会了给习惯披上理性的外衣。（你会在第 11 日的启发式与偏差、第 119 日的预测性大脑中，再次遇见这同一种拆分。）

四种回应路径

两个半世纪以来，哲学家们试图从休谟的深坑中爬出。无人完全成功——但这些尝试每一桩都精彩绝伦，因为每一种都是某种性情气质凝结而成的论证。

斯特劳森

消解问题

问「归纳是否合理」本身就问错了。把信念按证据调整，这就是推理得好的题中之义。要求一个外在的盖章认可，好比追问法律本身合不合法。问题一经如此提出，便自行消解。

赖欣巴赫

务实地下注

我们证明不了归纳一定有效，但可以证明它是当下能下的最好赌注。如果有哪种方法能捕捉自然的规律性，归纳最终一定能捕捉到。它至多不比别的方法差，所以尽管用。这是一种手段层面的辩护，而非真理层面的辩护。

波普尔

否认前提

他的激进主张：根本不存在归纳这回事。科学从不从实例中概括，而是大胆猜想、竭力反驳。方法中既无归纳步骤，休谟的问题便无处下嘴。（批评者追问：那科学岂不永远无法告诉我们某个理论对预测是可靠的？而这显然是我们需要的。）

贝叶斯

量化更新

把学习看成用贝叶斯定理修正置信度——也就是第 1 日的信念刻度盘。这漂亮地形式化了从证据中学习的过程，却并未化解休谟：先验概率与更新规则本身仍需根基。（将在第 4 日正式展开。）

即使承认归纳能够正常运行，仍有一个更深的问题。哈佛逻辑学家纳尔逊·古德曼在 1955 年提出新归纳之谜，说明过去的观察本身不足以决定应当把哪一种规律投射到未来。

「grue」与可投射性

定义一个新的颜色谓词，grue（绿蓝）。一个对象被称为 grue，当且仅当它在某个未来日期——比如 2050 年 1 月 1 日——之前被检查过，且是绿色的；或者它在那时尚未被检查过，且是蓝色的。古怪、人造、毫无用处。但看看它的威力。

迄今为止检查过的每一颗祖母绿都是绿色。因此，按定义，它们也都是 grue 的（在 2050 年前被检查，且为绿色）。这意味着你积累下的如山证据，对下面两个假设给予了完全同等的支持：

H₁：「所有祖母绿都是绿色的。」→预测你 2051 年挖出的下一颗祖母绿是绿色。
H₂：「所有祖母绿都是 grue 的。」→预测你 2051 年挖出的下一颗祖母绿是蓝色的。

证据无法在二者间裁决，因为每一次观察都同等支持两者。即便承认归纳有效，它也不会告诉你该把哪一种规律性投射到未来。

拖动观察范围，看看「绿色」与「绿蓝」描述如何一路保持一致，直到分歧点出现。

表格比较 2050 年前后的证据，并提炼古德曼关于可投射谓词的教训。

互动 · 证据打不破的平局

绿色 vs. 绿蓝

这是关于祖母绿的两种理论、两个平行世界。拖动「今天」——也就是你已检查祖母绿的时间界限。实心宝石是你见过的（证据），空心宝石是每种理论的预测。虚线是截止日期 t。注意：只要「今天」位于 t 左侧，两个世界在你检查过的每一颗宝石上都一模一样。

检查祖母绿截至： 2032

平局成立

你检查过的每一颗祖母绿都是绿色——而这个事实对「全绿」和对「全绿蓝」是完全同等的证据。两种理论对你见过的每一颗宝石都意见一致。古德曼的要点是：无论过去证据多么丰富，都不能替你决定该把哪一个理论带入未来。

绿色 vs. 绿蓝，投影表

时期	观察到的证据	「全绿」预测	「全绿蓝」预测	启示
2050 年之前	已检查的祖母绿全是绿色。	绿色祖母绿。	绿色祖母绿。	证据同等支持两种描述。
2050 年之后	新观察终于进入分歧区域。	绿色祖母绿。	蓝色祖母绿。	只有越过截止线，现实才能打破平局。
古德曼的要点	仅凭过去的规律性，无法选出可投射的谓词。	投射绿色。	投射绿蓝。	归纳需要关于哪些谓词自然、哪些已扎根的背景习惯。

最明显的反驳是：grue 只是人为拼接的谓词，绿色才是自然属性。但在另一套语言中，也可以把绿色定义为由 grue 和 bleen 组合而成。古德曼因此认为，不能仅靠「自然性」直觉解决问题；我们倾向于投射那些已经扎根于语言和实践的谓词。扎根性可以说明科学共同体为何选择某些概念，却仍需解释这种选择是否反映了世界的结构。扎根性 · 仍有争议

第二部分 · 证伪理论的限制

证伪需要哪些前提？

正文中波普尔带着一条利落规则登场；同样值得称道的，是他对自己同样毫不留情的审视。他坦承的三个微妙之处，对下游一切影响深远。

第一：划界不是关于意义

波普尔常被与维也纳学圈的逻辑实证主义者（石里克、卡尔纳普，以及他们在英伦的传声筒 A.J. 艾耶尔——其 1936 年出版的 Language, Truth and Logic 曾轰动一时）混为一谈。实证主义者有自己的著名准则——意义的可证实性理论：一个陈述只有在可被经验验证（或按定义为真）时才是有意义的。其余一切——形而上学、神学、伦理学——不是错的，而是字面意义上的废话、「伪陈述」。这对整个哲学分支而言，等于给形而上学、神学、伦理学集体判了死刑。

波普尔认为这既傲慢又自相矛盾——可证实性准则本身不可证实，按它自己的规则便属废话。他的观点更尖锐，也更谦逊。可证伪性区分的是科学与非科学，但对意义不发一言。不可证伪的命题完全可以很有意义，往往还很深刻，有时甚至孕育着未来的科学。「每一物体都被其他物体吸引」在成为牛顿定律之前，曾是不可检验的形而上学。划界只是在地图上画线，并不会把线那边的地方付之一炬。忘了这一点，就会把波普尔变成他自己明确拒绝充当的反智庸人。

第二：最大胆的理论恰恰最不可能为真——而这正是关键所在

这是对常识的一次漂亮反转。我们倾向于赞赏与数据严丝合缝的「安全」理论，波普尔赞赏的却正好相反。一个理论禁止得越多——世界能证明它错的方式越多——它的经验内容就越高，碰巧为真的概率反而越低。「爱因斯坦的光线恰好偏折 1.75 角秒」是在走钢丝；「经济受多种因素影响」则是躺在沙发上。一个理论可能恰恰因为几乎什么都没说，才显得概率很高。于是波普尔翻转了奖励标准：科学应当追求大胆、可能性极低、内容丰富的猜想，再让它们经受残酷检验。把概率最大化留给求稳的人；科学要最大化的，是可检验性。（且记住这一点——它与我们将在第 4 日遇到的贝叶斯概率最大化图景之间，有一道真正的张力。）

第三：观察报告不是绝对基础

正是这条裂缝，赋予了本附录标题。简略介绍波普尔时，这一点常被跳过。一次证伪需要一个事实来执行——一个「基本陈述」，一份观察报告，比如「指针指向 1.75」。但这些事实从何而来？并非来自纯粹、无理论的观看。每一次观察都渗透着假设：仪器正常工作，光线行为如常，「指针」和「指向」这些词确实切中了世界。因此基本陈述不是自然给定的，而是被我们接受的——通过约定、通过决定、暂时地。波普尔亲口写下这段话，也是他笔下最美的段落之一：

客观科学的经验基础因此没有任何「绝对」之处。科学并不立于坚实的基岩之上。它大胆的理论结构，仿佛矗立在沼泽之上……桩子被打下去……却并没有打到任何天然的、「给定」的基础；如果我们不再继续深打，那不是因为已抵达实地，只是觉得桩子已足够牢固，能撑起这座结构——至少暂时如此。 ——波普尔，《科学发现的逻辑》（1959）

细想这个代价。如果执行证伪的事实本身也要靠约定来接受，那证伪就永远不是口号所承诺的那种干净、绝对的断头台。科学家总可以拒斥基本陈述而保全理论（「仪器出故障了」）。波普尔的辩护是方法论层面的：大家约定一条游戏规则，不要用特设性修补来脱身——不要为了方便就反复重打桩子。这很合理。但请注意，这是我们选择的规则，而不是我们发现的某个事实——这与波普尔反感的库恩「常规科学」图景中的群体判断，其实不无相似。沼泽吞噬的确定性，比教科书版本愿意承认的更多一些。

经受检验不等于接近真理

还有一条波普尔式的细则，因为人们常搞错。当一个理论经受住严酷检验，波普尔说它得到了确证——但确证绝对不是概率，一个久经检验的理论也不会因此变得「大概是真的」。它只是一份成绩单，记录这个理论经受了多么严厉的打击并存活下来，且仅「暂时」有效。希拉里·普特南提出显而易见的反驳：如果科学从不允许我们把任何理论称为大概可靠，那我们凭什么用最好的理论去造桥、往火星发射探测器？我们显然在依赖它们。波普尔冷峻的回答是：暂时依赖那些经受了严厉检验的东西，但不把它当作大概为真。很多人觉得这答案冷到不能当全貌。

第三部分 · 理论负载与整体论

观察为何可能负载理论

波普尔的沼泽已暗示：观察不是基岩。哲学家兼物理学家诺伍德·拉塞尔·汉森在 Patterns of Discovery（1958）中把刀推得更深，提出了一个后来成为口号的论断：观察是负载理论的。他说，「看见比眼球接收到的要多。」你感知到什么，早已被你所相信的东西塑造。

他的思想实验令人难忘。让相信地球静止的第谷·布拉赫，与相信地球旋转的开普勒，在黎明时同站一座山丘。同样的光子击中同样的视网膜；相机也会录下完全相同的画面。然而，他们看见的是同一回事吗？第谷会把现象理解为太阳从固定的地平线上升起；开普勒则会把太阳理解为保持不动，把相对运动归因于地球自转。原始感觉或许相同，但「看见」——那个有意义的、概念层面的「看作」——从头到尾都受到理论影响。

同样的光子，同样的视网膜——两场不同的日出。观察既已负载理论，便没有中立裁判来裁决理论之争。

这是埋在「决定性实验」概念下的一颗静默地雷。证伪主义的图景需要一种中立的观察语言——双方都能接受的事实——来充当竞争理论之间的裁判。汉森（以及后来的库恩，带着他的鸭兔图，还有那个学生——物理学家看到「熟悉的亚核事件记录」之处，他只看到「混乱的碎线条」）暗示：裁判可能在比赛开始前就已经被收买，悄悄穿着某一方的队服。（公平性检查：汉森自己也承认，两次黎明体验中「有某种东西」「对两人是相同的」，所以强主张——他们字面意义上看见了不同东西——确有争议。弱说法是安全的；强说法则仍在争论中。主张强度· 有争议)

奎因的信念整体论

如果说单次观察负载理论，哲学家 W.V.O. 奎因在 1951 年进一步指出，单次检验也负载理论——并据此写成了现代哲学中极具影响力的论文《经验主义的两个教条》。我们在正文中见过它的产物（杜恒–奎因论题：没有假说是被单独检验的）。这里给出的则是它的母体思想，而且更激进。奎因把人类全部知识——从「这里有一只杯子」到逻辑法则——想象成一张巨大的信念之网：

我们所谓的全部知识或信念……是一张人造的织物，只在边缘与经验接触……整个科学就像一个力场，其边界条件就是经验。 ——奎因，《经验主义的两个教条》（1951）

经验只触及这张网的边缘。当冲突发生——某个预测失败——冲击波向内扩散，但由你选择在哪里吸收它。你总可以通过调整系统的其他地方来保护任何你想保护的信念，无论它埋得多深。奎因由此得出两个惊世结论：经验「不是逐个地，而是作为一个整体」与我们的信念相遇；因此——

任何陈述都可以在任何情况下被保持为真，只要我们在系统中的其他地方做出足够剧烈的调整……反过来，同理，没有任何陈述是不可修正的。 ——奎因（1951）

没有任何陈述是不可修正的——逻辑和数学也不例外。（奎因提到，为简化量子力学，有人曾提议修改排中律。）并不存在享有特权的确定性核心；只有一张网，由边缘的经验和我们「尽量少拆」的偏好共同绷紧。这是到目前为止最深的「没有基岩」：连思维法则也没有被钉死。

奎因之网：冲击落在边缘，涟漪向内扩散，但让哪部分让步由你决定。中心总可以保全——代价会转移到别处。

劳丹：逻辑可能性不等于理性合理性

如果你感到脚下的地面一直在向「所以一切皆可，全凭选择」的深渊倾斜——很好，那正是深渊；而拉里·劳丹（没错，就是正文里那位拆迁队长）是把所有人从边缘拽回来的人。在 Demystifying Underdetermination（1990）中，他论证道：人们从奎因那里推导出的惊人结论，其实是由一个糟糕的等式偷运进来的——把逻辑上可能的等同于理性上合理的。

是的，劳丹承认，纯粹演绎逻辑从不迫使唯一的理论选择——你可以不惜一切保全某个信念。但科学从来不是只靠演绎逻辑运转的。它靠的是逻辑加上一整套厚实的扩展性标准——简单性、丰饶性、与既有结果的一致性、预测的战绩。他赞同杜恒的话：「纯逻辑不是我们判断的唯一规则。」你可以把失败归咎于望远镜而非理论，不代表这样做合理；你可以用无数补丁坚持地球是平的，不代表这对理性探究者是一个可活的选项。这张网没有逻辑基岩，但它有理性的张力，而这张力足以做真正的工作。欠定性确实存在，却基本无害。差别就在这里：「我无法确定你不是缸中之脑」与「所以一切赌注都作废」。前一句正确；后一句并不成立。从相对主义中打捞理性的标准方案

第四部分 · 对精神分析的重新评价

格伦鲍姆：精神分析可能是可检验但失败的科学

正文中我们提过，波普尔可能曲解了弗洛伊德。把这一直觉锻造成法医式论证的哲学家，是阿道夫·格伦鲍姆，见其 1984 年的 The Foundations of Psychoanalysis。他的判决比波普尔的更有趣，也更严厉。

波普尔说精神分析不可证伪——它解释一切、不排除任何可能，因此根本算不上科学。格伦鲍姆反驳说，这个判断站不住脚——而他这样说并不是在替弗洛伊德辩护。弗洛伊德的理论确实提出了可检验的命题。倘若被压抑的同性恋是偏执狂的必要原因，那么对同性恋越宽容的社会，偏执狂就该越少——这是一个真实的、可检验的预测。更核心的是，格伦鲍姆挖出了他所谓的弗洛伊德吻合论证（出自弗洛伊德 1917 年的演讲）：弗洛伊德为自己的方法辩护说，只有那些与患者内在「真实情况」吻合的诠释，才能带来持久的疗效——所以，持久的治疗成功将证实这些诠释的正确性。

这是一桩真正的科学赌注。按格伦鲍姆的解读，这注输了。持久的缓解同样会通过其他疗法出现，甚至不做任何分析也会自行缓解——所以治疗成功不能证明弗洛伊德式诠释是唯一正确的。他还论证，「来自躺椅的证据」已被分析师自身的暗示污染：患者会迎合分析师，生产出理论所预测的记忆与联想。这些数据承受不了弗洛伊德赋予它们的因果重量。格伦鲍姆的结论重新框定了整个划界问题：精神分析不是被安全隔离在竞技场外的非科学——它是走上擂台、然后被击倒的科学。是坏科学，而非非科学。（这是一个确实不同、也可以说更尊重的判决：它认真对待弗洛伊德，认真到肯花力气检验他。吻合论证的解读· Erwin 等人有争议）这一区分——不可证伪的与已被证伪的——日后在你每一场「X 是不是科学」的争论中都会派上用场。

第五部分 · 复现危机的统计机制

研究结果为何容易被夸大

正文展示了结果：心理学复现研究中只有 36% 重新达到统计显著，效应量减半，权力姿势的原有结论也未能重现。但它没有进一步说明造成这种结果的机制。这种机制未必涉及造假，而是统计计算与研究流程共同产生的后果。三个因素相互作用：基础率、研究者自由度和发表筛选。

因素一：基础率与检验功效

2005 年，医生兼统计学家约翰·伊奥安尼迪斯发表了 PLoS Medicine 历史上被下载最多、也最具争议的论文之一，标题本身就是引爆装置：《为什么大多数已发表的研究结果是假的》。他的论证不是修辞，而是一个公式。我们真正关心的是阳性预测值（PPV）：给定一项研究报告了「显著」效应，它为真的概率是多少？它取决于三个数——显著性阈值 α（惯例为 0.05）、研究的检验功效（抓住真实效应的机会），以及最致命的先验赔率 R：在一个领域检验的所有假说中，有多大比例本来就是正确的。

最后一个数字是致命的，也是研究者最容易遗忘的。直觉是这样的：假设一个领域检验 1,000 个假说，其中只有 100 个为真（好想法稀少，多数猜测本就错误）。全部以 80% 检验功效和 5% 阈值来检验。你会正确标出 100 个真效应中的约 80 个。但在 900 个错误假说中，5% 的假阳性率会冒出约 45 个「显著」结果——全是噪音。于是，在你当作发现发表的约 125 个成果中，约 45 个——超过三分之一——是假的。而这还是乐观情形。降低检验功效，或降低真假设的比例，假发现就会淹没真发现。

运行基础率机器，观察基础率与偏倚如何共同改变发现纯度。

表格比较三个基础率场景，并列出各自的阳性预测值。

互动 · 操作伊奥安尼迪斯的机器

发现纯度引擎

一个领域在 5% 显著性阈值下检验 1,000 个假说。设置其中有多少确实为真、研究的统计功效有多大、以及渗入了多少偏倚（p 值操纵）。观察作为「发现」发表的成果中实际为真的比例——PPV。

真实假说（共 1,000 个） 100

统计功效 80%

偏倚 / p 值操纵无

检验结果
显著
(「发表」)

检验结果
不显著
(归档)

实际为真

80真阳性 ✓

20遗漏（假阴性）

实际为假

45假阳性 ✗

855正确接受零假设

在所有作为「发现」发表的结果中（显著列）：

64%

为真。此处每 100 个已发表的「发现」中，约 64 个是真的，36 个是伪装成信号的噪音。

发现纯度引擎，基础率场景

场景	真实假说	功效	偏倚	发表的阳性结果	PPV
乐观基线	100 / 1,000	80%	0%	80 个真阳性 + 45 个假阳性	64% 为真
低基础率	20 / 1,000	80%	0%	16 个真阳性 + 49 个假阳性	25% 为真
加入偏倚	100 / 1,000	80%	20%	84 个真阳性 + 216 个假阳性	28% 为真

伊奥安尼迪斯的推论直接从这台机器中流出，读起来像复现危机的受灾地图：研究规模越小、真实效应越小、分析灵活性越大、经济利益越重、领域越热门（越多团队竞逐同一问题），任何一项已发表发现为真的概率就越低。这不是愤世嫉俗——这是用不完美的工具检验稀少真理的几何学。该模型· 精神上已被广泛接受

它并非没有受到挑战，而挑战本身也值得了解。统计学家史蒂文·古德曼和桑德·格林兰（2007）同意其基本精神，却质疑工程细节：模型把每一个显著的 p 值都当作恰好 0.05（丢弃了信息），自行编入了偏倚参数而非测量它们，而那个引人注目的「更多团队 → 更多谬误」的结果，部分也是建模的人为产物。伊奥安尼迪斯回应说核心论点依然站得住，而且他本人的表格也显示，在良好条件下发现的可信度可达 85%。稳妥的结论是：科学假阳性率的精确值确实不确定，且因领域而异；但论证的方向——低基础率加低检验功效会制造假阳性——很难无视。精确比率· 有争议

因素二：研究者自由度与多重分析

基础率陷阱假设你规范地在 5% 水平上做检验。真实研究却更松漏。2011 年，三位心理学家——西蒙斯、尼尔森和西蒙森——用一出科学戏剧的杰作展示了它有多漏。他们的论文 False-Positive Psychology 创造了研究者自由度一词：科学家在研究过程中做出的那些微小、看似无关紧要的选择——何时停止收集数据、剔除哪些异常值、纳入哪些控制变量、比较哪些条件。每个选择单独看都有道理，合在一起却成了一台制造显著性的机器。

为了证明这不是假想，他们对真实的本科生做了一项真实的实验，报告了一个真实的、统计显著的结果：听披头士的 When I’m Sixty-Four 会让人真的变年轻。不是感觉年轻——是实际更年轻。在控制了参与者父亲的年龄后，听这首歌的受试者被计算出的实际年龄（调整后均值 20.1 岁）比听对照曲目的人（21.5 岁）小一岁半，p = .04。这个效应在形而上学上当然不可能。而这正是全部要点。他们所利用的，正是论文自身要审判的那种寻常灵活性：看到数据走向之后，再选择协变量、结果变量、比较方式和停止规则。既然能用一首披头士的歌「证明」衰老可逆，你就能「证明」任何事情。他们提出的解法——公开每一个选择，最好在收集数据之前——正是正文提到的预注册运动的种子。

不必有意作弊，也会产生假阳性

安德鲁·盖尔曼和埃里克·洛肯在 2013 年给了它最锋利的刻画：分岔花园。你可能以为p 值操纵需要跑 20 个分析，再报告那个「奏效」的。但假设一个研究者只跑了一个分析，而且事先就有假说——只是他选择的具体检验方式，被数据恰好长成的样子所塑造。如果数据出来的不同，他也会理所当然地换种方式分析。所有那些未被采取的路径，仍然毒化了 p 值，因为 p 值默认假设从来只有一条路。「问题在于，」他们写道，许多潜在的比较是「依赖于数据的」——所以一个完全真诚的科学家，从未有意识地「钓鱼」，仍会滑入假阳性。这就是为什么好意救不了你，改革必须是结构性的。

因素三：发表偏倚

第三个因素发现得最早。早在 1959 年，西奥多·斯特林就注意到发表结果存在明显偏向。他调查了四本主要心理学期刊，发现使用显著性检验的文章中，294 篇里有 286 篇——惊人的 97.28%——拒绝了零假设，报告了阳性结果。而且他调查的研究中，没有一项是复现研究。期刊更倾向于发表阳性结果，零结果则往往不易发表——罗伯特·罗森塔尔在 1979 年将这个问题形式化为文件抽屉问题（并用「失效安全 N」来量化：需要多少未发表的零结果，才能推翻一个已发表的效应？）。

三个因素共同作用，便会放大复现危机。大多数被检验的假说本为错误（基础率）→ 研究者自由度使错误假说也可能得到「显著」结果（多重分析）→ 只有显著结果更容易发表（发表偏倚），而且发表后往往被重新包装成一开始就预测到的——诺伯特·克尔在 1998 年命名的 HARKing——在结果已知后才提出假说，使I 类错误被包装成理论。已发表文献并不等于完整事实，而是经过筛选后留下的部分结果；这也呼应第 1 日盖梯尔问题所揭示的可能性：结果可能正确，但原因与真相并不相干。

统计学家的判决ASA 2016 ·已确立

p 值不是什么

2016 年，美国统计协会（ASA）在其 177 年历史上首次对一项特定统计实践——p 值——发布正式公开警告（Wasserstein & Lazar, The American Statistician）。美国该领域的主要专业协会打破沉默，这本身就说明问题已严重到了什么地步。它的六条原则值得贴在显眼处，因为危机中的许多误用都至少违反了其中一条：

p 值衡量的是数据与某个模型的不兼容程度——仅此而已。
它不是假说为真的概率，也不是你的结果「由偶然造成」的概率。
结论永远不应取决于 p 是否跨过 0.05 这条「明线」。
正确的推断要求完整的报告和透明度（不隐藏分岔路径）。
p 值不说明效应的大小或重要性。
单凭它本身，是衡量假说证据的拙劣指标。

最常见的误解——p = 0.05 意味着「95% 的可能性发现是真的」——彻头彻尾地错了，上面那台基础率引擎就是原因：一个发现为真的概率，压倒性地取决于真假设有多稀少，而 p 值对此一无所知。2019 年的一份后续声明走得更远，一些统计学家呼吁该领域彻底废弃「统计显著」这个说法。改革尚未完成。改革要走多远· 进行中

第六部分 · 科学哲学中的核心争论

1965 年伦敦会议：波普尔、库恩与拉卡托斯的争论

正文中的四位主角——波普尔、库恩、拉卡托斯、费耶阿本德——并非在教科书里礼貌排队的抽象符号。他们是活生生的对手。1965 年 7 月，他们（以及其他人）在伦敦贝德福德学院的一次国际研讨会上当面交锋。论文集因各位参战者迟迟不肯停笔而拖延多年，最终在 1970 年以 Criticism and the Growth of Knowledge 之名出版——该领域最富火药味的著作之一。全书以库恩开篇，被接连的回复轮番轰炸，又以库恩的反击收尾。

断层线十分尖锐。波普尔指责库恩的「常规科学」——在不受质疑的范式内埋头解题——根本不是科学，而是一种智识从众，甚至是「暴民心理学」：正是证伪主义想要废除的那种不加批判的教条主义。库恩反击说，波普尔把科学中罕见而激动人心的革命时刻，误认成了科学的日常实质——日常科学压倒性地保守、受范式约束——而这是一个特征，正是它让领域能够积累深刻成果，而不必永远在重审自己的地基。

「范式」一词的多重含义

最尖锐的一击来自出人意料的方向。语言学家玛格丽特·马斯特曼大体同情库恩，却坐下来数了数他使用核心词的方式——结果发现库恩至少以 21 种不同含义使用「范式」一词，她将其归为形而上学的、社会学的和具体的「人工制品」三类。她的评价是一把双刃剑：库恩的书「科学上洞明，哲学上晦涩」。这是毁灭性的批评，同时也是一次平反——概念虽然含混，但显然触及了某些真实的东西。库恩后来承认了这一点，花了大半职业生涯试图更精确地说清本意。

库恩有两个更深层想法值得从漫画式简化中抢救出来，因为它们都被惯常地夸大了：

库恩损失。科学进步并非纯粹累积。当一个范式倒下，继任者可能会丢失旧范式曾拥有的某些解释成就——燃素化学就解释过早期氧气化学最初无法解释的一些现象。进步是真实的，却也粗糙；我们用一组已解谜题，换取另一组更大、不同的谜题，有时还会在路上掉落几个。（它在多大程度上威胁实在论仍有争议——大多数有记录的损失都是轶事性的，而非定量的。）
世界变化论题。库恩最臭名昭著的一句话是，革命之后「科学家此后工作在一个不同的世界中」。但精确地读他，他其实很谨慎——他写的是「我们可能想要说」世界变了，这只是在铺垫一种说法，并非声称现实本身在重新洗牌。他的晚年一直在回缩最激进的解读，退守到一种窄义的分类不可通约性（只是互锁的技术词汇体系发生了转换，而非整个现实），并坚持——反对他的相对主义拥趸——「世界不是被发明或建构出来的」。传说中的库恩，比书页上的库恩更疯狂。

而费耶阿本德，那位所谓的破坏者，在激进姿态之下其实有一颗建设性的心。他真正的提案是多元主义：一个健康的科学应当最大化竞争理论的数量，而非强制推行共识。两条口号承载着它。增殖原则：积极发明并捍卫与当朝理论相矛盾的理论；反归纳：刻意发展与哪怕已被确凿确认的事实不一致的想法——因为，正如汉森警告过的，观察负载理论，所以唯一能揭示你当前视角中隐性假设的方法，就是透过竞争者的镜头去看世界。在后来的序言与回复中，他强调「一切皆可」不是他宣扬的信条，而是「一个理性主义者仔细审视历史时发出的惊恐感叹」。他那个看似怪物的论证，原来支持的是把智识多样性作为发现的引擎——这与本附录一直在走向的方向惊人地接近。

综合讨论

没有绝对基础，科学仍能运转

退后一步看，整篇附录其实一直在说明同一件事。休谟：对明天的期待没有逻辑上的正当理由。古德曼：连我们的概念都不安全。波普尔，坦诚地说：证伪所依赖的事实，建立在约定之上——沼泽中的桩子。汉森：连你看见的东西都被理论扭曲了。奎因：整张信念之网，连同逻辑在内，都是悬浮的——没有哪一处绝对不可修正。而复现危机，就是这些抽象变得可怕而具体的时刻：当你真正审计某些文献时，三分之一或更多的高调发现无法通过严格复现，而这恰好是基础率与分岔路径的数学所预言的。

如果你以为寓意是绝望，那可以理解。但恰恰相反——劳丹给了我们钥匙：逻辑上可能的不是合理的。科学没有地基，也不需要地基。它的运转方式像一座城市——底部没有哪块不可撼动的石头，只有无数相互支撑的结构，不断被检查，偶尔被宣判拆除重建；整体之所以立着，不是因为建在岩石上，而是因为它自我纠错的速度比崩塌更快。复现危机不是沼泽吞噬科学，而是科学公开地打入新桩——因为它注意到旧的正在变软。那不是方法的失败，那正是方法。

正因如此，接下来 178 日唯一理智的姿态，就是我们在第 1 日建立的：用刻度盘而不是开关来持有每一个信念。按证据比例调整信心，留一点余地给「我可能错了」，对最博眼球的声明保持最大怀疑。这一切的下面没有基岩。学着在桩子上建造吧。

本附录三句话概括

核心洞见: 科学没有不循环、不可修正的绝对基础：归纳依赖习惯，概念的投射受语言影响，观察负载理论，信念整体可以调整。科学可靠性来自公开检验、共同规则和持续修正。
统计机制: 基础率、检验功效、研究者自由度和发表偏倚会共同提高假阳性结果在文献中的比例；复现和透明报告正是对此的制度性回应。
活的争议: 科学是否能够在缺少绝对基础的情况下保持理性秩序，以及不同领域的真实假阳性率究竟是多少，仍需结合哲学分析与经验研究判断。

此处的线索 › 信息（p 值、基础率、证据能承载什么与不能承载什么） · 演化（文献作为幸运阳性结果的幸存者展厅） · 计算与涌现（科学作为一个没有中心地基的自我纠错系统，靠相互张力支撑自身）——把第 2 日正文的线索再往下一层延伸。

来源

来源与延伸阅读

Hume, D. (1748). An Enquiry Concerning Human Understanding, §IV–V. ——怀疑论的解答；习俗/习惯作为推断的基础。见 SEP, “The Problem of Induction.”
Goodman, N. (1955). Fact, Fiction, and Forecast. Harvard University Press. ——新归纳之谜（“grue”）；可投射性与扎根性。见 SEP, “Nelson Goodman.”
Strawson, P. F. (1952). Introduction to Logical Theory, ch. 9 ——归纳问题的”消解”。 Reichenbach, H. (1938). Experience and Prediction ——务实的辩护。
Ayer, A. J. (1936). Language, Truth and Logic. ——逻辑实证主义与证实主义在英文世界的推广。见 SEP, “Logical Empiricism” 与 SEP, “Alfred Jules Ayer.”
Popper, K. (1959). The Logic of Scientific Discovery (orig. 1934). ——可证伪性的程度；“沼泽中的桩子”段落（§30）；确证 ≠ 概率；划界 ≠ 意义。见 SEP, “Karl Popper.”
Putnam, H. (1974). “The ‘Corroboration’ of Theories,” in The Philosophy of Karl Popper. ——普特南对波普尔的反驳：若按其理论，科学将无法论证我们为何能依赖理论。
Hanson, N. R. (1958). Patterns of Discovery. Cambridge University Press. ——观察的理论负载；黎明时第谷 vs. 开普勒。
Quine, W. V. O. (1951). “Two Dogmas of Empiricism.” The Philosophical Review 60(1): 20–43. doi:10.2307/2181906。 doi.org/10.2307/2181906 ——信念之网；“没有任何陈述是不可修正的”；确认整体论。全文
Laudan, L. (1990). “Demystifying Underdetermination,” in Minnesota Studies in the Philosophy of Science 14: 267–297. ——逻辑上可能 ≠ 理性上合理；欠定性的限度。见 SEP, “Underdetermination.”
Grünbaum, A. (1984). The Foundations of Psychoanalysis: A Philosophical Critique. University of California Press. ——吻合论证；精神分析是可证伪但失败的科学（坏科学，而非非科学）。
Ioannidis, J. P. A. (2005). “Why most published research findings are false.” PLoS Medicine 2(8): e124. doi:10.1371/journal.pmed.0020124。 doi.org/10.1371/journal.pmed.0020124 ——PPV 模型；先验赔率、功效、偏倚。
Goodman, S. & Greenland, S. (2007). “Why most published research findings are false: problems in the analysis.” PLoS Medicine 4(4): e168. doi:10.1371/journal.pmed.0040168。 doi.org/10.1371/journal.pmed.0040168 ——主要的统计学批评；附伊奥安尼迪斯的回复 (e215)。
Simmons, J. P., Nelson, L. D. & Simonsohn, U. (2011). “False-Positive Psychology.” Psychological Science 22(11): 1359–1366. doi:10.1177/0956797611417632。 doi.org/10.1177/0956797611417632 ——研究者自由度；“When I’m Sixty-Four” 实验 (p = .04)。
Gelman, A. & Loken, E. (2014). “The Statistical Crisis in Science” (“The garden of forking paths,” 2013 工作论文). American Scientist 102(6): 460. doi:10.1511/2014.111.460。 doi.org/10.1511/2014.111.460 ——无需有意识 p 值操纵即可产生的假阳性。 PDF
Kerr, N. L. (1998). “HARKing: Hypothesizing After the Results are Known.” Personality and Social Psychology Review 2(3): 196–217. doi:10.1207/s15327957pspr0203_4。 doi.org/10.1207/s15327957pspr0203_4
Sterling, T. D. (1959). “Publication Decisions and Their Possible Effects on Inferences Drawn from Tests of Significance—Or Vice Versa.” JASA 54(285): 30–34. doi:10.1080/01621459.1959.10501497。 doi.org/10.1080/01621459.1959.10501497 ——294 篇中的 286 篇 (97.28%) 显著性检验文章拒绝了零假设；没有一篇是复现研究。
Rosenthal, R. (1979). “The file drawer problem and tolerance for null results.” Psychological Bulletin 86(3): 638–641. doi:10.1037/0033-2909.86.3.638。 doi.org/10.1037/0033-2909.86.3.638 ——发表偏倚；“失效安全 N”。
Wasserstein, R. L. & Lazar, N. A. (2016). “The ASA Statement on p-Values: Context, Process, and Purpose.” The American Statistician 70(2): 129–133. doi:10.1080/00031305.2016.1154108。 doi.org/10.1080/00031305.2016.1154108 ——六条原则；2019 年的后续声明呼吁废除”统计显著”。
Lakatos, I. & Musgrave, A. (eds.) (1970). Criticism and the Growth of Knowledge. Cambridge University Press. ——1965 年贝德福德学院研讨会论文集；含 Kuhn、 Popper、 Lakatos、 Feyerabend 与 Masterman 的”The Nature of a Paradigm”（“范式”的 21 种含义）。
Kuhn, T. S. (1962/1970). The Structure of Scientific Revolutions, ch. X & Postscript. ——库恩损失；世界变化论题（“我们可能想要说……”）；后期的分类不可通约性。见 SEP, “Incommensurability.”
Feyerabend, P. (1975). Against Method. ——多元主义、增殖、反归纳；“一切皆可”作为”一个理性主义者的惊恐感叹”。见 SEP, “Paul Feyerabend.”

第 002 日终 · 尚有 178 日课程