下载本日课程：EPUB PDF

模块一 · 知识与推理的根基 · 第 007 日 / 180

信息论

一条信息相当于多少个「是／否」问题？擦除它又要付出多少热力学代价？

四个好问题即可锁定 16 种可能中的一种。

lo g_{2} 16 = 4

比特。

请在 1 到 16 之间选一个整数，不要说出来。假设每个数的可能性相同，我只要提出四个尽量把范围分成两半的「是／否」问题，就能确定你的数字：「它是 9 或更大吗？」这会把范围分成两半；再在相应范围内继续二分，四次便足以确定答案。刚才，一个模糊而私人的事实被赋予了精确的数量。最坏情况下也确实需要四个问题，因为 $2^{4} = 16$ 。这就是 4 个比特。

香农在 1948 年把奈奎斯特和哈特利的工作纳入概率框架；兰道尔随后指出，一旦信息由物质承载，擦除信息就会有不可避免的热力学代价。今天将分别说明这两部分。

当前位置

前六日建立了认知工具。今天为其中一条线索给出数量单位。第 4 日中，主持人打开山羊门的行动构成信息；今天将说明信息如何度量。第 3 日展示了布尔逻辑如何成为物理开关；香农也参与了这条从逻辑到物理的转变。第 1 日讨论的分级信念还会与弗里斯顿的预测加工框架相连，其中自由能是惊奇度的一个可处理上界。信息这条线索今天获得了明确的数值，并将在第 33 日和第 83–85 日再次出现。

模型

一比特：把可能性分成两半

在香农之前，「信息」可以指报纸、电报、内容、意义或闲谈。香农的关键做法是把语义排除在数学定义之外。对试图在噪声信道上传输消息的工程师而言，重要的不是消息「说了什么」，而是它消除了多少不确定性。去掉语义后，剩下的部分可以计量。

信息的单位是比特（bit），是「二进制数字」（binary digit）的缩写。这个词由约翰·图基于 1947 年提出，香农在论文中致谢。1 比特是一次公平的「是／否」回答所提供的信息量，也就是消除一次二等分的不确定性。两个等可能结果是 1 比特；16 个等可能结果是 4 比特，因为 $2^{4} = 16$ 。

现实中的结果并不总是等可能。信息论用负对数概率表示某个结果的自信息量（surprisal，本文简称惊奇度）：

surprise (p) = - lo g_{2} p 比特

必然发生的事件（ $p = 1$ ）带来的惊奇度为零。百万分之一概率的罕见事件则包含约 20 比特的信息。

这个定义可以直接检验。若一枚硬币两面都是正面，观察到「正面」没有新信息： $p = 1$ ，惊奇度为 $- lo g_{2} 1 = 0$ 比特。公平硬币的正面概率为 $p = \frac{1}{2}$ ，惊奇度为 1 比特。若下雨本来就确定，观察到下雨几乎没有惊奇度；若下雨很罕见，观察到它就包含更多信息。对数还使独立事实的惊奇度可以相加，因为它们的概率相乘。

熵：平均惊奇度

现在把视线从单一结果移向整个信源——一种语言、一枚骰子或一串连续不断的符号。它的「平均」惊奇度是多少？这个平均值就是信息论的核心量：香农熵。

H = - i \sum p_{i} lo g_{2} p_{i} 比特 / 符号

每个结果的惊奇度乘以它发生的概率，再进行加权求和。即每个符号的期望是/否提问次数。

熵是信源模型的平均信息量。对单符号二进制前缀码，最优平均码长通常满足 $H \leq L < H + 1$ ；对长区块编码时，无损压缩可以渐近接近 H 比特／符号。公平硬币的熵是 1 比特，公平八面骰子的熵是 3 比特；「q 后是否跟 u」这一二元事件的熵较低，因为其中一个答案高度可预期。熵既衡量信源的不确定性，也衡量观察结果平均消除的不确定性。

「熵」一词的来源

香农公式中的 H，在代数形式上与 19 世纪 70 年代物理学家用来描述无序的量相同，也就是「熵」（entropy）。后来迈伦·特里布斯讲过一个故事：香农不确定如何命名这一新量，约翰·冯·诺伊曼建议使用「熵」，因为统计力学中已经有这个名称，而且「没人真正知道熵是什么」。这个故事直到 1971 年才见诸报端，细节未必完全可靠；但信息熵与热力学熵之间的联系确实重要，后文还会继续讨论。

转动拨盘，让硬币从公平逐渐趋于确定，观察熵如何塌缩。

对照表展示同一变化：不确定性最大时平均信息量最大，接近确定的事件几乎不带来新信息。

交互 · 称量硬币

熵之拨盘

通过调节拨盘将硬币从公平转为有偏，并观察熵如何下降。曲线代表双结果信源的熵 H；柱状图代表每个面的惊奇度。不确定性最大时，熵也最大——公平硬币达到 1 比特的峰值。确定性则不承载任何信息。

1.00比特 / 投掷

正面 · p=0.50 · 惊奇度 1.00 比特

反面 · p=0.50 · 惊奇度 1.00 比特

$H = 0.50 \times 1.00 + 0.50 \times 1.00 = 1.00$ 比特/投掷。

一枚公平的硬币：每次投掷都是一个真正的提问，没有任何捷径。要发送 1,000 次投掷结果，你需要 1,000 比特——没有任何压缩空间。

P(正面) 0.50

加载信源

对照表

熵之拨盘

双结果源在两个结果等可能性发生时达到其最大熵。

信源	P(正面)	熵	解读
公平硬币	0.50	1.00 比特/投掷	每次投掷都完整回答了一个是/否问题。
有偏硬币	0.88	0.53 比特/投掷	常见结果可以用短码表示；罕见结果则需要更长的码字。
接近确定源	0.99	0.08 比特/投掷	结果几乎预先已知，因此带来的新信息极少。
「q 后是否跟 u？」	0.95	0.29 比特/事件	这是二元事件的熵，不是完整的下一个字符分布。

通信理论

现代通信的基础

为信息下定义只是第一步。香农 1948 年发表的《通信的数学理论》（A Mathematical Theory of Communication）之所以成为基础文献，是因为它对噪声信道给出了一个精确结论。

任何现实信道都会损坏消息：线路噪声、光盘划痕或深空中的宇宙射线都可能翻转比特。香农的有噪信道定理必须先指定信道模型和约束，包括带宽、功率、字母表、噪声规律及允许的输入分布。在这些条件下，信道具有信道容量 C。传输速率低于 C 时，足够长的编码可以把错误概率压到任意接近零；高于 C 时，在同一模型下则无法使错误率消失。编码的作用不是取消噪声，而是在约束下维持可靠传输。

信道容量是指定信道的渐近边界。在它之下，足够长的编码可以让错误率趋近于零；有限消息仍然要在速率、延迟和错误概率之间权衡。

关键在于，香农证明了优秀编码存在，却没有给出具体构造。随后数十年的研究发展出里德–所罗门码、Turbo 码和 LDPC 码，分别用于 CD、二维码、深空通信、Wi-Fi、5G 及存储。它们都在实际约束下接近香农容量。一次稳定的网络视频播放，也依赖信道编码、缓冲、重传、拥塞控制、源编码和应用层容错共同工作。把短编码分配给高概率符号——如摩尔斯电码给 E 分配一个点，或霍夫曼编码的做法——遵循的是同一原则：把有限的比特用于最需要传输的信息。

物理含义

信息是否具有物理性？

到这里，信息似乎只是概率和对数构成的抽象数学量。比特本身没有固定的质量、大小或温度；但被存储和处理的比特必须由物理状态表示。一项长期存在的物理难题迫使人们面对这一事实：在物质系统中擦除信息，可能使环境升温。

麦克斯韦妖

1867 年，詹姆斯·克拉克·麦克斯韦提出了一个思想实验。一个隔成两室的气体容器中有一道微小闸门，由后来称为麦克斯韦妖（Maxwell’s demon）的智能实体控制。它观察每个分子：快速分子从右侧靠近时，打开闸门让其向左；慢速分子从左侧靠近时，让其向右。若只看闸门动作，妖似乎不必对分子做功，却能逐渐把快、慢分子分开，在两室之间形成温差。

这看似违反热力学第二定律：从热平衡中无代价地产生秩序，似乎与热咖啡冷却、碎鸡蛋无法复原的规律冲突。妖掌握了分子速度和位置的信息，仿佛可以绕过熵增限制。1929 年，利奥·西拉德把问题简化为单分子模型，说明关于分子位于左侧还是右侧的 1 比特信息，最多对应 $k_{B} T ln 2$ 的功。问题于是变成：信息如何与能量交换？

关键在于擦除，而不是测量

这个问题的解决来自计算机理论。1961 年，IBM 的罗尔夫·兰道尔（Rolf Landauer）问：计算操作是否必然耗散能量？他的答案是否定的：不是所有计算步骤都必然耗散。逻辑可逆的操作原则上可以在足够缓慢的条件下以任意接近零的耗散完成；不可避免的下限属于逻辑不可逆操作，尤其是「擦除」。

擦除 1 比特 ⟹ 至少耗散 k_{B} T ln 2

对于一个初始未知且等概率的比特，在无可用边信息的等温循环中重置时：室温下约为 2.8 zJ（1 zJ = $1 0^{- 21}$ 焦耳，约 0.018 eV）。兰道尔原理，1961 年。

为什么是擦除？因为擦除不可逆。如果一个比特现在为 0，仅凭现在的状态无法知道它此前是 0 还是 1；两个可能的过去被映射到一个现在。逻辑不可逆操作消除了物理状态之间的区分，因此需要向环境转移相应的熵。对于有偏比特、相关存储器或存在边信息的情形，下限取决于实际丢弃的熵和自由能；只有未知且等概率的比特才对应 $k_{B} T ln 2$ 。这就是信息具有物理代价的含义。

1982 年，IBM 同事查尔斯·贝内特（Charles Bennett）利用这一点解释了麦克斯韦妖。问题不在测量本身：如果用适当准备的存储器可逆地完成，测量没有兰道尔下限。问题在于妖拥有有限的记忆。它若要不断运行，就必须反复重置记忆；每次不可逆重置都会把暂时从气体中移出的熵以热量形式释放到环境。因此完整循环并不违反第二定律，关键过程是擦除记忆。

逐步运行不可逆重置，观察两个可能的过去合并为一个现在时，热量计如何上升。

算例按步骤追踪擦除循环：保护比特、消除物理区分、重置为零，并付出相应热量。

交互 · 擦除成本

兰道尔擦除机

一个未知且等概率的比特，被存为双势阱中的小球：左 = 0，右 = 1。若要无论它从哪里开始都将它重置为 0，就要降低势垒、将势能地貌偏向 0，并再次把它困在左侧——把两个可能的过去压缩成一个现在。在理想准静态极限中，这个不可逆重置所输入的功会以热的形式耗散；撤去偏置并不会把缺失的区分带回来。

逻辑状态

比特 = 1

耗散热量

0.0 zJ

「阶段 0 — 静止的比特」小球停在右侧的势阱中：此存储状态为 1。两个势阱，代表两个可能的值，它们之间的壁障保持着比特的稳定性。点击「下一步」开始将其擦除归零。

算例

兰道尔擦除机

步骤	逻辑状态	物理动作	热力学读数
0	比特可为 0 或 1	屏障分隔了两个稳定的势阱。	逻辑本身没有强制产生任何热量开销。
1	旧值不再受保护	降下势阱之间的壁障。	原则上这可以通过可逆操作完成。
2	强行归零	偏置地貌，使所有可能的初始状态都落到左侧。	由于重置把两个可能输入映射为一个输出，输入的功会以热量形式耗散。
3	比特读数为 0	再次升起壁障。	两种可能的过去压缩为了一个现在。
4	一个未知公平比特已擦除	重置完成。	在理想标准模型中，至少需要 $k_{B} T ln 2$ 的功，并将相应熵转移到环境。

前沿 · 2026

从思想实验到 zJ 级实验

五十年来，兰道尔原理都很难直接测量。它涉及的能量只有几个 zJ，容易被实际设备的电子热噪声淹没。自 2012 年起，一系列实验在不同物理系统中测量并验证了这一原理，使它不再只是理论推论。这里需要区分：实验支持的是明确限定条件下的物理下限，而不是所有关于「信息」的宏大主张。

前沿 01兰道尔

不同系统得到同一物理下限

第一个直接验证来自Bérut 等人（《自然》，2012 年 3 月 8 日）：将单个微米级玻璃微珠捕获在双势阱光阱中（构成一个物理上的 1 比特存储器），对其进行反复擦除。随着擦除操作进行得越来越缓慢，其释放的平均热量最终收敛于 $k_{B} T ln 2$ 的下限。两年后，Jun、Gavrilov 与 Bechhoefer（贝希霍费尔）（《物理评论快报》，2014 年 11 月 4 日）在反馈阱中进一步提高了测量精度，证实了将可达状态数减半时至少会释放 $k_{B} T ln 2$ 的热量。正如波动定理（第 85 日的预告内容）所预测的那样，虽然单个循环可能会涨落到该极限「之下」，但其「平均值」依然坚不可摧。

这一结论之所以稳固，是因为不同实验平台在清晰定义的协议下得到了相互一致的结果。跨平台验证Koski 等人用单电子实现了西拉德引擎；纳米磁体阵列测得的值接近 300 K 时约 2.8 zJ 的下限；单个被捕获的钙离子则把验证扩展到量子系统。玻璃珠、电子、磁体和原子虽然完全不同，却都指向同一物理下限。

前沿 02信息引擎最快说法

信息可以转化为功

如果擦除比特需要能量，测量到的信息能否反过来帮助系统输出功？西拉德在理论上给出了肯定答案，实验也实现了完整的测量—反馈循环。Toyabe 等人（《自然·物理学》，2010 年）利用对布朗粒子位置的测量和反馈，使粒子克服重力并向上运动，把信息转化为机械功，同时验证了广义杰辛斯基等式。Koski 等人的单电子西拉德引擎也实现了类似过程。Saha 等人（《美国国家科学院院刊》，2021 年）优化了胶体信息棘轮。媒体将其称为「最快的信息引擎」，更像宣传语而不是学术结论；相关物理结果本身仍然可靠。

前沿 03物理下限兰道尔壁垒

信息热力学与现实计算

这些结果如今纳入随机热力学框架，用于描述涨落主导的微观系统。核心工具包括杰辛斯基等式和克鲁克斯涨落定理；反馈控制的推广还会出现互信息。信息热力学要求在同一物理描述中处理信息、功、热、测量、反馈、控制器记忆和重置。2024 年的工作进一步量化了有限时间随机计算中的额外成本。

这引出数据中心的现实问题：现代机器距离兰道尔下限还有多远？答案是非常远。单个晶体管翻转时的耗散约为 $1 0^{- 18}$ 焦耳，比兰道尔下限高数百至数千倍；计入内存、散热和电源转换后还要更高。2024 年数据中心约消耗全球 1.5% 的电力，AI 是增长较快的工作负载，预计会推动 2030 年需求增长（国际能源署《能源与 AI》，2025 年 4 月）。目前这是工程和经济问题，而不是基础物理极限。声称 AI 即将撞上兰道尔极限属于极限头条；但该下限真实存在，也解释了可逆计算、热力学计算和神经形态计算为何值得研究。

示意图 · 数量级对比

示意性能量尺度 —— 不能直接等同比较

不同操作和系统边界下的对数能量尺度。各层分别表示 300 K 下理想公平比特重置、准静态单比特擦除实验、近似晶体管开关能量，以及完整逻辑或系统级计算。它们是方位标记，不是一条干净的历史效率曲线。

实验室装置并不是比你的笔记本更好的通用计算机：它们隔离的是一个擦除协议，并以足够温和的方式运行来逼近热力学界限。实际芯片还要把能量用于速度、可靠性、内存移动、控制、冷却和供电。只有始终看清每一层的系统边界，这种比较才有用。

前沿 04比特形而上学

概念的过度延伸

「信息是物理的」这一主张如今已确立。但人们很容易忍不住抹去限制词，转而宣称信息是「根本性的」——即现实在本质上是由比特构成的。物理学家约翰·阿奇博尔德·惠勒（John Archibald Wheeler）在 1989 年为此提出了著名的口号：「万物源于比特」（it from bit），即推测每一个粒子和场的核心存在都派生自「是/否」的回答，派生自信息。这是一个极具启发性又充满魅力的思想——但它属于形而上学的范畴，而非经受过检验的科学结论。

批评者指出了显而易见的循环论证：比特必须被编码在「某种东西」上，因此信息不可能自己充当万物的根基。请把它妥善存放在「引人深思的假说」抽屉里，并贴上清晰的标签。

再往前走就到了真正的边缘地带。梅尔文·沃普森（Melvin Vopson）提出了「质量-能量-信息等价性」，声称信息具有静止质量；他的「信息动力学第二定律」声称信息熵必须随时间「减少」；而他 2025 年一篇试图从信息中推导引力的论文，则被物理学家萨宾·霍森菲尔德（Sabine Hossenfelder）直接判定为「毫无道理」。当一个前沿足够火热时，它必然会滋生出边缘学术——而学会利用我们贯穿全书的前沿校准器将这两者区分开来，正是本课程真正想要培养的核心技能。

未决问题

仍无定论

「香农熵与热力学熵是同一个东西，还只是外表相似？」两者的公式完全相同；这究竟是一种深刻的物理同一性（如杰恩斯的最大熵学说），还是一种精妙的类比，目前仍争论不休。这个问题将在第 33 日和第 83 至 85 日重新开启，到那时它将直接关系到「生命是什么？」。
「那个妖真的能被彻底驱逐吗？」少数物理学家（如 Earman 和 Norton）指出，标准的驱魔论证存在微妙的循环论证——利用第二定律推导擦除下限，再用这个下限来捍卫第二定律。2016 年一项备受争议的研究甚至声称实现了一个运行开销低于 $k_{B} T ln 2$ 的逻辑不可逆门。在实验支持下的主流学界虽然持否定态度，但这背后的物理解释仍未完全定案。
「现实中的计算究竟能降到多低？」可逆计算承诺能几乎完全避开擦除耗散。但至今还没有人建造出真正实用的可逆计算机。兰道尔下限究竟是一个终将触及的工程目标，还是永远停留在原理演示的层面？
还有一个留给 AI 单元的问题：当一个模型「知道」某些事物时，这种知识归根结底是否只是为压低损失函数而排列的比特？而这些比特背后的能耗约束，是否透露了「思考」究竟需要什么？（第 138 至 145 日。）

一日三句

核心观点: 信息可以度量：比特是对数单位，惊奇度为 $i (x) = - lo g_{2} p (x)$ ，熵 $H = - \sum p lo g_{2} p$ 是平均惊奇度。当信息由物理系统表示时，重置未知且等概率的比特至少需要 $k_{B} T ln 2$ 的功。
最佳类比: 麦克斯韦妖不能通过测量永久违反第二定律；完整循环必须擦除有限记忆，而擦除会把相应熵释放到环境。
仍在争论: 香农熵与热力学熵是否具有更深的物理同一性，信息是否是现实的基本成分，以及可逆计算能否在工程上接近兰道尔下限。

今日线索 › 信息（终于迎来了它坚实的单位——比特、惊奇度、熵） · 能量（兰道尔的 $k_{B} T ln 2$ 把比特与热量焊在一起） · 计算（擦除信息的物理下限——妖不过是一只内存有限的存储装置）——以及涌现的初显（一条在玻璃、电子、磁体、原子间普适的物理规律），并为第 83 至 85 日关于进化与生命的探讨埋下伏笔。

明日 → 第 8 日

复杂性与涌现

信息论逐个比特地度量秩序；明天，秩序将开始自我组织：椋鸟群、重画铁路网的黏菌、细胞自动机——简单的局部规则如何生成整体结构，弱涌现与强涌现之争又为何至今没有定论。

来源

来源与延伸阅读

Shannon, C. E. (1948). “A Mathematical Theory of Communication.” Bell System Technical Journal 27: 379–423 (July) & 623–656 (October). — 奠基性论文：引入比特、熵、信道容量以及有噪信道编码定理。 doi.org/10.1002/j.1538-7305.1948.tb01338.x
Shannon, C. E. (1938). “A Symbolic Analysis of Relay and Switching Circuits.” Trans. AIEE 57(12): 713–723 (MIT master’s thesis, 1937). — 物理开关中的布尔逻辑；连接第 3 日的桥梁。
Soni, J. & Goodman, R. (2017). A Mind at Play: How Claude Shannon Invented the Information Age. Simon & Schuster. — 传记；「信息时代大宪章」这一说法的来源，以及图基创造「比特」一词的背景。
Landauer, R. (1961). “Irreversibility and Heat Generation in the Computing Process.” IBM Journal of Research and Development 5(3): 183–191. — 提出了 $k_{B} T ln 2$ 的擦除下限。doi:10.1147/rd.53.0183。 doi.org/10.1147/rd.53.0183
Bennett, C. H. (1982). “The Thermodynamics of Computation — a Review.” International Journal of Theoretical Physics 21(12): 905–940. doi:10.1007/BF02084158；证明了是擦除而非测量过程驱逐了麦克斯韦妖。 doi.org/10.1007/BF02084158
Szilárd, L. (1929). “Über die Entropieverminderung in einem thermodynamischen System bei Eingriffen intelligenter Wesen.” Zeitschrift für Physik 53: 840–856. doi:10.1007/BF01341281；单分子引擎；确立了 1 比特 ↔ $k_{B} T ln 2$ 功的转换关系。 doi.org/10.1007/BF01341281
Bérut, A., Arakelyan, A., Petrosyan, A., Ciliberto, S., Dillenschneider, R. & Lutz, E. (2012). “Experimental verification of Landauer’s principle linking information and thermodynamics.” Nature 483: 187–189 (8 March 2012). doi:10.1038/nature10872。 doi.org/10.1038/nature10872
Jun, Y., Gavrilov, M. & Bechhoefer, J. (2014). “High-Precision Test of Landauer’s Principle in a Feedback Trap.” Physical Review Letters 113: 190601 (4 Nov 2014). doi:10.1103/PhysRevLett.113.190601。 doi.org/10.1103/PhysRevLett.113.190601
Hong, J., Lambson, B., Dhuey, S. & Bokor, J. (2016). “Experimental test of Landauer’s principle in single-bit operations on nanomagnetic memory bits.” Science Advances 2(3): e1501492 (11 March 2016). doi:10.1126/sciadv.1501492；实测值为 (4.2 ± 0.9) zJ，逼近「300 K 时约为 2.8 zJ」的底限。 doi.org/10.1126/sciadv.1501492
Yan, L. L. et al. (2018). “Single-Atom Demonstration of the Quantum Landauer Principle.” Physical Review Letters 120: 210601 (21 May 2018). — 使用单个被捕获的 ⁴⁰Ca⁺ 离子实现量子兰道尔原理的验证。 link.aps.org/doi/10.1103/PhysRevLett.120.210601
Toyabe, S., Sagawa, T., Ueda, M., Muneyuki, E. & Sano, M. (2010). “Experimental demonstration of information-to-energy conversion and validation of the generalized Jarzynski equality.” Nature Physics 6: 988–992. doi:10.1038/nphys1821。 doi.org/10.1038/nphys1821
Koski, J. V., Maisi, V. F., Pekola, J. P. & Averin, D. V. (2014). “Experimental realization of a Szilard engine with a single electron.” PNAS 111(38): 13786–13789. doi:10.1073/pnas.1406966111。 doi.org/10.1073/pnas.1406966111 另见 Koski et al., PRL 113: 030601 (2014) 以及 PRL 115: 260602 (2015).
Saha, T. K., Lucero, J. N. E., Ehrich, J., Sivak, D. A. & Bechhoefer, J. (2021). “Maximizing power and velocity of an information engine.” PNAS 118(20): e2023356118 (18 May 2021). doi:10.1073/pnas.2023356118；优化后的胶体信息棘轮（「最快」属于媒体的宣传表述）。 doi.org/10.1073/pnas.2023356118
Jarzynski, C. (1997). “Nonequilibrium Equality for Free Energy Differences.” Physical Review Letters 78: 2690. doi:10.1103/PhysRevLett.78.2690。 doi.org/10.1103/PhysRevLett.78.2690 · Crooks, G. E. (1999). “Entropy production fluctuation theorem and the nonequilibrium work relation for free energy differences.” Physical Review E 60: 2721. doi:10.1103/PhysRevE.60.2721。 doi.org/10.1103/PhysRevE.60.2721
Parrondo, J. M. R., Horowitz, J. M. & Sagawa, T. (2015). “Thermodynamics of information.” Nature Physics 11: 131–139. doi:10.1038/nphys3230。 doi.org/10.1038/nphys3230
Manzano, G., Kardeş, G., Roldán, É. & Wolpert, D. H. (2024). “Thermodynamics of Computations with Absolute Irreversibility, Unidirectional Transitions, and Stochastic Computation Times.” Physical Review X 14: 021026 (13 May 2024). doi:10.1103/PhysRevX.14.021026；量化了超出兰道尔下限的「失配成本」。 doi.org/10.1103/PhysRevX.14.021026
International Energy Agency (2025). Energy and AI. (April 2025). — 2024 年数据中心耗电约占全球需求 1.5%（~415 TWh），预计到 2030 年将达到约 945 TWh。 iea.org/reports/energy-and-ai
Wheeler, J. A. (1990). “Information, Physics, Quantum: The Search for Links.” In Complexity, Entropy, and the Physics of Information. — 「万物源于比特」（有争议的形而上学主张）。
Vopson, M. M. (2023). “The second law of infodynamics and its implications for the simulated universe hypothesis.” AIP Advances 13: 105308. doi:10.1063/5.0173278；带有争议／炒作风险。 doi.org/10.1063/5.0173278 另见 Vopson (2025), “Is gravity evidence of a computational universe?”, AIP Advances 15: 045035, doi:10.1063/5.0264945，以及 Sabine Hossenfelder 在 2025 年发表的公开批评。 doi.org/10.1063/5.0264945

专题深入附录信息论的深层结构选读内容。

主线介绍了香农信息、比特、熵以及兰道尔原理。本附录补充这些概念之间的联系：互信息如何衡量变量之间的统计依赖，相对熵如何描述错误模型带来的额外编码代价，压缩与纠错为何能够协同工作，计算为何受到物理极限约束，以及可逆计算和量子信息如何改变这些问题的边界。

01 · 互信息与相对熵

互信息与模型失配的编码代价

熵衡量单个信源的不确定性。互信息则衡量两个变量之间的统计依赖：知道 X 后，对 Y 的不确定性减少了多少。雷声透露了闪电的信息；检测结果透露了疾病的信息；第 4 日开启的那扇羊门透露了跑车的信息。捕获这种统计依赖的量，就是互信息 (mutual information)。

先从两个更简单的部分开始。联合熵 (joint entropy) $H (X, Y)$ 是这一对变量的总不确定性。条件熵 (conditional entropy) $H (Y ∣ X)$ 是在已知 X 时 Y 遗留的不确定性——即存留的惊奇度。互信息就是它们之间的差值：已知 X 后，对 Y 的不确定性缩减了多少。

I (X; Y) = H (Y) - H (Y ∣ X) = H (X) + H (Y) - H (X, Y)

对 Y 的不确定性，减去得知 X 后遗留的不确定性。具有对称性：X 透露关于 Y 的信息量，与 Y 透露关于 X 的信息量完全相同。

对于两个变量，用两个不确定性圆圈的重叠来理解很直观。但这个图像有边界：三个或更多变量的信息图中会出现带符号的交互区域。互信息衡量统计依赖，而不是因果关系。因果图（第 5 日）编码的是结构假设和条件独立性；两个变量共享信息，可能是因为一个导致另一个，也可能是因为共同原因或选择偏差。在贝叶斯实验设计（第 2 日）中，关于假设的期望信息增益是一种有用目标，并可写作互信息。一次已经发生的观测则通过似然比、贝叶斯因子、对数评分或后验更新成为证据。

互信息衡量统计依赖。信道容量是在指定信道模型和约束下输入与输出之间可达到的最大互信息率。因果和实际证据还需要互信息之外的额外结构。

交互式 · 两个不确定性的重叠

互信息的图示

两枚公平硬币 X 和 Y，各携带 1 比特信息。将它们从「独立」（已知其中一枚无法透露另一枚的任何信息）滑动到「相同」（已知其中一枚便得知了另一枚的全部信息）。蓝绿色的重叠部分代表 $I (X; Y)$ ；两侧的外弯月代表存留的惊奇度——即条件熵。观察信道是如何「开启」的。

H (X)

H (Y)

1.00 · 1.00

H (Y ∣ X)

— 存留的惊奇度1.00

I (X; Y)

— 共享部分0.00

独立。两枚硬币相互独立；得知 X 后，Y 的不确定性完全保留。信道未传输任何信息。

取值相同的概率 P(X = Y)0.50

互信息随取值相同概率变化的对比

取值相同的概率 $P (X = Y)$	$H (Y ∣ X)$	$I (X; Y)$	解释
0.50	1.00 比特	0.00 比特	独立硬币；X 无法告诉你任何关于 Y 的信息。
0.75	0.81 比特	0.19 比特	有噪信道；X 消除了少许关于 Y 的不确定性。
0.90	0.47 比特	0.53 比特	强相关；得知 X 消除了关于 Y 的大部分不确定性。
1.00	0.00 比特	1.00 比特	完全相同的变量；得知 X 即可完全确定 Y。

相对熵：模型失配的代价

熵有一个关系密切的「亲戚」，也是科学中极有用的量。它回答的问题很尖锐：相信一个错误模型，会多消耗多少比特？假设现实从分布 $p$ 中产生结果，而你把世界建模为 $q$ 。你每次都按 $q$ 来估计惊奇度，为此预留 $- lo g_{2} q$ 比特；但真实结果服从 $p$ 。由此增加的平均码长，就是相对熵 (relative entropy)，或称KL 散度 (Kullback–Leibler divergence)：

D (p ∥ q) = i \sum p_{i} lo g_{2} \frac{p _{i}}{q _{i}} \geq 0

当真实分布为 p 但你却针对 q 进行编码时，每个符号所浪费的额外比特数。只有当你的模型完全正确时才为零。永远不为负值。

这个不等式贯穿本课程的许多地方。它量化的是错误先验或错误模型带来的额外开销，因此会自然出现在贝叶斯更新（第 1 日、第 4 日）里。KL 是散度而不是距离：它不对称，也不满足三角不等式。交叉熵与它相关但并非同义： $H (p, q) = H (p) + D_{KL} (p ∥ q)$ ，因此只有当真实分布 p 固定时，最小化交叉熵才等价于最小化 KL。语言模型训练可以理想化为最小化期望交叉熵的经验估计；这不是说模型真的拿到了 $D (reality ∥ model)$ 这个对象。弗里斯顿的变分自由能也更微妙：它是生成模型下惊奇度的上界，并包含近似后验与模型后验之间的 KL 项。互信息本身可写为联合分布 P(X,Y) 与乘积分布 P(X)P(Y) 之间的 KL 散度。

02 · 压缩与冗余

消除冗余

熵不仅是一个抽象概念，更是一个可以渐近逼近的底线。香农的无失真信源编码定理 (source coding theorem)——与有噪信道定理并立、却相对低调的另一条基石——指出，对指定信源产生的长区块进行编码时，平均速率可以任意逼近 H 比特/符号；若不丢失信息，也不利用模型之外的额外结构，就不能低于 H。熵是相对于该模型不可再压缩的核心：去掉可预测部分之后仍然必须保留的信息。超出这一底限的所有部分都是冗余 (redundancy)，而冗余正是压缩技术试图消除的部分。

普通文本中有多少冗余？非常之多。如果使用 27 个符号（26 个字母加一个空格），一个完全随机的字符流每字母会携带 $lo g_{2} 27 \approx 4.7$ 比特的信息。但英语是非常可预测的——q 后面常常跟着 u，th 和 he 反复出现，元音也受到上下文约束。在 1951 年一个著名的实验中，香农让人们猜测隐藏文本的下一个字母，并测量他们猜对的概率，最终得出英语的熵大约为每字母 1 比特（他的估值范围约为 0.6 到 1.3 比特）。这个启示是惊人的：英语有大约四分之三的冗余。Yu cn prbbly rd ths sntnc wth th vwls rmvd（你大概仍能读懂这句去掉元音的话）——因为上下文已经提供了恢复元音所需的大量信息。填字游戏、自动联想输入，以及在嘈杂的派对中听清别人说话的能力，全部依赖于这一冗余盈余。

压缩方法的层次

霍夫曼编码 (Huffman coding)（1952 年）——为常见符号分配短码字——在每次只对单个符号编码时是最优的，但它无法捕获跨符号的模式。算术编码 (Arithmetic coding)（20 世纪 70 年代）表现得更好，它将整条消息编码为 [0, 1) 区间内的一个单一实数，使编码效率逼近熵的下限。而 Lempel–Ziv 算法（1977–1978 年）则是自适应的：它动态构建重复子串的字典，使得某种模式第二次出现时只需极短的表示。它们运行在 ZIP、gzip、PNG 和许多日常无损格式中；而音频、视频和现代图像编码还会使用变换、预测和熵编码等机制。它们谁也无法击败给定模型下的香农底限；优秀方案会在其假设下逼近它。

上述所有都是无损压缩：解压后你能找回每一个比特。但人的眼睛和耳朵并不苛刻，而这种不苛刻本身就能换来巨大的压缩空间。率失真理论 (rate–distortion theory)（香农，1959 年）提出了一个更难的问题：如果允许丢失一点点信息，在给定的可接受失真水平下，你最少可以花费多少比特？这是有损压缩的主导数学原理——JPEG 丢弃了你的视网膜无法分辨的细微色彩细节，MP3 舍弃了已被较响亮声音掩盖的微弱音调。这门艺术的关键在于，只在人类能察觉的地方花费比特，而让其余的部分蒸发。在线流媒体、视频通话以及现代互联网的整个视觉质感——全都是率失真理论的产物。

03 · 算法复杂度

柯尔莫哥洛夫复杂度：信息与计算的联系

香农熵是信源（一个概率分布）的属性。但这里有一个它无法触及的谜题。考虑两个长度为一百万位的数字字符串：一个是投掷硬币产生的一百万个随机比特，另一个是 $π$ 的前一百万位数字。在香农看来，如果它们是从「均匀分布的数字信源」中抽样出来的，它们看起来承载着同样密度的信息。然而， $π$ 可以由一段相对很短的程序重新生成，而典型随机字符串几乎无法压缩。那个看似随机的字符串具有更高的描述复杂度。

那个特征正是它的柯尔莫哥洛夫复杂度 (Kolmogorov complexity)（由索洛莫诺夫、柯尔莫哥洛夫与蔡廷在 20 世纪 60 年代独立提出）：输出该字符串的最短计算机程序的长度。它是面对计算本身而非概率模型的压缩极限，并且只在一个由所选通用机决定的加法常数以内与具体机器无关。 $π$ 是极可压缩的（短程序，无限输出）；而典型的长随机字符串在精确计数意义上不可压缩——大多数字符串并没有比自身短多少的描述。这成为算法随机性的一种定义。

而在此处，该学科露出了它锋利而美丽的一面。柯尔莫哥洛夫复杂度是可证明不可计算的已证实。不存在任何算法能在给定任意字符串后，返回其最短程序的长度——这一结论与第 27–28 日等待着我们的哥德尔和图灵极限，以及蔡廷的怪异常数 Ω 产生了共鸣。合适的一致形式系统可以确定 Ω 的某些有限事实，但不能确定任意多位数字。我们明天将在复杂性主题下再次遇到相关思想，但要带着一个重要警告：高描述复杂度本身并不等于有意义或有组织的复杂性。典型随机字符串同样会最大化它。

04 · 纠错编码

信息如何在噪声信道中可靠传输

主线页面曾承诺过，在指定信道容量之下，足够长的编码可以渐近实现错误率趋零——只要你能找到那组编码。这场寻宝之旅值得专门讲述，而它始于一个周五晚上在贝尔实验室里备受挫折的男人。

1947 年，理查德·汉明 (Richard Hamming) 在周末可以使用一台继电器计算机，但它总是让他失望：每当它检测到输入中存在错误时，就会直接停机，静静等待周一才来上班的人类操作员。「如果机器能检测到错误，」汉明愤怒地质问，「为什么它不能定位并纠正它呢？」汉明码 (Hamming code)（发表于 1950 年）便诞生自这股怒火中，它是第一个真正的纠错码，并带来了一种从几何角度审视整个领域的全新方式。

其核心思想是汉明距离 (Hamming distance)：分隔两个码字所需的比特翻转次数。如果你的有效消息只有 000 和 111，它们在空间中的距离为 3。单比特错误会把 000 变成诸如 010 的字符串——但 010 仍然比 111 更接近 000，因此接收端可以通过多数表决来静默纠正它。在比特字符串构成的几何空间中，只要让有效码字彼此保持足够距离，就能为每个码字划定可纠正错误的范围。冗余在这里获得了清晰的几何解释。

交互式 · 编码的几何

汉明立方体

每个 3 比特词对应立方体的一个顶点，每条边代表一次比特翻转。编码只使用 000 和 111 两个有效词，它们之间的汉明距离为 3。点击任意顶点模拟噪声信道收到的词；解码器按多数规则将其判定为最近的有效词，因此一次比特错误总能被纠正。

编码词解码 → 000 解码 → 111

点击一个顶点。 两个有效编码词位于立方体的相对两端，汉明距离为 3。这个距离使解码器能够区分有效词：一次比特翻转后，接收词仍然离原编码词最近。

3 比特重复码的最近邻解码

接收字	到 000 的距离	到 111 的距离	解码为
`000`	0	3	`000`
`001`, `010`, `100`	1	2	`000`
`011`, `101`, `110`	2	1	`111`
`111`	3	0	`111`

码字之间的汉明距离为 3，因此任何单比特错误仍会比另一个码字更接近原始码字。

从深空通信到日常设备

汉明的几何学扩展成为了一项你时时刻刻依赖却浑然不觉的工程奇迹。里德-所罗门码 (Reed–Solomon codes)（1960 年）将数据视为多项式上的点，并且能够修复整段的突发损毁——这正是划伤的 CD 仍然可以播放、撕裂的二维码仍然可以扫描，以及旅行者号探测器能够在使用比冰箱灯泡还要微弱的发射机的情况下，横跨数十亿公里将外行星的图像低声传回地球的原因。深空任务将编码进行层层嵌套（级联），以从几近纯粹的噪声中剥离出它们的信号。

数十年来，香农理论给出的性能上限与工程师能够实现的性能之间一直存在明显差距。Turbo 码通过两个迭代译码器反复交换软信息，使性能逼近信道容量，差距仅为零点几分贝，从而改变了该领域。低密度奇偶校验码 (LDPC)——由罗伯特·加拉格尔于 1960 年发明，因在当时对硬件计算要求过于苛刻而尘封了三十年，直到 20 世纪 90 年代末被重新发现——如今正用于 Wi-Fi、5G 数据信道和存储设备。而在 2009 年，埃尔达尔·阿里坎发明的极化码 (polar codes) 成为了第一个明确构造、并被证明可渐近达到二元输入无记忆信道对称容量且具有高效编解码的码族。已确立。2016 年，全球 5G 标准将极化码用于控制相关信道，而 LDPC 承担了大量数据信道编码。香农提出信道容量理论 68 年后，工程技术终于实现了接近这一极限的编码方案。

05 · 信息论的先驱

信息论发展的关键人物

香农并非凭空降临。两位贝尔实验室的前辈曾围绕这一思想做过探索。哈里·奈奎斯特 (Harry Nyquist)（1924 年）推算出了电报线传输信号的速度极限；拉尔夫·哈特利 (Ralph Hartley)（1928 年）在其实际名为《信息传输》的论文中，提出将信息量度量为可能消息数的对数——这正是比特的萌芽，唯独缺少了香农引入概率并抛弃意义的关键一步。香农也承认这条来路：在一些记法中，信息的度量单位至今仍叫「哈特利」。

香农本人也极值得写上一段。克劳德·香农曾在贝尔实验室的走廊里骑着独轮车，同时进行抛球杂耍。他建造了一只名叫忒修斯 (Theseus)（1950 年）的机械小鼠，这只小鼠能自己学会走出迷宫——这是最早呈现在他办公桌上的机器学习演示之一。他在马文·明斯基的建议下建造了「终极机器」：一个带有一个开关的盒子，当拨动开关时，盒子会打开，伸出一只机械手，把自己的开关拨回关闭状态，然后缩回。他与数学家爱德华·索普 (Ed Thorp) 合作建造了通常被称为首个可穿戴计算机的设备——一个香烟盒大小的装置，用于在轮盘赌中赢钱，并于 1961 年秘密带入拉斯维加斯。他让来访客人猜测句子里的下一个字母，并不只是助兴游戏，而是在现场感受英语的可预测性。这个把工程学中最抽象的信息概念变成精确定理的人，私下却几乎停不下来地热爱动手做东西。也正合适：他理论最后的点睛之笔——信息是物理的——就等在他出发的道路尽头。

06 · 量子信息

量子比特及其性质

到目前为止，所有内容都假设比特是确定的 0 或 1。量子力学提供了一种更丰富的载体——量子比特 (qubit)，而建立在其上的信息论是如此不同，以至于值得专门为其留出一个单元（第 47 日）。此处只介绍足以让你感受到其奇妙的知识。

一个量子比特可以处于 0 和 1 的叠加态，对应整个布洛赫球面上的一点，而非只限于两极。你可能会因此认为它携带了无限量的信息。但它没有——其原因正是该学科中最深奥的事实之一。霍莱沃界 (Holevo’s bound)（1973 年）限制的是从量子系综中可提取的经典信息；在普通的无辅助通信设定下，一个传输的量子比特不能传递任意多的经典信息。若事先共享纠缠，超密编码等协议会改变可用资源的清单。量子测量也可以有两个以上结果，所以「是/否坍缩」只是简化说法。布洛赫球上的连续状态是真实的，但不能被一次性完整读成普通经典信息。

还有两个前瞻性的亮点。不可克隆定理 (no-cloning theorem)（Wootters 与 Zurek; Dieks, 1982 年）已确立指出，一个未知的量子态无法被复制——并不存在量子复印机——它有助于解释为什么窃听会扰动量子密码协议，但安全性还需要完整的协议证明，而不只是不可克隆定理。香农熵的量子对应物——冯·诺伊曼熵 $S = - Tr (ρ lo g ρ)$ ——用于度量量子态中的不确定性，并且对于纯的二分系统等于纠缠熵；混合态纠缠则需要其他度量。到了量子世界，比特只是故事的第一章。

07 · 可逆计算

可逆计算：减少不必要的擦除

主线页面给出了兰道尔的标准结论：在等温循环中重置一个初始未知的公平比特至少需要 $k_{B} T ln 2$ ，因为该操作将两种可能的过去压缩为一个。根本限制只出现在逻辑不可逆的步骤上——即那些无法从输出唯一恢复输入的步骤。如果计算过程尽量避免这类擦除，会发生什么？

这就是可逆计算 (reversible computing)，而且它在理论上是完全成立的原则上已确立。查尔斯·贝内特 (Charles Bennett) 于 1973 年证明，任何计算都可以被重构为一系列绝不毁灭信息的可逆步骤——你保留必要的中间结果而不覆写，运行计算，复制答案，再将整个过程反向运行以干净地「撤销计算」那些垃圾信息，让每个比特都在净擦除为零的情况下回到它的起点。专门的可逆逻辑门让这一思想变得具体：托佛利门 (Toffoli gate)（一个受控-受控-非门）与弗雷德金门 (Fredkin gate)（一个受控交换门）是通用的——你可以用它们构建任意电路。这些门的输入与输出一一对应，因此可以从输出唯一恢复输入，不会在逻辑上丢失信息。

因此，在原则上，可逆计算可以在信息被有意丢弃之前避开根本的擦除下限。物理实现可以通过更温和、更接近准静态的协议降低耗散，但速度—能量权衡取决于具体器件模型；逻辑可逆本身并不意味着计算机必须以趋近于零的速度运行。可逆算法也涉及时间—空间权衡，而不是简单地永远储存无限历史。目前尚未有人建造出通用的实用可逆计算机；它与其说是一种产品，不如说是一个精妙的设想。但这关乎到该领域突然再次引人瞩目的原因：随着传统芯片逼近物理极限，避免擦除开始具有工程意义，而不只是一个理论上的奇招。这条线索一直延伸到第 47 日：理想闭合系统中的量子门是幺正且可逆的，而初始化、测量、纠错、控制和重置都要单独分析其热力学影响。

08 · 计算的物理上限

计算能力的物理极限

兰道尔原理限制了遗忘的能量。但还有其他阻碍——在速度上、在密度上，以及一块物质所能进行的计算总量的极限上——而追溯它们会将你引向真正令人目眩神迷的方向。2000 年，麻省理工学院的塞斯·劳埃德 (Seth Lloyd) 估算了一台「终极笔记本」：一公斤物质、一升体积，并以物理定律所允许的最高效率被组织起来（《自然》，2000 年 8 月 31 日）。这些是依赖模型的上界估计，不是可制造设备的规格。

速度的上限源自量子力学本身。马戈勒斯-列维京定理 (Margolus–Levitin theorem)（1998 年）用高于基态的能量来约束系统穿过可区分状态的速度，而「操作」的精确定义也取决于具体计数约定。将一公斤静止质量的全部能量（ $E = m c^{2}$ ，约为 $1 0^{17}$ 焦耳）注入劳埃德的理想化计算，你将得到一个约为每秒 $1 0^{51}$ 次操作的物理天花板。而内存的上限则来自对该系统所能占据的状态数的统计：约为 $1 0^{31}$ 比特。这些数字并非工程制造的目标；它们由基本常数 $c$ 、 $ℏ$ 和 $k_{B}$ 决定。劳埃德也指出了显而易见的障碍：在这一极限下运行的设备会把一公斤物质变成约十亿度的等离子体；他说，这会是一个「封装上的难题」。

信息与边界面积

重力提供了一个最深奥的线索，暗示信息在最底层与物理学交织在一起。贝肯斯坦界限 (Bekenstein bound)（1981 年）本质上是能量—半径熵界： $S \leq 2 π k_{B} E R / (ℏ c)$ 。当引入引力坍缩和黑洞熵时，面积标度才进入故事：黑洞使相关界限达到饱和，其熵与事件视界面积成正比。这种怪异性——引力区域的最大信息量可以受边界控制——成为了全息原理（由 ‘t Hooft、Susskind 在 20 世纪 90 年代提出）前沿理论猜想，尚未证实的温床。在全息对偶适用的理论中，一个引力体可以拥有较低维的边界描述；这比「我们的宇宙编码在遥远二维表面上」要微妙得多。它也引发了黑洞信息悖论，我们将在第 40 日正面对抗它。

把这套物理上限推到宇宙尺度，你可以发问：自大爆炸以来，整个宇宙已经计算了多少？劳埃德 2002 年的估计约为：在 $1 0^{90}$ 个普通物质比特上进行了 $1 0^{120}$ 次基本操作；如果计入引力自由度，可容纳的信息量还会高得多。这固然是一个极其巨大的数字，但是有限的。现实本身所执行的计算量存在一个硬性的、可数的上限。至于这是否意味着宇宙就是一台字面意义上的计算机，仍是一种富有争议的解读存在争议——仅为解释，而非结论，与主线页面标记过的「万物源于比特」式过度解读一脉相承。数值界限来自物理；形而上学则是自选的。

图表 · 速率与总量

计算能力的数量级

两条分开的对数尺度：设备速率以每秒操作次数表示，宇宙则采用劳埃德对累计操作总数的估计。它们相邻出现，是因为二者都约束计算，但维度并不相同。

从你的笔记本电脑到终极笔记本电脑的速率跨越约为 10³⁹ 倍。宇宙标记是另一条累计估计，不是每秒操作次数基准。两条尺度指向同一个朴素结论：计算和万事万物一样，都受物理定律约束。

09 · 跨学科应用

信息单位在不同学科中的应用

香农思想的隐秘力量在于，信息一旦化为一个数字，它便不再专属电信通信领域，而开始出现在处理不确定性、多样性或惊奇度的每一个学科之中。以下是对该线索延伸范围的快速巡览，每一项都是通往后文课题的入口：

在生态学中，香农多样性指数 (Shannon diversity index)——同样是那个 H = −Σ p log p——用于衡量生物多样性：热带雨林具有极高的熵（物种繁多且分布均匀），而单作物农田的熵几乎为零。这正是惊奇度被应用在「这属于哪个物种？」上的体现。
在机器学习中，自回归语言模型的预训练通常最小化经验性的逐词元交叉熵。困惑度 (perplexity) 是这一平均损失的指数形式，用来衡量模型在指定数据集上的预测拟合程度，但它并不是模型质量的完整度量。指令微调、偏好优化、强化学习、蒸馏和多模态训练都可能使用其他目标。
在生物学中，DNA 是一个四字母编码，每碱基携带约 2 比特的信息——遗传在此被视作字面意义上的数字信息存储，这一框架将直接在第 77 日引入中心法则，并在第 87–90 日探寻生命的起源。
在物理学中，我们今天所定义的信息熵与热机中的热力学熵被发现——或许——是同一种东西，这也是主线页面所标注的问题，且第 33 日将作为「时间之矢」重新讨论它。
在生命本身中，薛定谔关于有机体通过摄入「负熵」（Brillouin 后来称之为 negentropy）来维持生存的思想是信息热力学的雏形——这正是第 83–85 日所围绕的核心谜题，届时今天所学的 $k_{B} T ln 2$ 将以细胞内部热力学耗散的形式再次出现。

这正是该主题为何在课程中处于目前位置的真实原因，即在 180 天中仅排第七。信息一旦被度量，便会进入能量、演化、涌现和计算等多个领域，因此成为这门课程的五条核心线索之一，也是连接这些主题的重要概念。

三句话总结本附录

内容增补: 信息论的基本代数还包括互信息、相对熵、渐近压缩极限、纠错码和可逆计算。它们分别描述统计依赖、模型失配、压缩效率、抗噪传输和耗散减少。
物理范围: 信息的物理意义不仅体现在擦除比特的热耗散，也体现在计算速度、计算密度、黑洞熵以及宇宙可执行操作次数等上限。
跨学科意义: 同一套信息量可以用于生物多样性、神经网络训练、DNA、时间方向和生命热力学，因此信息论同时连接了工程、物理、生命科学和认知科学。

深入线索 › 信息（互信息、KL 散度、柯尔莫哥洛夫复杂度）· 能量（可逆计算、Margolus–Levitin、终极笔记本）· 计算（编码、量子信息、全部计算的极限）· 涌现（复杂度作为不可压缩的结构 → 第 8 日）· 演化与生命（作为比特的 DNA、负熵 → 第 77、83–85 日）。

来源 · 附录

来源与延伸阅读

（本附录新增；核心的香农/兰道尔文献见第 07 日正文页面。）

Cover, T. M. & Thomas, J. A. (2006). Elements of Information Theory (2nd ed.). Wiley. —— 标准教科书：互信息、相对熵（KL 散度）、信源与信道编码、率失真。
Shannon, C. E. (1951). “Prediction and Entropy of Printed English.” Bell System Technical Journal 30: 50–64. doi:10.1002/j.1538-7305.1951.tb01366.x —— 英语熵 $\approx 1$ 比特/字母； $\sim 75%$ 冗余度。
Shannon, C. E. (1959). “Coding Theorems for a Discrete Source with a Fidelity Criterion.” IRE Nat. Conv. Rec. —— 率失真（有损压缩）理论的基石。
Hamming, R. W. (1950). “Error Detecting and Error Correcting Codes.” Bell System Technical Journal 29(2): 147–160. —— 汉明距离与首个纠错码。
Nyquist, H. (1924). “Certain Factors Affecting Telegraph Speed.” · Hartley, R. V. L. (1928). “Transmission of Information.” Bell System Technical Journal. —— 香农的直接前驱工作。
Ziv, J. & Lempel, A. (1977, 1978). “A Universal Algorithm for Sequential Data Compression” & “Compression of Individual Sequences…” IEEE Trans. Information Theory. —— LZ77/LZ78，ZIP、gzip、PNG 的基础。
Kolmogorov, A. N. (1965); Solomonoff, R. (1964); Chaitin, G. (1966). —— 算法信息/柯尔莫哥洛夫复杂度；不可计算性；蔡廷常数 Ω。参见 Li & Vitányi，《柯氏复杂度导论》（Springer 出版社）。
Berrou, C., Glavieux, A. & Thitimajshima, P. (1993). “Near Shannon Limit Error-Correcting Coding: Turbo Codes.” IEEE ICC. · Gallager, R. G. (1962). “Low-Density Parity-Check Codes.” IRE Trans. Inf. Theory.
Arıkan, E. (2009). “Channel Polarization: A Method for Constructing Capacity-Achieving Codes…” IEEE Trans. Information Theory 55(7): 3051–3073 (July 2009). —— 极化码；2016 年被 3GPP 采纳为 5G NR 控制信道标准。
Wootters, W. K. & Zurek, W. H. (1982). “A single quantum cannot be cloned.” Nature 299: 802–803. doi:10.1038/299802a0 —— 不可克隆定理（另见 Dieks, 1982）。
Holevo, A. S. (1973). “Bounds for the quantity of information transmitted by a quantum communication channel.” Problems of Information Transmission 9: 177–183. —— 量子系综中可取得的经典信息；普通无辅助量子比特通信受到资源限制。
Bennett, C. H. (1973). “Logical Reversibility of Computation.” IBM Journal of Research and Development 17(6): 525–532. —— 可逆计算；包含 Fredkin 与 Toffoli (1982) 可逆逻辑门。
Margolus, N. & Levitin, L. B. (1998). “The maximum speed of dynamical evolution.” Physica D 120: 188–195. —— 量子速度极限， $\sim 2 E / (π ℏ)$ 。
Lloyd, S. (2000). “Ultimate physical limits to computation.” Nature 406: 1047–1054 (31 Aug 2000). doi:10.1038/35023282 —— 「终极笔记本」： ~~$1 0^{51}$ 次操作/秒，~~ $1 0^{31}$ 比特。 doi.org/10.1038/35023282 · Lloyd, S. (2002). “Computational capacity of the universe.” Physical Review Letters 88: 237901. —— ~~$1 0^{120}$ 次操作，~~ $1 0^{90}$ 个普通物质比特。
Bekenstein, J. D. (1981). “Universal upper bound on the entropy-to-energy ratio…” Physical Review D 23: 287. —— 能量-半径熵界；结合霍金的黑洞熵，成为后来全息论证的源头之一。[全息原理：前沿理论猜想，尚未证实。]
Brillouin, L. (1956). Science and Information Theory. Academic Press. —— 负熵；测量的信息热力学问题（后由兰道尔-贝内特完善）。
Soni, J. & Goodman, R. (2017). A Mind at Play. Simon & Schuster. —— 香农生平：忒修斯小鼠、终极机器、与爱德华·索普合作的轮盘赌计算机、骑独轮车抛球杂耍。

专题深入附录信息论的研究前沿选读内容。

主线和第一篇附录介绍了香农信息、兰道尔原理及其理论基础。本篇聚焦约 2019–2026 年的近期研究，涵盖活细胞中的熵产生测量、速度与耗散的权衡、热力学计算、量子协同擦除、黑洞信息和信息热力学。部分结果来自同行评议论文，部分仍是预印本或公司报告；以下将明确区分证据等级和尚未验证的工程主张。

示意图 · 近期研究方向

七个研究方向及其共同问题

信息物理的近期前沿延伸出七条活跃线索。颜色只表示证据状态：青色代表已确立，琥珀色代表有前景；虚线边框表示目前主要停留在理论模型中，尚无实验检验。

01 · 焦点成果

测量活细胞中的不可逆过程

如果要在近期成果中，选出一项在二十年后仍被人们铭记的突破，那很可能是它：2024 年，由巴塞罗那大学费利克斯·里托尔特（Felix Ritort）领衔的团队发表了一项研究，他们利用显微成像、力的校准和模型假设，推断出了活细胞产生熵的速率——这也是单个红细胞内时间之箭的定量表现。

其核心原理是一个名为方差求和规则（Variance Sum Rule）的全新数学恒等式。它将探针涨落统计与作用在它身上的恢复力联系起来，使研究者能在模型条件下估计熵产生率 $σ$ 。无需热量计，也无需复杂的扰动协议——但也不是只靠一台裸显微镜。

σ \propto var (displacement) + var (force)

仅为示意——不是可直接通用的公式。Di Terlizzi et al., Science, 2024。

他们将这一工具对准人类红细胞，绘制出了横跨细胞膜的熵产生率分布图。其发现令人震惊： $σ$ 呈现出明显的「空间非均匀性」，在细胞的不同位置均有不同，其关联长度约为 0.6 微米。其平均值与独立的热量计测量结果高度吻合。作者将其描述为活系统熵产生的第一张热图——这是从定性的「远离平衡」语言迈向空间分辨热力学测量的重要一步。在模型假设下已确立

这一结果为何重要

在第 83–85 日，我们会提问：生命看起来如此井然有序，究竟是如何与热力学第二定律达成妥协的？标准的回答——「有机体是输出熵的开放系统」——在定性上虽然没错，但在定量上却过于模糊。方差求和规则为这个模糊的答案提供了一把精密的量尺。如果能在光学显微镜的分辨率下映射出细胞内部的熵产生，我们就可以开始追问：究竟是哪些代谢途径制造了最多的不可逆性？耗散又集中在何处？这项技术将随机热力学从一个单纯的理论框架，升华为了一种全新的「显微成像手段」。

另外两项相关成果同样值得关注。斯金纳和敦克尔（Skinner & Dunkel，PNAS，2021 年）开发了一套严密的优化框架，用于从部分观测中确定熵产生的界限，并将其应用于研究细菌鞭毛马达与生长中的微管。另一篇 2024 年的 PNAS 论文则使用「深度学习概率流」——即基于得分的生成模型——来估算高维活性物质系统中的熵产生，为解析手段无能为力的高维系统提供了一条计算路径。两项均已确立

02 · 新法则

不确定性、速度与耗散之间的权衡

自 2020 年以来，随机热力学最深刻的概念进展，是一系列揭示了「在特定动力学假设下，高精度常伴随更多熵产生」的理论成果。如果分子马达运行时噪声极低、如果时钟走时节律稳定可靠、如果传感器测量浓度精准无误——背后往往有相应的耗散。这些热力学不确定性关系（TUR）是适用于广泛非平衡系统类别的强约束，但并不是无条件的自然铁律。

2022–23

标准 TUR 很宽，但并非普适

标准稳态 TUR 适用于马尔可夫跳跃过程和过阻尼朗之万系统。皮埃宗卡（Pietzonka）证明经典摆钟可以「违反」这种只含熵产生的简单形式（PRL 128, 130606, 2022），而迪巴尔与戈德克（Dieball & Godec）澄清了它的朗之万推导路径和饱和条件（PRL 130, 087101, 2023）。欠阻尼和非马尔可夫系统可能需要包含额外动力学量的修正界限。

Pietzonka, PRL 2022 · Dieball & Godec, PRL 2023

2023

速度极限、耗散与最优输运的统一

Van Vu 与 Saito 证明，TUR 与最小耗散协议可以纳入建立在Wasserstein 距离最优输运理论之上的单一结构；他们的论述也连接到热力学速度极限（PRX 13, 011013, 2023）。另外，Lee、Lee、Kwon 与 Park 推导出了一个紧的有限时间兰道尔下界：即在固定时间内擦除一个比特所需的最小耗散，在速度与热能之间进行了权衡（PRL 129, 120603, 2022）。

Van Vu & Saito, PRX 2023 · Lee et al., PRL 2022

2025

通信也会产生耗散

亚达夫与沃尔珀特（Yadav & Wolpert）证明，在计算子系统之间传输信息会带来不可避免的耗散——这是计算机发热来源中长期被忽视的一个组成部分，且随通信带宽的增加而增长。用他们的话来说就是：「沟通并非毫无代价。」（Phys. Rev. Research，2025 年。）

Yadav & Wolpert, Phys. Rev. Research 2025

总的来说，这些成果正在构建一种类似于「热力学编码」的体系——一套针对指定非平衡过程的约束，就像香农信道容量限制指定通信模型一样。这种类比并非巧合：从事这一领域的学者们认为，香农时代的信息论与 21 世纪的随机热力学，本就是同一门学科的两个不同篇章。

03 · 时钟与耗散

时钟运行中的熵产生

这听起来像是一个显而易见的常识：在许多重要时钟模型和实验中，走时越精准，耗散越高。

由来自牛津、维也纳与兰开斯特等地的联合研究团队——皮尔森、古里亚诺娃、埃尔克、莱尔德、布里格斯、胡伯与阿雷斯（Pearson, Guryanova, Erker, Laird, Briggs, Huber & Ares）——建造了尽可能简单的时钟：一个在低温腔体中振动的纳米级机械薄膜，其振荡通过射频电路读取。通过调节驱动功率，他们将时钟的状态从模糊调整到精确，并同时测量了其准确度与熵产生。他们发现了一个明确的线性关系：准确度翻倍，耗散也随之翻倍。其时钟运行效率与理论极限相比，差距已在同一个数量级之内。已确立

准确度 \propto 熵产生

更精准的计时需要更多的耗散。Pearson et al., Physical Review X, 2021。

后续的研究进一步深化了这一结论。迈尔、施瓦茨汉斯、埃尔克与胡伯（Meier, Schwarzhans, Erker & Huber，PRL 131, 220201, 2023）表明，在他们的框架中，计时的热力学限制可以拆分为「准确度」（规律性）和「分辨率」（滴答频率），这两者都需要更多熵产生，但作用方式不同。而 2025 年发表在 PRL 上的一篇关于从量子时钟中提取经典滴答信号的论文则指出，主要耗散可能不在于时钟内部维持振荡的过程，而在于「测量」本身——即把微观量子振荡放大为经典信号的过程。由此可见，能耗问题不仅涉及系统是否包含信息，也涉及如何把微观信息转换为可观测的经典信号。

04 · 热力学计算

热力学计算：利用热噪声进行计算

七十年来，工程界应对热噪声的唯一办法就是：压制它。每一个晶体管的设计初衷，都是为了用大出许多倍的清晰电压摆幅来盖过原子的随机抖动。而这部分的摆幅，正是绝大多数能量消耗和热量产生的源头。热力学计算计划则反其道而行之：如果我们不再与噪声为敌，而是直接利用它来进行计算呢？

这个想法出人意料地直接。一个由耦合物理振荡器（如 RLC 电路、电阻网络）组成的系统，若任其自然，就会产生热涨落。这些涨落会自发地对系统能量景观的玻尔兹曼分布进行采样。只要精心设计这个能量景观，这些采样就可以用来求解特定的问题：如线性系统求解、贝叶斯推理、基于能量的生成模型等。在这里，计算不再是违背物理规律的逆行，计算本身就是物理过程。

硬件 01同行评审概念验证

Normal Computing 的随机计算单元

梅兰森、阿布·哈特尔、艾弗、多纳泰拉、戈登（Melanson, Abu Khater, Aifer, Donatella, Gordon）及其同事在《自然·通讯》（Nature Communications，16: 3757，2025 年 4 月）上发表了《用于人工智能应用的热力学计算系统》。它描述了一个随机处理单元（SPU）的原型：一块印制电路板上集成了八个完全耦合的模拟 RLC 振荡器节点，通过让该耦合系统达到热平衡，来进行高斯采样和矩阵求逆。一篇配套的理论论文（npj Unconventional Computing，2024 年）将线性代数原语映射到了热力学平衡采样上，并声称渐进加速比与矩阵维度呈线性比例关系。

注意事项：这只是一个「八节点原型」。在实际工作负载中，相比于现代 GPU，它在端到端耗时或能耗上的优势「尚未得到证实」。理论虽然优雅且通过了同行评审，硬件也切实存在，但其性能宣称仍有待大规模验证。有前景

硬件 02公司单方报告 · 未经证实

Extropic 的热力学采样单元

由纪尧姆·维尔东（Guillaume Verdon）创立的 Extropic 公司正在制造能够以物理速度对基于能量的模型进行原生采样的芯片。其 2025 年 10 月的公开材料展示了 XTR-0 硬件，并给出公司单方报告的模拟或小型基准结果，声称相对于 GPU/VAE 基线可节省约 10,000 倍能耗；但它并未独立证明硬件在生产级工作负载上实现了 GPU 同等性能。据报道，一款更大规模的后续芯片正在规划中。这些数据纯属公司单方报告，基于其内部基准测试，并且「没有经过独立的同行评审」。若被证实，这确实将是颠覆性的突破。但在那之前，该项目依然处于与所有创业公司宣传口号相同的认识论范畴中——有趣、未经证实，且承载着风投行业的巨大变数。请应用第 2 日的教训：超乎寻常的断言，需要超乎寻常的复现。

何时应当提高证据评级

要将热力学计算的标签从有前景升级为已确立，必须有「独立的、经同行评审的基准测试」，证明其在实际机器学习工作负载上——而非仅在孤立的计算原语中——相对于现代 GPU 具有端到端的优势（无论是实际运行时间还是能耗）。一份预印本论文（arXiv:2503.09980，2025 年）指出，模拟拟静态推理在原理上可以可逆地进行（不存在兰道尔能耗下限），而模型训练则依然存在基础的能耗下限。其物理学逻辑是自洽的，但工程实现仍处于极早期阶段。

05 · 麦克斯韦妖的现代研究

多体、量子与自主信息引擎

2010 至 2021 年间的单粒子引擎是令人惊叹的概念验证。近期研发工作主要指向三个方向：规模化、量子化，以及把更多感知与反馈机制内嵌到器件之中。

多体引擎

Chor 等人（2023）将西拉德引擎从单粒子系统扩展到多体胶体悬浮液，利用集体数量涨落来提取有用功。后续的一项工作（arXiv:2512.01942，2025 年 12 月预印本）描述了一种「活塞式信息引擎」，它纯粹通过条件测量从平衡态热浴中收集功——这相当于在群体层面上实现麦克斯韦妖。PRResearch 论文已确立活塞引擎预印本 · 有前景

量子引擎为量子电池充电

清华大学金奇奂团队的 Zhang 等人（2025）利用单个镱-171 离子构建了一个循环运行的量子信息引擎，通过快速的量子电路中的中途测量（mid-circuit measurement）来抑制测量干扰。每个循环得到的能量被用来为一个量子电池充电。他们报告的信息到最大可用功（ergotropy）的转化效率达到了理论上限的 67%，而信息到功的整体效率达到了 70%。已确立

自主麦克斯韦妖

至少从 Koski 及其同事 2015 年的单电子实验开始，自主麦克斯韦妖就已经被实验展示。在这类系统中，测量和反馈由器件内部实现，而不是由外部定时控制器执行。但这并不意味着器件不使用非平衡资源，也不意味着它不产生熵；完整分析仍必须包含其能量与熵资源。较新的量子点整流器（PRR，2019 年）、随机重置麦克斯韦妖（PRR，2023 年）以及基于晶体管的麦克斯韦妖（PRB，2025 年）则把这种设计模式继续推向纳米尺度能量收集。有前景——单体实现已确立

将真实的分子马达作为麦克斯韦妖

阿马诺、埃斯波西托、克赖特、利、佩诺基奥与罗伯茨（Amano, Esposito, Kreidt, Leigh, Penocchio & Roberts，Nature Chemistry，2022 年）对一个真实的化学驱动合成旋转分子马达进行了严格的信息热力学分析；这类合成分子机器正属于 2016 年诺贝尔化学奖所表彰的研究传统。论文证明，其运转可以分解为一个信息处理循环。原来，麦克斯韦妖一直都只是一个设计得特别精巧的分子。已确立

06 · 量子协同擦除

协同擦除与局部热耗散降低

Buffoni 与 Campisi（Quantum，2023 年）利用量子隧穿效应放大的自发对称性破缺，在 D-Wave Advantage 量子退火器上同时擦除了 256 个量子比特。这一集体翻转实现了接近 $k_{B} T ln 2$ 的单比特擦除耗散，成功率达 ~99.9%，而单比特作用量（能量 × 时间）低至 $1 0^{- 22}$ erg·s——其速度和能效都极其惊人。其关键在于：协同效应使系统能够集体越过势垒，而不是逐个比特地跨越。已确立

另一个独立的理论项目则探索了辅助系统协助擦除（ancilla-assisted erasure，arXiv:2402.15812，2024 年），即通过引入一个辅助量子系统来转移存储器中的熵，从而在特定的运行状态下，向局部热浴中释放「少于」 $k_{B} T ln 2$ 的热量。作者强调，这并没有违反第二定律——包括辅助系统在内的总熵依然增加——但局部发热量确实能降到教科书上的经典下限之下。这为超低耗散量子计算的研究指引了方向，而非所谓的免费午餐。有前景——特定机制下适用，预印本

07 · 黑洞信息与时空

孤岛公式与佩奇曲线

量子引力领域悬而未决最久的一个难题便是黑洞信息悖论：被黑洞吞噬的信息，在黑洞蒸发后还能留存下来吗？霍金 1975 年的计算认为信息被彻底毁灭了；而量子理论的幺正演化要求信息不被永久销毁。整整四十五年来，无人能给出一个令人满意的解释。

在 2019–2020 年，一系列研究彻底改变了这一对话。佩宁顿（Penington，JHEP，2020 年），阿尔姆海里、恩格尔哈特、马罗夫与麦克斯菲尔德（Almheiri, Engelhardt, Marolf & Maxfield，JHEP，2019 年），以及阿尔姆海里、哈特曼、马尔达西那、沙古里安与塔吉迪尼（Almheiri, Hartman, Maldacena, Shaghoulian & Tajdini，JHEP，2020 年）发现，如果使用引力路径积分方法中的副本虫洞来计算霍金辐射的熵，计算结果会把黑洞内部被称为孤岛的非连通时空区域的贡献包含在内。当这些「孤岛」开始发挥作用时，辐射的熵就会迎来拐点并开始减少，从而绘制出一条佩奇曲线——这恰恰是在这些受控模型中幺正理论所预测的形状。

孤岛计算是在受控半经典引力模型中的领先理论方案。它们强力支持这些模型中的幺正蒸发；但还不是现实黑洞信息恢复的完整微观解释。

对此最权威的综述是 Almheiri, Hartman, Maldacena, Shaghoulian & Tajdini 所著的《霍金辐射的熵》（“The entropy of Hawking radiation”，Reviews of Modern Physics 93, 035002, 2021 年）。作为模型设定中的理论成果已确立

注意事项：目前「没有任何实验或天文观测的测试」。该计算完全依赖于特定的理论框架，尚不清楚它是否适用于现实中的四维、非 AdS 时空。这一结论在数学上与该领域的其他定理一样坚实，但目前仍缺乏实验或天文观测检验。尚无实验检验

08 · 统一物理图景

是否存在统一的计算物理学？

对此最宏伟的整合尝试，见于沃尔珀特、科贝尔、林、塔斯尼姆、格罗肖、卡尔代什（Wolpert, Korbel, Lynn, Tasnim, Grochow, Kardeş）以及其他 17 位共同作者于 2024 年发表的 PNAS 展望论文：《随机热力学是理解计算能耗的关键吗？》（“Is stochastic thermodynamics the key to understanding the energy costs of computation?”）。他们的论点是：计算热力学不仅仅关于兰道尔极限——那仅仅是一个最低底线。在其之上，还包含着由失配开销、通信耗散和非平衡约束所组成的丰富体系，它们共同构成了如同香农通信理论一样严密的「计算物理学完整框架」。

这篇展望文章给出的一项比较足以令人震撼：按照某些「每次操作」的定义，生物分子机器的能效可能比部分人造计算系统高约 10⁵ 倍。请把它当作依赖定义的示意性差距，而不是普适常数。主页的兰道尔阶梯图显示，芯片的运行功耗远高于热力学极限底线；更深层的要点是，生物系统经常更靠近物理噪声和耗散边界，而探究其背后的实现机制，正是当前一个根本性的未解问题。框架已确立，比例为示意

与第 83–85 日的联系

这为接下来对生命物理学的讨论提供了直接基础。当我们重新审视薛定谔提出的「生命是什么？」这一经典问题时，将拥有两个近年才出现的理论工具：用于测量细胞内部熵产生率的方差求和规则，以及用于确定计算能耗界限的沃尔珀特框架。二者有助于把「生命以负熵为生」这一概括性表述，与「某条生化途径会产生多少热力学耗散」这一可计算问题区分开来。

三句话概括近期前沿

研究进展: 约自 2019 年以来，信息热力学和量子引力相关信息理论开始提出新的权衡关系、活细胞熵产生测量、接近兰道尔极限的量子协同擦除，以及受控模型中的黑洞信息结果。
工程主张: 热力学计算试图利用热噪声作为计算资源，理论上具有吸引力，但硬件仍处于早期阶段，能效主张需要独立基准测试。
证据边界: 本篇同时涉及同行评议实验、理论论文、综述、预印本和公司报告。哪些结果能够独立复现、扩展到实际规模并长期稳定，仍有待时间检验。

后续探索 › 热力学速度极限 → 第 33 日（热力学） · 细胞内的熵产生 → 第 83–85 日（生命物理学） · 热力学计算与沃尔珀特的 10⁵ 倍能效差 → 第 178–179 日（能源与 AI 经济） · 孤岛公式 → 第 40 日（黑洞） · TUR → 第 13 日（测量） · 量子擦除 → 第 47 日（量子计算）。

文献来源 · 前沿附录

文献来源——近期前沿工作

Di Terlizzi, I. et al. (2024). “Variance Sum Rule for Entropy Production.” Science 383: 971. doi:10.1126/science.adh1823.
Skinner, D. J. & Dunkel, J. (2021). “Improved bounds on entropy production in living systems.” PNAS 118: e2024300118.
Pearson, A. N. et al. (2021). “Measuring the Thermodynamic Cost of Timekeeping.” Phys. Rev. X 11: 021029.
Meier, F. et al. (2023). “Fundamental accuracy–resolution trade-off for timekeeping devices.” PRL 131: 220201.
Wadhia, V. et al. (2025). “Entropic Costs of Extracting Classical Ticks from a Quantum Clock.” PRL 135: 200407. doi:10.1103/5rtj-djfk。
Van Vu, T. & Saito, K. (2023). “Thermodynamic Unification of Optimal Transport…” Phys. Rev. X 13: 011013.
Lee, J. S. et al. (2022). “Speed Limit for a Highly Irreversible Process and Tight Finite-Time Landauer’s Bound.” PRL 129: 120603.
Pietzonka, P. (2022). “Classical Pendulum Clocks Break the Thermodynamic Uncertainty Relation.” PRL 128: 130606.
Dieball, C. & Godec, A. (2023). “Direct Route to TURs and Their Saturation.” PRL 130: 087101.
Yadav, A. C. & Wolpert, D. H. (2025). “Minimal thermodynamic cost of communication.” Phys. Rev. Research 7: 043324. doi:10.1103/qvc2-32xr。
Melanson, D. et al. (2025). “Thermodynamic Computing System for AI Applications.” Nature Communications 16: 3757. doi:10.1038/s41467-025-59011-x。
Aifer, M. et al. (2024). “Thermodynamic Linear Algebra.” npj Unconventional Computing 1: 13.
Extropic (2025). XTR-0 announcement and thermodynamic-computing posts (extropic.ai, Oct 2025). 公司单方模拟/基准报告；未经独立验证。
Chor, R. et al. (2023). “Many-body Szilard engine…” Phys. Rev. Research 5: 043193.
Goerlich, R. et al. (2025). “Piston-Like Information Engine I: Universal Features in Equilibrium.” arXiv:2512.01942. 预印本。
Zhang, Z. et al. (2025). “Single-Ion Information Engine for Charging Quantum Battery.” PRL 135: 140403. doi:10.1103/g45c-ssfx。
Koski, J. V. et al. (2015). “On-Chip Maxwell’s Demon as an Information-Powered Refrigerator.” Physical Review Letters 115: 260602. 自主单电子麦克斯韦妖。
Amano, S. et al. (2022). “…information thermodynamics analysis of a synthetic molecular motor.” Nature Chemistry 14: 530. doi:10.1038/s41557-022-00899-z。
Buffoni, L. & Campisi, M. (2023). “Cooperative quantum information erasure.” Quantum 7: 961. doi:10.22331/q-2023-03-23-961。
Almheiri, A. et al. (2021). “The entropy of Hawking radiation.” Rev. Mod. Phys. 93: 035002.
Penington, G. (2020). “Entanglement Wedge Reconstruction…” JHEP 09: 002. · Almheiri, A. et al. (2020). “Replica Wormholes…” JHEP 05: 013.
Wolpert, D. H. et al. (2024). “Is stochastic thermodynamics the key…?” PNAS 121: e2321112121.
Manzano, G. et al. (2024). “Thermodynamics of Computations…” Phys. Rev. X 14: 021026.

第 007 日终 · 尚有 173 日课程