从熵到认知复杂度:为计算受限智能体重新定义信息
从熵到认知复杂度:为计算受限智能体重新定义信息
论文:From Entropy to Epiplexity: Rethinking Information for Computationally Bounded Intelligence
作者:Marc Finzi, Shikai Qiu, Yiding Jiang, Pavel Izmailov, J. Zico Kolter, Andrew Gordon Wilson (CMU & NYU)
整理日期:2026-03-04
核心问题:现有信息论的盲区
当前 AI 研究朝着更通用的智能系统迈进时,数学直觉的根基开始显露裂痕。当现代系统在训练时未指定的任务、领域和目标之间迁移时,成功或失败往往更少取决于架构选择,而更多取决于模型最初接触到的数据。
核心困惑:
- 我们能从数据中学到比生成过程本身更多的东西吗?
- 新且有用的信息可以通过对现有数据应用确定性变换来构建吗?
- 数据的可学习内容可以在不考虑下游任务的情况下评估吗?
现有理论的尴尬:香农信息和柯尔莫哥洛夫复杂度在这些问题上几乎束手无策,因为它们假设观察者具有无限计算能力,且未能定位有用的信息内容。
三个信息论悖论
论文识别并展示了三个明显的悖论——这些陈述可以通过香农和算法信息论在数学上得到证明,但却与直觉和实证现象存在张力:
悖论 1:信息不能通过确定性过程增加
对于香农熵和柯尔莫哥洛夫复杂度,确定性变换不能有意义地增加对象的信息内容。
但现实是:
- 我们用伪随机数生成器产生随机性
- 合成数据提升模型能力
- 数学家可以从公理推导出新知识而无需外部信息
- 动力系统产生涌现现象
- AlphaZero 等自博弈循环从游戏中学习复杂策略
悖论 2:信息与数据分解顺序无关
香农熵和柯尔莫哥洛夫复杂度的一个性质是,总信息内容对分解是不变的:先观察 X 再观察 Y 的信息与先 Y 后 X 相同。
但现实是:
- LLM 在从左到右的英文文本上比反向文本学习得更好
- 这选出了”时间箭头”
- 密码学建立在某些函数在一个方向上计算困难、另一个方向上容易的假设之上
悖论 3:似然建模仅仅是分布匹配
最大化似然通常被认为等同于匹配训练数据生成过程:真实数据生成过程是自身的完美模型,没有模型能实现更高的期望似然。
推论:模型不能提取比数据生成过程中使用的更多结构或学习有用的特征。
但现实是:在康威的生命游戏中,数据通过简单的程序规则生成,但产生了涌现结构(如不同类型的移动物体)。虽然无界观察者可以精确模拟环境演化,但计算受限的观察者会利用涌现结构并学习不同类型物体及其行为。
核心贡献:Epiplexity(认知复杂度)
论文引入了 Epiplexity(认知复杂度,epistemic complexity)——一个形式化的信息度量,捕捉计算受限观察者可以从数据中学到的结构信息量。
关键区分
| 概念 | 定义 | 示例 |
|---|---|---|
| 时间约束熵 (Time-bounded Entropy) | 随机、不可预测的内容 | 伪随机数生成器、混沌动力系统的不可预测部分 |
| 认知复杂度 (Epiplexity) | 结构化的、可学习的、可泛化的信息 | 算法内部结构、动物图片中的长程依赖、涌现的物体类型 |
核心洞察:信息是观察者依赖的
同一个对象可能根据观察者的计算资源显得随机或结构化:
- 伪随机生成器:对任何多项式时间观察者(没有密钥)来说,输出与真随机不可区分
- 混沌动力系统:长时间尺度上状态不可预测,但观察者仍可以学习有意义的预测分布(如洛伦兹吸引子的不变测度)
如何度量 Epiplexity
Epiplexity 是模型在计算约束下最小化数据描述长度时的信息。一个启发式度量是最终损失之上的损失曲线下面积,更严谨的方法是教师模型与学生模型之间的累积 KL 散度。
简单启发式:损失曲线面积
训练过程中损失曲线下方的面积(高于最终损失)可以作为 Epiplexity 的代理指标。
严谨方法:两段式编码
- 模型描述长度:描述学习到的模型所需的比特数
- 数据编码长度:用该模型编码数据所需的比特数
总描述长度 = 模型描述长度 + 数据编码长度
计算最优的模型大小在两者之间取得平衡。
实证发现
1. 信息可以通过计算创造
确定性变换确实可以增加结构信息。例如:
- 元胞自动机:从简单规则产生复杂的涌现结构(滑翔机、太空船等)
- 合成数据:可以产生比原始数据更多的可学习内容
这与”信息不能通过确定性过程增加”的传统观点直接矛盾。
2. 分解顺序影响可学习性
相同数据的不同排序可以显著影响学习效果:
- 从左到右的文本比反向文本更容易学习
- 适当的课程排序可以提升最终性能
这说明信息内容不是独立于分解顺序的。
3. 似然建模不只是分布匹配
模型可以学习到比数据生成过程更复杂的程序:
归纳 (Induction):
- 模型学习到归纳头 (induction heads) 等电路
- 这些结构可以泛化到未见过的任务
涌现 (Emergence):
- 在元胞自动机中,模型学习到”滑翔机”等涌现对象
- 这些对象不是原始规则的显式组成部分
4. Epiplexity 与 OOD 泛化相关
论文证明 Epiplexity 与分布外 (OOD) 泛化性能相关:
- 国际象棋实验:预训练数据的 Epiplexity 与棋题解决能力正相关
- 预训练数据选择:高 Epiplexity 的数据(如文本)比低 Epiplexity 的数据(如随机像素)产生更好的迁移学习
为什么 Epiplexity 对 LLM 预训练重要
1. 理解数据选择
现有数据选择方法(如去重、质量过滤)缺乏理论基础。Epiplexity 提供了一个 principled 的框架:
- 优先选择高 Epiplexity 数据:这些数据诱导模型学习更多可重用的结构
- 避免低 Epiplexity 数据:随机配置文件、API 密钥、哈希值等几乎没有可学习内容
2. 解释文本 vs 图像的差异
为什么预训练在文本上比图像更能广泛迁移?
- 文本数据:通常具有高 Epiplexity(语法、语义、世界知识等长程依赖)
- 图像数据:像素级的冗余较高,结构化信息可能更少
3. 合成数据的理论基础
传统观点认为合成数据不能增加信息(数据不等式)。但 Epiplexity 表明:
- 通过计算过程(如模拟、自博弈)可以创造新的结构信息
- 这为合成数据生成提供了理论支撑
计算 Epiplexity 的实际方法
方法一:预quential 编码(近似)
使用预quential 编码(在线学习)来近似两段式编码:
- 按顺序遍历数据点
- 每个点用当前模型编码
- 然后更新模型
这种方法避免了显式存储模型参数的开销。
方法二:Scaling Law 估计
从神经标度律 (scaling laws) 估计 Epiplexity:
- 训练不同大小的模型
- 拟合损失-参数-数据关系
- 外推到无限计算极限
方法三:教师-学生框架
使用教师模型(更大或训练更久)和学生模型:
-
Epiplexity ≈ 累积 KL 散度(教师 学生) - 这捕捉了学生从数据中提取的结构信息量
与现有工作的关系
与 MDL (最小描述长度) 的关系
Epiplexity 借鉴了 MDL 的两段式编码思想,但加入了计算约束:
- 传统 MDL:最短程序(不考虑计算时间)
- Epiplexity:在计算时间 T 内的最短程序
与 PAC-Bayes 的关系
PAC-Bayes 提供了泛化界,但依赖于先验和后验。Epiplexity 提供了一个与任务无关的数据质量度量。
与信息瓶颈的关系
信息瓶颈关注表示的压缩与预测的平衡。Epiplexity 关注数据本身的结构内容。
局限与未来方向
局限
- 计算开销:精确计算 Epiplexity 需要训练多个模型
- 任务相关性:Epiplexity 是无任务度量,但下游任务可能只关心特定结构
- 模型依赖:度量依赖于模型架构和优化算法
未来方向
- 高效估计:开发更轻量的 Epiplexity 估计方法
- 数据策展:基于 Epiplexity 构建数据选择算法
- 合成数据生成:设计最大化 Epiplexity 的合成数据方法
- 理论联系:更深入地连接 Epiplexity 与泛化理论
总结
这篇论文的核心贡献是识别了现有信息论与现代机器学习实践之间的根本性鸿沟,并提出了 Epiplexity 来填补这一空白。
关键 takeaway
- 信息不是静态的:相同的对象对不同的观察者(计算资源)有不同的信息内容
- 计算可以创造信息:确定性变换可以增加结构信息(合成数据、元胞自动机)
- 顺序很重要:数据分解的顺序影响可学习性
- 模型可以超越数据:似然建模可以提取比数据生成过程更复杂的结构
实践意义
- 数据选择:优先高 Epiplexity 数据(文本 > 随机像素)
- 预训练策略:理解为什么某些数据更适合预训练
- 合成数据:为合成数据生成提供理论基础
“与模型选择原则不同,Epiplexity 为数据选择提供了理论基础,指导如何为学习系统选择、生成或变换数据。”
论文链接:https://arxiv.org/abs/2601.03220
MIT 协议开源,感谢 CMU 和 NYU 研究团队的工作。