渐进式披露:LLM时代的核心工程哲学

原文: https://x.com/Zhongxing_Sun/status/2025018457046352075
作者: Zhongxing Sun
整理时间: 2026-02-22

从信息论、语义学与软件工程的交叉视角重新理解 AI Agent 架构


一、上下文窗口的本质约束

1. 上下文窗口是 LLM 时代的”内存”,但远比内存危险。

传统程序内存不够会直接 crash——错误明确、可检测、可处理。LLM 的上下文满了不会报错,而是 静默退化:注意力稀释、逻辑漂移、幻觉滋生。工程师面对的是一个没有边界警报的有界空间。

2. 这个约束不是偶然的,是信息论的必然。

Shannon 的信道容量定理告诉我们:任何有限带宽的信道都无法无损传输无限信息。Transformer 的注意力机制是一个容量有界的语义信道,把所有信息压进去,不是压缩,是噪声。

3. 渐进式披露(Progressive Disclosure)由此成为 LLM 工程的基础哲学。

它的核心命题只有一句话:在正确的时机,把正确的信息,用正确的密度,送入上下文。 这不是一个技术技巧,而是一种工程世界观。


二、UX 设计到 LLM 工程的翻转

1. 渐进式披露最早是 UX 设计原则,用来降低用户的认知负担。

复杂软件不把所有功能一次性展示,而是按需展开——先显示核心操作,高级功能藏在更深的层级里。目标是让有限认知带宽的人类用户不被淹没。

2. LLM 时代,这个方向完全翻转了:现在是人类工程师要想办法降低 AI 的认知负担。

设计者和被保护者互换了位置。这个翻转不是比喻,而是字面意义上的架构对称——同一个问题,同一种解法,主客体对调。

3. 这种对称性揭示了一个更深的规律:信息架构的问题,与处理信息的主体无关。

无论是人脑还是 Transformer,面对有限工作记忆与无限外部信息之间的张力,收敛出的工程解法高度同构。


三、渐进式披露的技术实现谱系

3.1 工具层:MCP 协议的设计本质是工具的懒加载

Client 连接 Server 时只拿到工具名称和描述的轻量索引,工具的实现细节永远不进入上下文,只有 AI 决定调用时才真正触发。这是软件工程中”接口与实现分离”原则在语义层的重演。

3.2 Skill 是能力的按需挂载,而非静态注入

把一类任务所需的上下文知识预先压缩成独立单元,任务来临时才加载对应的 Skill。这与动态链接库(DLL)的逻辑一致:程序启动时不加载所有模块,运行时才按需链接。

3.3 Cloudflare Code Mode 的查询 API 设计

把”描述 API”变成了”查询 API”。与其把 2500 个端点描述塞进上下文(需要 117 万 token,超过大多数模型的整个上下文窗口),不如只给 AI 两个工具:search() 和 execute(),让它写代码来按需发现端点。固定 ~1000 token 的代价,覆盖无限增长的 API 表面积。这是渐进式披露在工具层的极致形态。

3.4 RAG 是知识层的渐进式披露,与虚拟内存几乎同构

知识库不全量进入上下文,而是用向量检索找出”此刻最相关的片段”再注入——这正是操作系统虚拟内存的按需调页(demand paging)。向量数据库(Pinecone、Weaviate)的兴起,本质上是为”语义换页”提供的基础设施。

3.5 对话摘要是有损压缩,代价是语义的不可逆丢失

长对话压缩成摘要后,某些细节永远消失,且无法判断丢失的是否是关键细节。传统数据从磁盘换入内存是无损的、可逆的;LLM 的记忆压缩是有损的、单向的。这是两种范式最根本的差异之一。

3.6 MemGPT 的分层记忆架构是对操作系统的显式致敬

它划分工作记忆(上下文内)与外部存储(上下文外),并让 AI 自己决定何时”换页”——把内存管理的职责,从操作系统交给了语言模型本身。

3.7 ReAct 模式(推理+行动循环)是任务层的渐进式披露

不要求 AI 一次生成完整计划,而是”推理→行动→观察结果→再推理”的迭代。每一步只需要当前步骤的上下文,全局信息按需进入,而非全量预载。时间换空间,是计算机科学里最古老的权衡之一。

3.8 层级式 Agent(Orchestrator + Specialist)是信息的角色分布

主 Agent 持有高层任务描述,子 Agent 只接收自己需要的上下文片段。整个系统没有任何节点需要持有全局信息——这是分布式系统中”最小知情原则”(need-to-know principle)在语义层的实现。

3.9 思维链(Chain of Thought)是推理过程本身的渐进式展开

每一步的输出成为下一步的输入,把单次大跳跃拆解为多次小步骤。从信息论角度看,这是把一个高复杂度的一次性映射,分解为多个低复杂度的顺序映射,总信息量不变,但每步的认知压力大幅降低。

3.10 动态工具选择是渐进式披露在工具索引层的实现

工具库很大,但每次只把当前任务相关的工具描述注入上下文,其余不出现。代价是需要维护一个语义搜索层——用一个小问题(工具检索)换取一个大问题(上下文膨胀)的解决。

3.11 Prompt 压缩技术(LLMLingua 等)是进入上下文前的预处理渐进式披露

信息在注入前先被语义压缩,保留高信息密度的部分,丢弃冗余。这相当于在信道入口设置了一个语义编码器。


四、历史约束的工程启示

1. 计算机历史上最重要的硬约束曾经是物理内存。

8-bit 时代的程序员在 64KB 内存里构建完整系统,每一个字节都是战略资源。这个约束催生了覆盖技术(Overlay)、内存池、分页机制,以及最终的虚拟内存抽象。约束的压力,是工程创新的引擎。

2. 虚拟内存的发明是内存约束催生的最伟大抽象。

它让程序员可以”假装内存无限大”,物理限制被操作系统隐藏在抽象层之下。这个抽象的代价是分页、换页、缺页中断——但上层开发者完全不需要感知这些。这就是伟大抽象的定义:让复杂性从可见变为不可见。

3. 上下文约束正在催生类似的抽象层,但实现者必须是另一个智能体。

MCP、Skill、Agent 框架都在试图让应用开发者”假装上下文无限大”。但不同的是,这个抽象无法由机械规则实现——需要语义理解来判断”什么该披露、什么该隐藏”。实现这个抽象的底层机制,不是操作系统,而是 meta-agent。

4. 这指向了一个新的系统层级:LLM 时代的”操作系统”将是另一个 LLM。

专门负责管理其他 agent 上下文、任务分配、记忆换页的 meta-agent,扮演的正是操作系统的角色。这是一个自指的、递归的结构——传统计算里没有对应物。操作系统不需要”理解”内存里装的是什么;但 meta-agent 必须理解它所管理的内容的语义。

5. 两种约束催生工程压力的方向相同,但解法的本质不同。

  • 传统内存管理:机械操作,基于地址、时间戳、引用计数,与内容无关
  • 上下文管理:语义操作,必须理解内容的意义才能决定取舍

前者是物理学问题,后者是认识论问题。


五、信息论视角的深层分析

1. 从信息论看,渐进式披露是对信道容量限制的工程响应。

有效的渐进式披露系统在做的事情,本质上是:在有限的信道容量内,最大化语义信息的传输效率。RAG 的向量检索、Skill 的按需加载,都是在用相关性估计来做信源编码(source coding)。

2. 语义相关性是一个模糊标准,这使得 LLM 的”记忆管理”从根本上比传统内存管理更难。

操作系统用 LRU(最近最少使用)等算法决定换页——这是客观的、可计算的。AI 系统用”语义相关性”决定什么进上下文——这是主观的、上下文依赖的。没有普适的最优算法,只有针对具体任务的近似解。

3. 渐进式披露在语义层制造了一个新的”失真”问题。

传统数据压缩有严格的失真度量(PSNR、SSIM);语义压缩(对话摘要、知识裁剪)的失真是无法精确度量的。你不知道丢失的信息是否是关键的,因为”关键性”本身由未来的对话决定——这是一个信息的量子态困境:观测之前不知道哪个信息重要。

4. Skill 的设计是语义压缩的一种工程解法:用人类专家知识预先决定什么重要。

与其让 AI 实时判断上下文取舍,不如让领域专家提前打包好”这类任务所需的最小上下文集合”。这把一个在线决策问题,变成了一个离线设计问题——用专家知识换取运行时的语义判断开销。


六、边界与局限

1. 渐进式披露的根本前提是:任务所需的信息可以被分解为可按需加载的单元。

当任务需要高度整合的全局信息时,这个前提失效。某些推理任务——比如跨文档的矛盾检测、需要完整历史的长期项目——无法被分解,渐进式披露在这里遭遇边界。

2. 上下文窗口的扩展(100K、1M token)并没有消解这个问题,只是推迟了它。

更大的窗口带来更高的计算成本(注意力机制是 O(n²) 的),以及”注意力稀释”的新问题——信息太多,模型反而抓不住重点。约束的形式在变,但信息与容量之间的张力永远存在。

3. 多 agent 系统的兴起,本质上是用空间换上下文:

把一个大上下文拆解为多个小上下文的分布。每个 agent 只持有局部信息,通过消息传递协调。这是分布式系统的思路在语义层的重演——分布式计算解决的是计算资源的约束,分布式 agent 解决的是语义容量的约束。

4. 当管理上下文的机制本身也是一个 LLM 时,系统获得了自我优化的可能,也承担了自我欺骗的风险。

meta-agent 可以学习哪些信息对下游任务更有价值,动态优化渐进式披露策略。但它也可能系统性地过滤掉某类信息,制造认知盲点,而整个系统对此毫不自知。这是一个开放的对齐问题,藏在架构层。


结语

渐进式披露不是一个新发明,它是人类面对”有限容器与无限信息”这一永恒张力时,一再重新发现的同一个答案。

从 8-bit 时代的 Overlay 技术,到 UI 设计的信息分层,到今天 LLM Agent 架构里的 RAG、MCP、Skill——解法的形式在变,背后的逻辑是同一个。

真正的新鲜之处在于:这一次,管理”认知负担”的主体是另一个认知系统。

人类工程师不再只是在为人类用户设计信息架构,而是在为 AI 设计信息架构——同时,AI 自身也在参与这个设计过程。这个递归,是之前所有计算范式都没有出现过的。

语义,第一次成为了工程的第一公民。

信息”是否相关”这个问题,从来不在操作系统的职责范围内;现在,它是整个 AI 基础设施最核心的调度依据。这意味着工程学与认识论,正在以一种前所未有的方式融合。

我们还处于这个融合的极早期。当前的工程实践——RAG、Agent、Skill——都是摸索期的近似解,而非成熟范式。但它们背后共享的那个哲学,已经足够清晰:

在有限中驾驭无限,靠的不是扩容,而是智慧的取舍。