原文作者:Max Lv (@m0d8ye)

原文链接:大模型硬件的终局推演:GPU与LPU的异构联姻

X/Twitter: https://x.com/i/status/2028004643486503013


核心观点

在处理 100K 甚至 1M 超长上下文时,AI 算力正面临严重的”偏科”挑战:

  • 预填充 (Prefill) 阶段:极度消耗庞大的浮点算力和显存容量
  • 解码 (Decode) 阶段:极度依赖极低的内存延迟

目前没有任何单一架构能完美兼顾这两者。如何破局?答案指向了软硬协同的终极进化。


一、分离式架构 (PD Disaggregation):让合适的芯片做擅长的事

既然没有完美的单芯片,那就用架构来弥补。业界正转向一种跨硬件的异构协同模式:

GPU 负责预填充

  • 拥有海量高带宽内存 (HBM)
  • 暴力吞咽长文本,生成数十 GB 的 KV Cache

LPU 负责解码

  • 抛弃片外内存,采用纯 SRAM
  • 以纳秒级的极低延迟完成逐字解码

这种”分工协作”架构实现了算力与延迟的最优平衡。


二、软件魔法:确定性编译器征服动态网络

GPU 与 LPU 的结合并非拉一根网线那么简单:

  • GPU 的运算充满动态的随机性
  • LPU 需要绝对的周期精确 (Cycle-accurate)
  • 稍有不慎,涌入的数据就会撑爆 LPU 极小的 SRAM

编译器的”拓扑扩展”关键突破

Groq 的编译器将物理网卡视为一个带有已知延迟的虚拟节点:

  1. 静态内存分配:预先锁定物理 SRAM 槽位
  2. RDMA 零拷贝技术:GPU 生成的数据直接穿透网络,”硬着陆”在 LPU 的 SRAM 中
  3. 纳秒级流水线重叠:边算边传,边缘 FIFO 队列平滑数据流
  4. 驯化网络抖动:将外部不可控的网络延迟,转化为内部极度可控的确定性数据流

三、终极杀器:基于 TGV 的 CoPoS 面板级封装

如果说软件优化是极限微操,那么 TGV (玻璃通孔) 加持的 CoPoS 面板级封装,就是物理层面的降维打击。

跨越晶圆尺寸的极限

传统 CoWoS CoPoS (玻璃基板)
12 英寸圆形硅晶圆 500mm+ 矩形玻璃面板
物理天花板限制 可高密度集成多种芯粒
机柜级异构系统 微缩成一块超级基板

这意味着:重型计算的 GPU 芯粒、极速生成的 LPU 芯粒,以及海量的 HBM 和 SRAM,可以像拼图一样全部封装在同一个超大模块内部。

光速互联与存储解封

  • 玻璃基板电介质特性 + 数百万 TGV 微孔 = 消灭跨设备传输的网络协议延迟
  • GPU 与 LPU 间带宽:飙升至数十 TB/s
  • 热膨胀系数匹配:玻璃与硅完美匹配,LPU 可肆无忌惮贴满 SRAM 芯粒
  • 告别翘曲梦魇:大型封装体受热不再变形

总结

大模型推理硬件的尽头,远不止先进制程的无脑堆砌。

依靠:

  1. 跨越异构架构的软件编译器大脑
  2. 玻璃基板与先进封装的物理骨架

一个在同一块面板上完美融合极致吞吐与极致延迟的“算力奇点”即将到来。


关键概念速查

术语 解释
PD Disaggregation Prefill-Decode 分离式架构,让不同芯片各司其职
LPU Language Processing Unit,Groq 推出的纯 SRAM 架构 AI 芯片
TGV Through Glass Via,玻璃通孔技术,实现玻璃基板上的高密度互联
CoPoS Chip-on-Panel-on-Substrate,面板级封装技术
RDMA Remote Direct Memory Access,远程直接内存访问,零拷贝传输
KV Cache 大模型推理中的键值缓存,存储注意力机制的中间结果

本文整理自 Max Lv 的 X 文章和博客。