大模型硬件的终局推演:GPU与LPU的异构系统
X/Twitter: https://x.com/i/status/2028004643486503013
核心观点
在处理 100K 甚至 1M 超长上下文时,AI 算力正面临严重的”偏科”挑战:
- 预填充 (Prefill) 阶段:极度消耗庞大的浮点算力和显存容量
- 解码 (Decode) 阶段:极度依赖极低的内存延迟
目前没有任何单一架构能完美兼顾这两者。如何破局?答案指向了软硬协同的终极进化。
一、分离式架构 (PD Disaggregation):让合适的芯片做擅长的事
既然没有完美的单芯片,那就用架构来弥补。业界正转向一种跨硬件的异构协同模式:
GPU 负责预填充
- 拥有海量高带宽内存 (HBM)
- 暴力吞咽长文本,生成数十 GB 的 KV Cache
LPU 负责解码
- 抛弃片外内存,采用纯 SRAM
- 以纳秒级的极低延迟完成逐字解码
这种”分工协作”架构实现了算力与延迟的最优平衡。
二、软件魔法:确定性编译器征服动态网络
GPU 与 LPU 的结合并非拉一根网线那么简单:
- GPU 的运算充满动态的随机性
- LPU 需要绝对的周期精确 (Cycle-accurate)
- 稍有不慎,涌入的数据就会撑爆 LPU 极小的 SRAM
编译器的”拓扑扩展”关键突破
Groq 的编译器将物理网卡视为一个带有已知延迟的虚拟节点:
- 静态内存分配:预先锁定物理 SRAM 槽位
- RDMA 零拷贝技术:GPU 生成的数据直接穿透网络,”硬着陆”在 LPU 的 SRAM 中
- 纳秒级流水线重叠:边算边传,边缘 FIFO 队列平滑数据流
- 驯化网络抖动:将外部不可控的网络延迟,转化为内部极度可控的确定性数据流
三、终极杀器:基于 TGV 的 CoPoS 面板级封装
如果说软件优化是极限微操,那么 TGV (玻璃通孔) 加持的 CoPoS 面板级封装,就是物理层面的降维打击。
跨越晶圆尺寸的极限
| 传统 CoWoS | CoPoS (玻璃基板) |
|---|---|
| 12 英寸圆形硅晶圆 | 500mm+ 矩形玻璃面板 |
| 物理天花板限制 | 可高密度集成多种芯粒 |
| 机柜级异构系统 | 微缩成一块超级基板 |
这意味着:重型计算的 GPU 芯粒、极速生成的 LPU 芯粒,以及海量的 HBM 和 SRAM,可以像拼图一样全部封装在同一个超大模块内部。
光速互联与存储解封
- 玻璃基板电介质特性 + 数百万 TGV 微孔 = 消灭跨设备传输的网络协议延迟
- GPU 与 LPU 间带宽:飙升至数十 TB/s
- 热膨胀系数匹配:玻璃与硅完美匹配,LPU 可肆无忌惮贴满 SRAM 芯粒
- 告别翘曲梦魇:大型封装体受热不再变形
总结
大模型推理硬件的尽头,远不止先进制程的无脑堆砌。
依靠:
- 跨越异构架构的软件编译器大脑
- 玻璃基板与先进封装的物理骨架
一个在同一块面板上完美融合极致吞吐与极致延迟的“算力奇点”即将到来。
关键概念速查
| 术语 | 解释 |
|---|---|
| PD Disaggregation | Prefill-Decode 分离式架构,让不同芯片各司其职 |
| LPU | Language Processing Unit,Groq 推出的纯 SRAM 架构 AI 芯片 |
| TGV | Through Glass Via,玻璃通孔技术,实现玻璃基板上的高密度互联 |
| CoPoS | Chip-on-Panel-on-Substrate,面板级封装技术 |
| RDMA | Remote Direct Memory Access,远程直接内存访问,零拷贝传输 |
| KV Cache | 大模型推理中的键值缓存,存储注意力机制的中间结果 |
本文整理自 Max Lv 的 X 文章和博客。