文章作者、来源:华尔街见闻
Groq创始人兼CEO Jonathan Ross将英伟达GPU比作“18轮重型大货车”,将自家的LPU(语言处理单元)定位为“最后一公里配送货车”,认为两者结合才能在大语言模型推理环节实现最优的成本与速度平衡。
Jonathan Ross在近日的一次访谈中详细阐述了这一架构分工:预填充阶段(读取输入文本)高度并行、对单Token延迟不敏感,适合完全交由GPU处理;解码阶段则根据用户对速度与成本的敏感程度弹性配置,从纯GPU、GPU加LPU混合,到纯LPU不等。他表示,LPU凭借全片上SRAM架构与静态调度机制,在低延迟、小批量的解码场景中具有显著优势,对当前主流的混合专家(MoE)模型尤为友好。
在智能体(Agentic AI)应用快速崛起的背景下,多个AI模型相互调用的任务分解模式正推动算力需求呈指数级而非线性扩张。Jonathan Ross援引杰文斯悖论指出,算力单位成本下降不会压缩市场规模,反而会持续刺激总需求增长——GPU与LPU的市场空间本质上是共同扩张,而非零和竞争。
这也为外界理解Groq与英伟达200亿美元合作协议的战略逻辑提供了解释:在推理工作负载中,两家公司的产品承担不同角色,协同部署优于单独使用任何一方。
Jonathan Ross指出,GPU与LPU的每Token成本曲线形状截然不同,两者并非直接竞争关系,而是覆盖不同的性能区间。
“如果只追求最低的每Token成本,用GPU、用非常大的批量大小就行,速度会慢一些,”他说。“LPU的优势在于,能够跨多颗芯片扩展,完全依赖高速SRAM而非外部内存,在不显著抬高成本的前提下大幅提升Token生成速度。”
他表示,在帕累托曲线的高速端,LPU的经济性优于GPU;将两者组合,可以在任意目标速度下实现最优的每Token成本与最大算力容量。
LPU对混合专家(MoE)模型尤为友好。Jonathan Ross解释,GPU从DRAM读取数据时需要数百量级的批量大小才能保证经济性,而LPU仅需批量大小约10即可运行,这意味着更低的等待延迟和更高的执行效率。“LPU几乎是为专家模型量身定制的。”
Groq的另一项核心差异在于静态调度——操作顺序在编译时预先确定,而非运行时动态分配。
Jonathan Ross用日历安排打比方:短会必须精确预约,长会则可以灵活应对。“在推理场景中,你做的是超低延迟、小批量的计算,必须提前把所有操作排好,让每段计算迅速完成、及时释放硬件。训练时这不那么重要,推理时这绝对关键。”
他同时澄清,静态调度并不意味着无法适配动态路由。在MoE架构中,LPU的时间段是固定的,但“和谁开会”——即激活哪个专家的权重——是可以在运行时变化的,通过“散射和聚集”能力实现灵活路由。
在与英伟达达成200亿美元战略合作后,Jonathan Ross描述了两者在推理链路中的具体分工。
“预填充阶段——也就是读取输入文本的阶段——建议完全跑在GPU上,因为这个阶段高度可并行化,GPU非常擅长,”他说。解码阶段则根据用户需求分级配置:成本敏感型用户完全用GPU解码;付费专业用户采用GPU加LPU组合;极端性能场景可考虑纯LPU解码。
他预计,未来市场将看到更多LPU与GPU的混合部署形态,而非Groq芯片单独销售。“把两者结合,就像把18轮卡车和配送货车组合使用,你能构建一个更好的网络。”
对于AI算力市场的长期走势,Jonathan Ross援引19世纪经济学概念“杰文斯悖论”作出判断:算力单位成本的下降,不会压缩总需求,反而会催生更大的需求。
“杰文斯悖论的来源是一本关于煤炭的论著:每当蒸汽机效率提升,煤炭总消耗量反而增加,”他说。“当一项活动的成本降低,之前不盈利的活动变得可行,人们愿意做更多实验。随着AI变得越来越便宜,对AI的需求只会不断增加。”
他还指出,智能体(Agent)架构将进一步放大这一效应。AI将任务拆解为并行子任务、让多个智能体同时推进,以及AI调用AI的多层嵌套模式,将导致算力使用量呈指数级扩张。“AI使用AI再使用AI,这导致了使用量的指数级爆炸。”
Jonathan Ross的结论是,“成功灾难”是不可避免的——Groq和英伟达为市场提供的算力越多,市场想要的算力就越多。
以下为访谈文字实录:


