文章作者、来源：华尔街见闻 Groq创始人兼CEO Jonathan Ross将英伟达GPU比作“18轮重型大货车”，将自家的LPU（语言处理单元）定位为“最后一公里配送货车”，认为两者结合才能在大语言模型推理环节实现最优的成本与速度平衡。 Jonathan Ross在近日的一次访谈中详细阐述了这一架构分工：预填充阶段文章作者、来源：华尔街见闻 Groq创始人兼CEO Jonathan Ross将英伟达GPU比作“18轮重型大货车”，将自家的LPU（语言处理单元）定位为“最后一公里配送货车”，认为两者结合才能在大语言模型推理环节实现最优的成本与速度平衡。 Jonathan Ross在近日的一次访谈中详细阐述了这一架构分工：预填充阶段

Groq CEO谈“芯片架构”：GPU是“重型大货车”，LPU是“最后一公里快递”

来源：MetaEra

2026/06/12 16:55

阅读时长 9 分钟

如需对本内容提供反馈或相关疑问，请通过邮箱 crypto.news@mexc.com 联系我们。

文章作者、来源：华尔街见闻

Groq创始人兼CEO Jonathan Ross将英伟达GPU比作“18轮重型大货车”，将自家的LPU（语言处理单元）定位为“最后一公里配送货车”，认为两者结合才能在大语言模型推理环节实现最优的成本与速度平衡。

Jonathan Ross在近日的一次访谈中详细阐述了这一架构分工：预填充阶段（读取输入文本）高度并行、对单Token延迟不敏感，适合完全交由GPU处理；解码阶段则根据用户对速度与成本的敏感程度弹性配置，从纯GPU、GPU加LPU混合，到纯LPU不等。他表示，LPU凭借全片上SRAM架构与静态调度机制，在低延迟、小批量的解码场景中具有显著优势，对当前主流的混合专家（MoE）模型尤为友好。

在智能体（Agentic AI）应用快速崛起的背景下，多个AI模型相互调用的任务分解模式正推动算力需求呈指数级而非线性扩张。Jonathan Ross援引杰文斯悖论指出，算力单位成本下降不会压缩市场规模，反而会持续刺激总需求增长——GPU与LPU的市场空间本质上是共同扩张，而非零和竞争。

这也为外界理解Groq与英伟达200亿美元合作协议的战略逻辑提供了解释：在推理工作负载中，两家公司的产品承担不同角色，协同部署优于单独使用任何一方。

LPU与GPU：帕累托曲线上的互补定位

Jonathan Ross指出，GPU与LPU的每Token成本曲线形状截然不同，两者并非直接竞争关系，而是覆盖不同的性能区间。

“如果只追求最低的每Token成本，用GPU、用非常大的批量大小就行，速度会慢一些，”他说。“LPU的优势在于，能够跨多颗芯片扩展，完全依赖高速SRAM而非外部内存，在不显著抬高成本的前提下大幅提升Token生成速度。”

他表示，在帕累托曲线的高速端，LPU的经济性优于GPU；将两者组合，可以在任意目标速度下实现最优的每Token成本与最大算力容量。

LPU对混合专家（MoE）模型尤为友好。Jonathan Ross解释，GPU从DRAM读取数据时需要数百量级的批量大小才能保证经济性，而LPU仅需批量大小约10即可运行，这意味着更低的等待延迟和更高的执行效率。“LPU几乎是为专家模型量身定制的。”

静态调度与MoE：确定性架构的推理红利

Groq的另一项核心差异在于静态调度——操作顺序在编译时预先确定，而非运行时动态分配。

Jonathan Ross用日历安排打比方：短会必须精确预约，长会则可以灵活应对。“在推理场景中，你做的是超低延迟、小批量的计算，必须提前把所有操作排好，让每段计算迅速完成、及时释放硬件。训练时这不那么重要，推理时这绝对关键。”

他同时澄清，静态调度并不意味着无法适配动态路由。在MoE架构中，LPU的时间段是固定的，但“和谁开会”——即激活哪个专家的权重——是可以在运行时变化的，通过“散射和聚集”能力实现灵活路由。

与英伟达协同：预填充归GPU，解码看场景

在与英伟达达成200亿美元战略合作后，Jonathan Ross描述了两者在推理链路中的具体分工。

“预填充阶段——也就是读取输入文本的阶段——建议完全跑在GPU上，因为这个阶段高度可并行化，GPU非常擅长，”他说。解码阶段则根据用户需求分级配置：成本敏感型用户完全用GPU解码；付费专业用户采用GPU加LPU组合；极端性能场景可考虑纯LPU解码。

他预计，未来市场将看到更多LPU与GPU的混合部署形态，而非Groq芯片单独销售。“把两者结合，就像把18轮卡车和配送货车组合使用，你能构建一个更好的网络。”

杰文斯悖论：算力越便宜，需求越大

对于AI算力市场的长期走势，Jonathan Ross援引19世纪经济学概念“杰文斯悖论”作出判断：算力单位成本的下降，不会压缩总需求，反而会催生更大的需求。

“杰文斯悖论的来源是一本关于煤炭的论著：每当蒸汽机效率提升，煤炭总消耗量反而增加，”他说。“当一项活动的成本降低，之前不盈利的活动变得可行，人们愿意做更多实验。随着AI变得越来越便宜，对AI的需求只会不断增加。”

他还指出，智能体（Agent）架构将进一步放大这一效应。AI将任务拆解为并行子任务、让多个智能体同时推进，以及AI调用AI的多层嵌套模式，将导致算力使用量呈指数级扩张。“AI使用AI再使用AI，这导致了使用量的指数级爆炸。”

Jonathan Ross的结论是，“成功灾难”是不可避免的——Groq和英伟达为市场提供的算力越多，市场想要的算力就越多。

以下为访谈文字实录：

LPU vs. GPU：帕累托曲线与每Token成本

静态调度与混合专家模型

自回归与扩散模型

Groq与英伟达Vera Rubin的协同

智能体推理与规模经济

AI能否替代CUDA内核工程师？

杰文斯悖论：算力越便宜，需求越大

AI时代应该培养什么能力？

完成预测交易，解锁大奖资格

奖池高达 $500,000，100% 中奖！

免责声明: 本网站转载的文章均来源于公开平台，仅供参考。这些文章不代表 MEXC 的观点或意见。所有版权归原作者所有。如果您认为任何转载文章侵犯了第三方权利，请联系 crypto.news@mexc.com 以便将其删除。MEXC 不对转载文章的及时性、准确性或完整性作出任何陈述或保证，并且不对基于此类内容所采取的任何行动或决定承担责任。转载材料仅供参考，不构成任何商业、金融、法律和/或税务决策的建议、认可或依据。