文章作者、来源:长江证券研报 报告要点Token 工是以 Token 吞吐量为核心产出指标的新一代 AI 基础设施。其运营目标不再是简单提供 GPU 算力,而是将电力、GPU、网络和模型高效转化为持续输出的 Token 流,并最终转化为智能服务和收入由于 Token 吞吐量直接决定了 AI 工厂的收入能力和资本回报率(文章作者、来源:长江证券研报 报告要点Token 工是以 Token 吞吐量为核心产出指标的新一代 AI 基础设施。其运营目标不再是简单提供 GPU 算力,而是将电力、GPU、网络和模型高效转化为持续输出的 Token 流,并最终转化为智能服务和收入由于 Token 吞吐量直接决定了 AI 工厂的收入能力和资本回报率(

Token 工厂:从“堆 GPU”到“榨 Token”

2026/06/30 08:39
阅读时长 22 分钟
如需对本内容提供反馈或相关疑问,请通过邮箱 crypto.news@mexc.com 联系我们。

文章作者、来源:长江证券研报

报告要点Token 工是以 Token 吞吐量为核心产出指标的新一代 AI 基础设施。其运营目标不再是简单提供 GPU 算力,而是将电力、GPU、网络和模型高效转化为持续输出的 Token 流,并最终转化为智能服务和收入由于 Token 吞吐量直接决定了 AI 工厂的收入能力和资本回报率(ROI),如何高效榨取有限资源、最大化单位 GPU 和单位功耗所产生的 Token 数量,正在成为 AI 基础设施竞争的新焦点。在这一过程中,竞争逻辑也正在从“拥有多少 GPU”转向“如何让 GPU 生产更多 Token”。

智算产业正在从资源竞争进入效率竞争阶段

在 scaling law 的大背景下,过去智算中心的北极星指标是 GPU 资源的尽可能堆砌。谁拥有最多的 GPU,谁就掌握了行业的核心竞争力。然而,市场逐渐发现,拥有足够多的 GPU 可能只是最初的竞争门槛,但却并不以足以构建长期的竞争价值。这背后的原因是因为 GPU 只是最初的生产资料之一,但是市场最终需要的是带有生产力的 Token,而 Token 的生产还需要许多其他的能力,比如电,比如网络等等,调度能力和推理优化也非常重要。对于智算中心来说,只单纯的拥有 GPU 数量却在其他方面有所缺失,那么同样量级的资源可能就会产生非常大的资源浪费。这样的时代背景下,Token 工厂顺势而生。Token 工厂是指在 AI 推理时代,数据中心从传统的“数据存储仓库”转型为专门生产 AI 生成基本单位——Token(词元)的工业化生产设施。

Token 工厂:以 Token 吞吐量为核心产出指标的新一代 AI 基础设施

Token 工是以 Token 吞吐量为核心产出指标的新一代 AI 基础设施。其运营目标不再是简单提供 GPU 算力,而是将电力、GPU、网络和模型高效转化为持续输出的 Token 流,并最终转化为智能服务和收入。正如英伟达黄仁勋所提出的,AI 工厂的本质是将能源转化为 Token,再将Token 转化为实际价值,而 Token 正逐渐成为衡量 AI 生产力的核心单位。 由于 Token 吞吐量直接决定了 AI 工厂的收入能力和资本回报率(ROI),如何高效榨取有限资源、最大化单位 GPU和单位功耗所产生的 Token 数量,正在成为 AI 基础设施竞争的新焦点。在这一过程中,竞争逻辑也正在从“拥有多少 GPU”转向“如何让 GPU 生产更多 Token”。

AI 系统软件栈决定了 Token 工厂的资源转化效率

在 AI 时代,GPU 已经逐渐成为标准化的算力资源,其性能决定了 Token 工厂的理论生产能力上限,而真正决定既定的算力资源能够释放多少价值的,则是覆盖调度平台、推理引擎、编译器和模型优化在内的 AI 系统软件栈。相比传统云时代主要依赖硬件扩容提升计算能力,Token工厂更强调通过软件持续挖掘存量算力的生产效率,即以更少的 GPU、更低的功耗生产更多的 Token。本报告中将主要讨论两项核心能力:1)以调度平台为核心,通过各项技术提高 GPU利用率,减少资源碎片化和空闲时间,让更多 GPU 真正投入 Token 生产。2)以芯模协同为核心,通过芯片架构、编译器、推理框架与模型结构的联合优化,提高单位 GPU 的 Token 生成效和单位功耗性能,进一步释放硬件潜力。

从行业实践来看,先进调度系统和芯模协同带来的收益已经凸显

从行业实践来看,先进调度系统和芯模协同带来的收益已经得到越来越多生产环境的验证。近年来,无论是以 CoreWeave、Google、阿里云为代表的云厂商,还是以 Deepseek 为代表的模型厂商,都已将优化重点从单纯提升硬件性能转向提升系统整体效。展望未来,随着 GPU硬件逐渐标准化,AI 基础设施的竞争优势将越来越多地来自系统软件能力。无论是海外的NeoCloud、云计算厂商还是模型、芯片厂商,都将围绕调度平台、推理引擎和芯模协同持续构建差异化竞争力。

Token 工厂的出现标志着智算产业正在从资源竞争进入效率竞争阶段从“堆资源”到“榨资源”,行业北极星指标或发生本质变化

在 scaling law 的大背景下,过去智算中心的北极星指标是 GPU 资源的尽可能堆砌。谁拥有最多的 GPU,谁就掌握了行业的核心竞争力。然而,市场逐渐发现,拥有足够多的GPU 可能只是最初的竞争门槛,但却并不以足以构建长期的竞争价值。这背后的原因是因为 GPU 只是最初的生产资料之一,但是市场最终需要的是带有生产力的 Token,而 Token 的生产还需要许多其他的能力,比如电,比如网络等等,调度能力和推理优化也非常重要。对于智算中心来说,只单纯的拥有 GPU 数量却在其他方面有所缺失,那么同样量级的资源可能就会产生非常大的资源浪费。

这样的时代背景下,Token 工厂顺势而生。Token 工厂是指在 AI 推理时代,数据中心从传统的“数据存储仓库”转型为专门生产 AI 生成基本单位——Token(词元)的工业化生产设施。这一概念最早由英伟达 CEO 黄仁勋在 2024 年提出,并在 2026 年的 GTC大会上系统阐述了其背后的“Token 工厂经济学”。从产业链地位上看,Token 工厂是一种介于单纯的算力提供方和下游实体企业中间的角色,和云计算处于相近的产业链地位。

Token 吞吐量直接决定 Token 工厂的收入

Token 工厂的出现可能意味着过去以“堆资源”为核心的产业逻辑正式朝着“榨资源”的方向转型,而不同商业模式所对应的北极星指标(最终目标)也悄然发生了根本性的变化。

Token 工厂的收入公式为 Token 调用量×Token 的定价,二者共同作用决定了 Token 工厂的总收入。从这个公式中我们发现,过去智算中心主要关注资源的多寡,但现在 Token工厂北极星指标变成了有限资源的 Token 生产效率(目前的常用指标是 token/s 或token/任务)。谁能在相同的资源保有量基础上生成更多的 Token,谁就将获得更多的收入。

如何提升“榨资源”的效率?从与单纯的算力提供方相比,Token 工厂最核心的增量能力在于每家工厂自有的算力调度平台。不论是行业案例还是论文实验,都反复验证调度平台之于 Token 工厂效率提升的重要性。

AI 系统软件栈决定了 Token 工厂的资源转化效率调度层面优化:AI 云调度能力的重要性超过了传统云

如果说传统云时代的调度是单纯的“资源调度”,那么 AI 云时代的调度系统就是“多维瓶颈系统”。传统云时代所接收的请求一般具备短、独立、相对可预测的特征(比如双十一的访问需求量暴增,但是相对在一个可预测的区间),CPU 云的调度系统主要任务是将任务放进机器即可。与传统云主要优化 CPU 利用率不同,AI 云面临 GPU 碎片化、KV Cache 碎片化和 Gang Scheduling 等独特挑战。因此,调度系统重要性在 AI 时代更为凸显。

从行业实际使用情况看,GPU 资源的碎片化等问题较为常见。根据 TechTarget 在 2026年 3 月发布的一份行业统计数据看,参与者在选择管理 AI 任务成本时面临的最核心问题时,23%的参与者选择了“并非最优的 CPU 和 GPU 利用率”,21%的参与者选择了“破碎及复杂的成本结构”,实际上都反应了 AI 云在实际使用中的问题。

国内外 GPU 云和智算中心核心玩家皆在不同层级上做出了多样化的尝试

如何解决上述问题?国内外 GPU 云和智算中心核心玩家皆在不同层级上做出了多样化的尝试,分别从资源观测、资源共享、集群调度以及 Token 级调度等不同层级展开探索。

英伟达:DCGM 系统,解决 GPU 调度的黑盒问题

在资源观测层,英伟达推出 DCGM((Data Center GPU Manager),通过实时采集 GPU利用率、HBM 显存、NVLink 带宽、功耗和温度等关键指标,为调度系统提供统一的数据基础。DCGM 虽然本身并不负责调度,但解决了 GPU 集群“看不见”的问题,为后续资源优化提供决策依据。换言之,DCGM 之于 AI 云调度,相当于传感器之于自动驾驶系统

CoreWeave:集群效率是 NeoCloud 的关键

在集群调度层,以 CoreWeave 为代表的 NeoCloud 开始将集群效率作为核心竞争力。CoreWeave 公开数据显示,以理论值为 100%计,目前行业大模型训练集群的 Model FLOPs Utilization(MFU)通常仅为 35%-45%,存在较大的效率浪费。

CoreWeave 认为 AI 基础设施效率损失来自通信开销、集群管理、节点故障、数据传输、调度等系统性问题,而非仅仅来自于 GPU 本身。CoreWeave 通过拓扑感知调度、自动节点管理和深度可观测性等系统级优化,最大限度减少 GPU 集群中的通信与调度开销,从而显著提升大规模训练任务的 MFU。在特定的实验环境下,CoreWeave 平台的 MFU较行业平均 MFU 出现了较明显的提升。

阿里云:推出池化系统 Aegaeon,用 token 级别的自动扩缩容技术降低资源浪费进一步向上,调度粒度正在从 GPU 级别演进到 Token 级别

2025 年底,阿里巴巴与北大合作的研究中提出最新 GPU 池化系统 Aegaeon,旨在用 token 级别的自动扩缩容技术,将特定任务的 GPU 使用量大幅下降,以此实现了资源利用的大幅提升。

在 Aegaeon 之前,主流 LLM serving 系统(如 vLLM、Triton、ServerlessLLM)有几个核心特点:1)GPU 是“按模型分配”的(Model-centric),这就导致小模型占用过多资源,但大模型却吃不满资源,因此带来了 GPU 的浪费;2)调度单位是请求而不是 token,导致调度的粒度太粗,容易导致排队。Aegaeon 把 LLM 推理从“按请求分配 GPU”的调度方式,升级为“按 token 在多模型之间动态共享 GPU 执行”的 token 级调度系统,从而大幅提高 GPU 利用率并显著减少所需 GPU 数量。

Aegaeon 系统的核心创新在于采用了 token 级别的自动扩缩容技术,而不是像现有系统那样在请求级别进行调度。具体来说,系统会在生成每个 token 时动态决定是否需要切换模型,而不是等到整个请求处理完才考虑切换。在这样的创新之下,可以让 GPU灵活处理多个模型的请求,大大减少了模型之间的等待时间。

从结果上看,根据论文数据,与现有的 ServerlessLLM 和 MuxServe 等系统相比,Aegaeon 能够支撑 2-2.5 倍的请求到达率,有效吞吐量(goodput)提升了 1.5 到 9 倍。

芯模协同优化:提升 Token 产出效率芯模协同正逐渐成为 AI 时代提升 Token 工厂生产效率的重要方向。随着大模型训练和推理进入规模化部署阶段,单纯依靠 GPU 硬件升级已难以持续提升系统整体效率,模型架构、编译器、推理引擎与芯片之间的协同优化正成为新的性能突破口。

行业正在形成两条主要发展路径:一类是大厂自研路径,通过自研专用 AI 芯片,并围绕自身模型进行联合设计,实现从芯片、软件栈到模型的全链路协同优化;另一类则是大模型厂商和芯片厂商的生态绑定路径,绕特定硬件平台进行深度适配,在算子、编译器、推理框架和模型结构等多个层面共同优化,以充分释放硬件性能。

无论采取哪种模式,其本质都是通过芯片与模型的协同设计,提高单位算力的 Token 产出效率和单位功耗性能,从而进一步提升 Token 工厂的整体生产效率和资本回报率(ROI)。

2026 年阿里云峰会上阿里云实现“芯-云-模型-推理”全面升级

2026 年 6 月阿里云峰会上,阿里发布基于新一代 AI 芯片真武 M890 的磐久 AL128 超节点服务器,搭载自研互联芯片 ICN Switch 1.0,可让 128 张 AI 芯片组成一台计算机,P2P 时延低于 150ns,主打解决 Agent 场景下的海量并发推理和大模型训练需求。首次亮相的真武 M890 采用自研并行计算架构,内置 144GB 显存,性能是真武 810E 的 3倍,片间互联带宽达到 800GB/s,芯片原生支持 FP32 到 FP4 等多种数据精度,可应用于高精度训练、低精度和超低精度推理的全场景,低精度推理场景下,不仅可以保证模型输出质量,还能显著降低单次推理的算力开销。

百炼推理平台实现极致弹性。在百炼推理平台,阿里巴巴构建了大规模 GPU 资源集群,并通过并池调度实现资源高效利用。在此基础上,百炼通过上下文缓存消除重复计算,借助吞吐弹性调度机制应对流量波峰波谷与负载波动。在效果优化方面,百炼引入了Agentic RL,基于 Agent 执行反馈的强化学习机制,驱动模型持续迭代。此外,百炼内建了安全治理能力,确保自主运行的 Agent 始终不越界。

DeepSeek 与国产芯片的深度绑定

国产芯模适配加速:4 月 24 日,DeepSeek-V4 发布预览版,1M 上下文,Agent 能力、世界知识和推理性能上均实现国内与开源领域的领先。发布当日 8 家国产芯片(华为昇腾、寒武纪、海光信息、摩尔线程、沐曦股份、昆仑芯、平头哥真武、天数智芯)宣布有实现 Day0 同步适配。

市场机遇
NodeAI 图标
NodeAI实时价格 (GPU)
$0.01067
$0.01067$0.01067
-1.38%
USD
NodeAI (GPU) 实时价格图表

世界杯预测,一单串多场,搏200倍收益!

世界杯预测,一单串多场,搏200倍收益!世界杯预测,一单串多场,搏200倍收益!

MEXC App 6.60.0 全新升级,巴西/法国/阿根廷等最多20场组合,一键轻松下注!

免责声明: 本网站转载的文章均来源于公开平台,仅供参考。这些文章不代表 MEXC 的观点或意见。所有版权归原作者所有。如果您认为任何转载文章侵犯了第三方权利,请联系 crypto.news@mexc.com 以便将其删除。MEXC 不对转载文章的及时性、准确性或完整性作出任何陈述或保证,并且不对基于此类内容所采取的任何行动或决定承担责任。转载材料仅供参考,不构成任何商业、金融、法律和/或税务决策的建议、认可或依据。