NVIDIA Dynamo 強化智能體工作流程的串流功能
Luisa Crawford 2026年5月8日 16:34(UTC +8)
NVIDIA Dynamo 推出新工具,為智能體工作流程帶來更快速、更精準的體驗,提升Token串流與工具呼叫處理能力。
NVIDIA 發布了其 Dynamo 平台的重大更新,旨在透過強化串流、解析及工具呼叫處理來優化智能體工作流程。這些更新專注於提升依賴多輪互動之應用程式的回應速度與準確性,例如程式碼助理及其他 AI 驅動工具。
其中一項重要亮點是引入串流工具呼叫調度功能。這項新功能讓工具呼叫在解碼完成後即可立即執行,無需等待完整回應輪次結束。此調整不僅加快了使用者的首Token時間(TTFT),還消除了智能體工作流程中推理與工具回應交錯時的低效問題。
透過提示詞穩定性提升效能
核心改進集中於提示詞穩定性與 KV 快取重用。透過消除特定於會話的前導內容(例如 Anthropic 計費標頭),Dynamo 確保各會話之間的Token前綴保持一致。在 NVIDIA 的測試中,使用 52K Token提示詞的系統,此變更將 TTFT 從 912 毫秒降低到 169 毫秒,降低了近五倍。
對於開發者而言,在多個使用者會話中處理龐大複雜的提示詞時,維持穩定的前綴至關重要。這些優化對於 Claude Code 和 Codex 等智能體模型尤為重要,因為這些模型需要精確且可重複的互動才能有效運作。
針對複雜互動的強化解析功能
Dynamo 也全面改造了其推理與工具呼叫解析器,將其提取為可重用模組。這讓開發者能夠更好地對齊解析輸出與執行框架需求。此更新解決了一個長期存在的問題——在多輪互動中,先前的推理內容有時會遭到丟棄或格式損壞。在推理用於說明工具呼叫序列的智能體工作流程中,保留結構化推理至關重要。
例如,NVIDIA 展示了其 Nemotron-3-Super-120B 模型現在如何更有效地處理交錯的推理與工具呼叫,確保每個推理片段正確關聯至對應的工具動作,從而防止先前因推理分組錯誤而導致上下文遺失的問題。
串流行為與工具調度
另一項重大改進是能夠在透過旁路頻道調度工具呼叫的同時串流Token化回應。過去,工具呼叫會被緩衝至回應結束,延遲執行。有了新的內嵌串流與調度能力,工具呼叫在解析完成後即可立即執行,大幅提升即時應用程式的回應速度。
NVIDIA 以時間軸比較圖說明 Dynamo 現在如何在回應中途解析並串流工具呼叫,實現即時執行。此重新設計降低了執行框架端的複雜度,並確保與自訂系統的無縫整合。
改善 API 合規性
此次更新也強化了 Dynamo 與 Anthropic Messages API 的相容性,這是 Claude Code 和 OpenClaw 等工具的關鍵介面。修復內容包括在串流開始時正確計算Token數量,以及提供模型元數據端點的能力,兩者均使 Dynamo 更接近原生後端的一致性。
對於 Codex 使用者,與 OpenAI Responses API 的相容性也獲得了改善。NVIDIA 解決了內部請求處理過程中發生的欄位保留問題,確保 Codex 專屬功能(如推理摘要和工具呼叫截斷)在不影響效能的情況下獲得支援。
未來展望
展望未來,NVIDIA 正將 Dynamo 服務堆疊的部分元件以模組化組件的形式開放,包括協議、解析器和分詞器套件。這種模組化設計讓開發者無需複製 Dynamo 的核心功能,即可建構自訂執行框架或擴展現有框架。
這些更新將 Dynamo 定位為智能體工作負載的領先解決方案,在各類應用程式中實現更高效、更精準的多輪互動。對於依賴 AI 驅動工具的開發者和企業而言,這些增強功能為程式碼開發、數據分析等任務提供了更可靠、高效能的基礎架構。
圖片來源:Shutterstock- nvidia
- AI 工具
- 智能體工作流程
- Token 串流






