Google 新開源 DiffusionGemma 模型：生成快 4 倍，但品質落後 Gemma 4

Google DeepMind 發布 DiffusionGemma，是 Gemma 4 開源家族的新成員。官方測試顯示，在 Nvidia RTX 5090 上可達每秒約 700 個 token，在 H100 上可突破每秒 1,000 個 token，約是同尺寸自迴歸 Gemma 模型的 4 倍。
（前情提要：Google 推出 Gemma 4 12B 開源模型，16GB 消費型筆電就能本地執行）
（背景補充：輾壓 Google 模型！Tether 推出「手機可跑」的醫療 AI QVAC MedPsy，斷開雲端破除隱私痛點）

本文目錄

Toggle

不按順序產字的模型長什麼樣
速度優勢從哪裡來
速度背後的代價：品質在所有基準均落後

這一次 Google DeepMind 在 Gemma 4 開源家族裡放進了一個異類。大多數語言模型生成文字的方式是「自迴歸」，簡單來說就是，由左到右、一次只決定一個字，前一個字決定後一個字的機率，循序完成一段輸出。

DiffusionGemma 的做法完全相反：它先在一張「畫布」上鋪滿佔位符號，再反覆多趟對整塊內容進行「去噪」，最終一次輸出整段定稿。這個邏輯更接近 Stable Diffusion 生成影像的方式，而不是 GPT 生成文字的方式。

Google 官方表示，這種架構在本地硬體上有可量化的速度優勢，並以 Apache 2.0 授權開放給開發者與研究者使用。

不按順序產字的模型長什麼樣

DiffusionGemma 採用「混合專家」（MoE）架構。

MoE 的概念是，模型內部有大量「專家」子網路，但每次推論只啟用其中一部分，而不是每次都動員全部參數，白話說就是，雖然整個模型很大，但每次運算只呼叫必要的那幾個專家。DiffusionGemma 的總參數量為 260 億（26B），推論時實際啟用的只有 38 億（3.8B）。這讓它能塞進高階顯示卡的 18GB VRAM 內執行，量化後尤其如此。

生成流程更值得拆解。標準自迴歸模型是線性生產線：第 1 個 token 出來後，第 2 個才能開始計算，以此類推。

DiffusionGemma 則是先在整塊輸出區域鋪上佔位 token，然後進行多趟去噪，每一趟都讓所有位置的 token 同時更新、互相修正估計值，直到整塊內容收斂為最終輸出。一次最多可以平行處理 256 個 token。

這個設計對「非線性任務」有具體意義。Google 舉的例子是解數獨：傳統自迴歸模型在這類任務上表現普通，因為正確填入某個格子往往依賴其他尚未決定的格子，但自迴歸只能依序往前走，無法回頭。DiffusionGemma 能持續對整批 token 做自我修正，在邏輯依存關係錯綜複雜的任務上理論上更有利。

其他官方提及的適用場景包括：行內編輯（in-line editing）、分子序列生成、數學繪圖。

速度優勢從哪裡來

從硬體角度看，自迴歸模型的推論速度受「記憶體頻寬」制約，每輸出一個 token 就要從記憶體讀一次模型權重，記憶體搬資料的速度是瓶頸。擴散模型的瓶頸則不同，它是「算力」密集型，一次算大批 token、但每個 token 分攤到的記憶體讀取次數少很多。

這個瓶頸的轉移有實際的經濟意涵。現代 GPU 的算力通常遠比記憶體頻寬充裕，自迴歸「一次一個 token」的生成方式，等於讓昂貴的運算單元一直在等記憶體餵資料、長期處於半閒置狀態。

擴散式生成把工作量攤平成大批平行計算，反而能把 GPU 的算力吃好吃滿，對需要長時間、大批次產出的應用場景，這種「把硬體用好用滿」的特性，有時比單純的速度數字更實際。

這個差異在現代 GPU 上有直接的速度體現。Google 官方測試數字如下：在消費級的 Nvidia RTX 5090 上，DiffusionGemma 的輸出速度約為每秒 700 個 token；在資料中心級的單張 Nvidia H100 AI 加速器上，可達每秒 1,000 個 token 以上。根據 Google 自評，這約是同尺寸標準自迴歸 Gemma 模型的 4 倍速度。

動區要強調，上述數字均來自 Google 官方測試，非第三方獨立驗證。不同場景、不同生成長度下，實際倍率可能有落差。