Google DeepMind 發布 DiffusionGemma,是 Gemma 4 開源家族的新成員。官方 […] 〈Google 新開源 DiffusionGemma 模型:生成快 4 倍,但品質落後 Gemma 4〉這篇文章最早發佈於動區BlockTempo《動區動趨-最具影響力的區塊鏈新聞媒體》。Google DeepMind 發布 DiffusionGemma,是 Gemma 4 開源家族的新成員。官方 […] 〈Google 新開源 DiffusionGemma 模型:生成快 4 倍,但品質落後 Gemma 4〉這篇文章最早發佈於動區BlockTempo《動區動趨-最具影響力的區塊鏈新聞媒體》。

Google 新開源 DiffusionGemma 模型:生成快 4 倍,但品質落後 Gemma 4

2026/06/11 11:55
閱讀時長 9 分鐘
如需對本內容提供反饋或相關疑問,請通過郵箱 crypto.news@mexc.com 聯絡我們。

Google DeepMind 發布 DiffusionGemma,是 Gemma 4 開源家族的新成員。官方測試顯示,在 Nvidia RTX 5090 上可達每秒約 700 個 token,在 H100 上可突破每秒 1,000 個 token,約是同尺寸自迴歸 Gemma 模型的 4 倍。
(前情提要:Google 推出 Gemma 4 12B 開源模型,16GB 消費型筆電就能本地執行
(背景補充:輾壓 Google 模型!Tether 推出「手機可跑」的醫療 AI QVAC MedPsy,斷開雲端破除隱私痛點

本文目錄

Toggle
  • 不按順序產字的模型長什麼樣
  • 速度優勢從哪裡來
  • 速度背後的代價:品質在所有基準均落後

一次 Google DeepMind 在 Gemma 4 開源家族裡放進了一個異類。大多數語言模型生成文字的方式是「自迴歸」,簡單來說就是,由左到右、一次只決定一個字,前一個字決定後一個字的機率,循序完成一段輸出。

DiffusionGemma 的做法完全相反:它先在一張「畫布」上鋪滿佔位符號,再反覆多趟對整塊內容進行「去噪」,最終一次輸出整段定稿。這個邏輯更接近 Stable Diffusion 生成影像的方式,而不是 GPT 生成文字的方式。

Google 官方表示,這種架構在本地硬體上有可量化的速度優勢,並以 Apache 2.0 授權開放給開發者與研究者使用。

不按順序產字的模型長什麼樣

DiffusionGemma 採用「混合專家」(MoE)架構。

MoE 的概念是,模型內部有大量「專家」子網路,但每次推論只啟用其中一部分,而不是每次都動員全部參數,白話說就是,雖然整個模型很大,但每次運算只呼叫必要的那幾個專家。DiffusionGemma 的總參數量為 260 億(26B),推論時實際啟用的只有 38 億(3.8B)。這讓它能塞進高階顯示卡的 18GB VRAM 內執行,量化後尤其如此。

生成流程更值得拆解。標準自迴歸模型是線性生產線:第 1 個 token 出來後,第 2 個才能開始計算,以此類推。

DiffusionGemma 則是先在整塊輸出區域鋪上佔位 token,然後進行多趟去噪,每一趟都讓所有位置的 token 同時更新、互相修正估計值,直到整塊內容收斂為最終輸出。一次最多可以平行處理 256 個 token。

這個設計對「非線性任務」有具體意義。Google 舉的例子是解數獨:傳統自迴歸模型在這類任務上表現普通,因為正確填入某個格子往往依賴其他尚未決定的格子,但自迴歸只能依序往前走,無法回頭。DiffusionGemma 能持續對整批 token 做自我修正,在邏輯依存關係錯綜複雜的任務上理論上更有利。

其他官方提及的適用場景包括:行內編輯(in-line editing)、分子序列生成、數學繪圖。

速度優勢從哪裡來

從硬體角度看,自迴歸模型的推論速度受「記憶體頻寬」制約,每輸出一個 token 就要從記憶體讀一次模型權重,記憶體搬資料的速度是瓶頸。擴散模型的瓶頸則不同,它是「算力」密集型,一次算大批 token、但每個 token 分攤到的記憶體讀取次數少很多。

這個瓶頸的轉移有實際的經濟意涵。現代 GPU 的算力通常遠比記憶體頻寬充裕,自迴歸「一次一個 token」的生成方式,等於讓昂貴的運算單元一直在等記憶體餵資料、長期處於半閒置狀態。

擴散式生成把工作量攤平成大批平行計算,反而能把 GPU 的算力吃好吃滿,對需要長時間、大批次產出的應用場景,這種「把硬體用好用滿」的特性,有時比單純的速度數字更實際。

這個差異在現代 GPU 上有直接的速度體現。Google 官方測試數字如下:在消費級的 Nvidia RTX 5090 上,DiffusionGemma 的輸出速度約為每秒 700 個 token;在資料中心級的單張 Nvidia H100 AI 加速器上,可達每秒 1,000 個 token 以上。根據 Google 自評,這約是同尺寸標準自迴歸 Gemma 模型的 4 倍速度。

動區要強調,上述數字均來自 Google 官方測試,非第三方獨立驗證。不同場景、不同生成長度下,實際倍率可能有落差。

速度背後的代價:品質在所有基準均落後

不過在所有已公布的公開基準測試中,DiffusionGemma 的分數均低於標準 Gemma 4。換句話說,4 倍的速度不是憑空得來的,它的代價是生成品質的系統性下滑。

這個取捨對不同使用情境有截然不同的含義。如果你在意每秒輸出量,例如需要大規模批次處理、在邊緣裝置上跑本地推論、或是對延遲有高度敏感的應用場景,DiffusionGemma 的速度優勢是真實的。如果你的任務對答案品質有較高要求,標準 Gemma 4 目前仍然更可靠。

對本地 AI 社群而言,這個模型代表的是一種取捨方向的具體化:在有限的本地硬體上,你願意用多少品質換多少速度?這個問題,現在有了一個可以直接跑實驗的參照點。Apache 2.0 授權意味著任何開發者都可以基於它做微調與研究,擴散式語言生成的實際天花板,接下來要靠社群來測。

📍相關報導📍

Google 發表最強多模態影音模型「Gemini Omni」!支援對話式無縫修片,本週免費登陸 YouTube

Anthropic 在 Claude Fable 5 加入蒸餾偵測功能,能擋住中國開源模型?

免費拿 NVIDIA 模型 API key!3 分鐘註冊可選 Kimi、DeepSeek、Llama 全能跑

市場機遇
4 圖標
4實時價格 (4)
$0.00867
$0.00867$0.00867
+1.11%
USD
4 (4) 實時價格圖表

完成預測交易,解鎖大獎資格

完成預測交易,解鎖大獎資格完成預測交易,解鎖大獎資格

獎金池高達 $500,000,100% 中獎!

免責聲明: 本網站轉載的文章均來源於公開平台,僅供參考。這些文章不代表 MEXC 的觀點或意見。所有版權歸原作者所有。如果您認為任何轉載文章侵犯了第三方權利,請聯絡 crypto.news@mexc.com 以便將其刪除。MEXC 不對轉載文章的及時性、準確性或完整性作出任何陳述或保證,並且不對基於此類內容所採取的任何行動或決定承擔責任。轉載材料僅供參考,不構成任何商業、金融、法律和/或稅務決策的建議、認可或依據。

真實美股已上線

真實美股已上線真實美股已上線

透過持牌券商,用 USDT 交易真實美股