百度文心大模型 5.1 正式上線,使用者可在文心一言官網體驗,企業與開發者可透過千帆平台呼叫 API。文心 5.1 基於今年 1 月發布的文心 5.0 訓練而來,總引數量壓縮至 5.0 的約三分之一,啟用引數約為一半,預訓練算力成本僅為同規模模型的 6%。核心技術是百度提出的 Once-for-All 彈性訓練框架。
(前情提要:DeepSeek 首輪融 73.5 億鎂甩開阿里:梁文鋒自掏四成,只要「條件最少」的錢)
(背景補充:Anthropic 五年砸 2,000 億鎂給 Google Cloud,兩家 AI 新創吃掉四大雲巨頭一半訂單)
本文目錄
- 重點摘要
- Once-for-All 框架:一次預訓練,產出整個子模型矩陣
- 6% 的含義
- 常見問題
重點摘要
- 百度文心 5.1 正式上線,總引數壓至 5.0 的三分之一,啟用引數約為一半
- 預訓練算力成本僅為同規模模型的 6%,核心技術為 Once-for-All 彈性訓練框架
- 文心 5.0 一次預訓練產出子模型矩陣,5.1 從中提取最優結構直接繼承知識
百度文心大模型 5.1 正式上線。使用者可在文心一言官網直接體驗,企業與開發者則可透過千帆平台呼叫 API。文心 5.1 基於今年 1 月發布的文心 5.0 訓練而來,核心賣點是大幅壓縮模型體積和訓練開銷。
5.1 版本在 Arena 搜索榜上登上第四位。
Once-for-All 框架:一次預訓練,產出整個子模型矩陣
成本壓縮的核心來自百度提出的 Once-for-All 彈性訓練框架。傳統做法需要為不同規模的模型分別跑預訓練,每個模型尺寸都是一次獨立的算力投入,規模版本越多,重複訓練的浪費越大。
文心 5.0 的做法不同:它只做一次預訓練,透過動態取樣技術同時最佳化大量不同大小的子模型,形成一個「子模型矩陣」。
文心 5.1 就是從這個矩陣中提取的最優結構。它直接繼承了 5.0 在預訓練階段累積的全部知識,省掉了從頭訓練所需的算力。
6% 的含義
「預訓練成本 6%」這個數字需要解釋的是,百度不是在同等規模上找到了更便宜的訓練方法,而是文心 5.1 根本跳過了從零開始的預訓練流程。它的訓練成本主要花在從 5.0 的子模型矩陣中篩選最優結構、以及後續的微調與對齊階段。與同行為每個模型規模獨立訓練的做法相比,這種「訓練一次、產出多個」的架構在邊際成本上具有結構性優勢。
這個邏輯與 DeepSeek 年初公布的低成本訓練路線不同。DeepSeek V3 強調的是在單次訓練中用更少的 GPU 和更高效的工程實現壓低成本;百度的 Once-for-All 則是把一次訓練的產出從「一個模型」擴充套件到「一整個模型家族」。
常見問題
文心 5.1 和文心 5.0 有什麼差別?
文心 5.1 基於 5.0 訓練而來,總引數壓縮至 5.0 的三分之一,啟用引數約一半。它從 5.0 的 Once-for-All 子模型矩陣中提取最優結構,繼承全部知識但推理更快、成本更低。
什麼是 Once-for-All 彈性訓練框架?
百度提出的訓練方法。只做一次預訓練,透過動態取樣同時最佳化不同大小的子模型,形成模型矩陣。新模型從矩陣中提取,省去從頭訓練的算力,邊際成本大幅降低。
📍相關報導📍
Cerebras 5/14 掛牌叫板輝達:IPO 超額 20 倍定價上修,單晶片吃掉整張晶圓
拿掉 AI 美國 GDP 只剩 0.66%:科技投資 Q1 砸破 1999 年紀錄,吃下經濟六成七
黃仁勳:Blackwell 和 Rubin 都不該讓中國取得,NVIDIA 中國市佔歸零仍不讓步







