AI模型文心5.1正式上線：引數砍至5.0三分之一，預訓練成本只花6%

百度文心大模型 5.1 正式上線，使用者可在文心一言官網體驗，企業與開發者可透過千帆平台呼叫 API。文心 5.1 基於今年 1 月發布的文心 5.0 訓練而來，總引數量壓縮至 5.0 的約三分之一，啟用引數約為一半，預訓練算力成本僅為同規模模型的 6%。核心技術是百度提出的 Once-for-All 彈性訓練框架。
（前情提要：DeepSeek 首輪融 73.5 億鎂甩開阿里：梁文鋒自掏四成，只要「條件最少」的錢）
（背景補充：Anthropic 五年砸 2,000 億鎂給 Google Cloud，兩家 AI 新創吃掉四大雲巨頭一半訂單）

本文目錄

Toggle

重點摘要
Once-for-All 框架：一次預訓練，產出整個子模型矩陣
6% 的含義
常見問題

重點摘要

百度文心 5.1 正式上線，總引數壓至 5.0 的三分之一，啟用引數約為一半
預訓練算力成本僅為同規模模型的 6%，核心技術為 Once-for-All 彈性訓練框架
文心 5.0 一次預訓練產出子模型矩陣，5.1 從中提取最優結構直接繼承知識

百度文心大模型 5.1 正式上線。使用者可在文心一言官網直接體驗，企業與開發者則可透過千帆平台呼叫 API。文心 5.1 基於今年 1 月發布的文心 5.0 訓練而來，核心賣點是大幅壓縮模型體積和訓練開銷。

5.1 版本在 Arena 搜索榜上登上第四位。

Once-for-All 框架：一次預訓練，產出整個子模型矩陣

成本壓縮的核心來自百度提出的 Once-for-All 彈性訓練框架。傳統做法需要為不同規模的模型分別跑預訓練，每個模型尺寸都是一次獨立的算力投入，規模版本越多，重複訓練的浪費越大。

文心 5.0 的做法不同：它只做一次預訓練，透過動態取樣技術同時最佳化大量不同大小的子模型，形成一個「子模型矩陣」。

文心 5.1 就是從這個矩陣中提取的最優結構。它直接繼承了 5.0 在預訓練階段累積的全部知識，省掉了從頭訓練所需的算力。

6% 的含義

「預訓練成本 6%」這個數字需要解釋的是，百度不是在同等規模上找到了更便宜的訓練方法，而是文心 5.1 根本跳過了從零開始的預訓練流程。它的訓練成本主要花在從 5.0 的子模型矩陣中篩選最優結構、以及後續的微調與對齊階段。與同行為每個模型規模獨立訓練的做法相比，這種「訓練一次、產出多個」的架構在邊際成本上具有結構性優勢。

這個邏輯與 DeepSeek 年初公布的低成本訓練路線不同。DeepSeek V3 強調的是在單次訓練中用更少的 GPU 和更高效的工程實現壓低成本；百度的 Once-for-All 則是把一次訓練的產出從「一個模型」擴充套件到「一整個模型家族」。