Google 發布 Gemini 3.1 Pro,ARC-AGI-2 推理跑分較前代翻倍至 77.1%,在 1 […] 〈Google 推出 Gemini 3.1 Pro:推理能力三個月翻倍、API定價不變、TPU自有晶片優勢〉這篇文章最早發佈於動區BlockTempo《動區動趨-最具影響力的區塊鏈新聞媒體》。Google 發布 Gemini 3.1 Pro,ARC-AGI-2 推理跑分較前代翻倍至 77.1%,在 1 […] 〈Google 推出 Gemini 3.1 Pro:推理能力三個月翻倍、API定價不變、TPU自有晶片優勢〉這篇文章最早發佈於動區BlockTempo《動區動趨-最具影響力的區塊鏈新聞媒體》。

Google 推出 Gemini 3.1 Pro:推理能力三個月翻倍、API定價不變、TPU自有晶片優勢

2026/02/20 10:55
閱讀時長 7 分鐘

Google 發布 Gemini 3.1 Pro,ARC-AGI-2 推理跑分較前代翻倍至 77.1%,在 16 項基準中拿下 13 項冠軍,API 定價不變,AI 軍備競賽正加速壓縮每一代模型的生命週期。 (前情提要:Gemini 上線免費「SAT 模擬考」功能,AI 家教提供個人化學習指南 ) (背景補充:Google 正式推出「Gemini 3」!登頂全球最聰明 AI 模型,有什麼亮點?)   Google 昨 (19) 日深夜正式發布 Gemini 3.1 Pro 預覽版,在 ARC-AGI-2(測量模型解決全新問題時的邏輯能力)上,3.1 Pro 拿下 77.1%,較前代 Gemini 3 Pro 翻了一倍有餘。 下圖在 Google 列出評估的 16 項基準中,3.1 Pro 拿下了 13 項第一。 其他關鍵跑分同樣令人注意:GPQA Diamond(專家級科學知識)94.3%、SWE-Bench Verified(自主程式碼修復)80.6%、Humanity’s Last Exam 44.4%、MMMLU 92.6%。 在 MCP Atlas(測量多步驟工具使用工作流程的基準)上,3.1 Pro 達到 69.2%,領先 Claude 和 GPT-5.2 近 10 個百分點。 「可調式推理」:讓開發者自己決定模型要多聰明 Gemini 3.1 Pro 具戰略意義的新功能是三級思考深度系統(thinking level)。開發者可以在 low、medium、high 三檔之間切換模型的「推理預算」,處理簡單 API 呼叫時用低檔節省延遲和成本,遇到複雜除錯時切到高檔。 當設定為 high 時,3.1 Pro 的行為接近 Google 的專用推理模型 Gemini Deep Think 的「迷你版」。VentureBeat 的評測形容這是「隨需求啟動的 Deep Think Mini」。 在 BrowseComp(測量 AI 代理自主網頁搜尋能力的基準)上,3.1 Pro 從前代的 59.2% 飆升至 85.9%。一個能自己上網搜資料、多步驟完成任務、且推理精準度大幅提升的 AI 代理,這正是整個 AI 產業押注的方向。 定價不變,效能翻倍:誰在補貼這場戰爭? API 定價維持每百萬輸入 token 2 美元、每百萬輸出 token 12 美元,與 Gemini 3 Pro 完全一致。換算下來,Gemini 3.1 Pro 的輸入成本比 Claude Opus 4.6 低 60%,輸出成本低 52%。 效能翻倍但定價不變,Google 正在用「性價比壓制」的打法搶佔開發者市場。 上下文視窗維持 100 萬 token(是 Claude 的 5 倍、GPT-5 的 2.5 倍),輸出上限從前代擴展至 65,000 token,單次 API 上傳限制從 20MB 提升至 100MB,甚至支援直接傳入 YouTube URL 讓模型「觀看」影片。 不漲價的策略背後,也是 Google 在自研 TPU 晶片和雲端基礎設施上的結構性成本優勢。Google 用行動表明:在 AI 軍備競賽中,有自己的晶片就是最大的護城河。 沒有贏家通吃,但有明確的競爭格局 當然,Gemini 3.1 Pro 並非在所有領域都是冠軍。 Claude Sonnet 4.6(Thinking Max 模式)在長上下文記憶(MRCR v2)上與 3.1 Pro 打平,在 GDPval-AA Elo 專家任務上則大幅領先(1633 vs 1317)。 OpenAI 的 GPT-5.3-Codex 在終端機編程任務(Terminal-Bench 2.0)上以 77.3% 領先 3.1 Pro 的 68.5%。Claude 系列的幻覺率(約 3%)也顯著低於 Gemini 和 GPT(平均約 6%)。 2026 年的 AI 競賽格局是:Google 在推理和代理任務上領跑,Anthropic 在精準度和安全性上佔優,OpenAI 在程式碼生成和生態系統上保持優勢。沒有贏家通吃,但可能「每三個月就洗牌一次」。 AI 模型的軍備競賽不會停下來。唯一的問題是,這場競賽的收益最終歸誰:是開發者、是平台、還是最終寫出最大支票的人。 Google 今天的答案是:先讓開發者用得起,再談其他的。這個策略其在雲端運算時代奏效過一次,這次能不能再奏效,取決於 AI 是否真的能為企業創造足以回本的價值,而不只是創造更高的基準分數。 相關報導 Telegram 創辦人宣布「AI 算力網路 Cocoon」上線:可用 GPU 挖 TON、100% 隱私運算 馬斯克預測:3年內AI將解決38兆美元美債,20年後人類已不需要工作 李飛飛談 LLM 下一步:AI 須擁有「空間智慧」才能理解真實世界,Marble 模型如何實現? 〈Google 推出 Gemini 3.1 Pro:推理能力三個月翻倍、API定價不變、TPU自有晶片優勢〉這篇文章最早發佈於動區BlockTempo《動區動趨-最具影響力的區塊鏈新聞媒體》。

市場機遇
Ucan fix life in1day 圖標
Ucan fix life in1day實時價格 (1)
$0.0005482
$0.0005482$0.0005482
-1.29%
USD
Ucan fix life in1day (1) 實時價格圖表
免責聲明: 本網站轉載的文章均來源於公開平台,僅供參考。這些文章不代表 MEXC 的觀點或意見。所有版權歸原作者所有。如果您認為任何轉載文章侵犯了第三方權利,請聯絡 service@support.mexc.com 以便將其刪除。MEXC 不對轉載文章的及時性、準確性或完整性作出任何陳述或保證,並且不對基於此類內容所採取的任何行動或決定承擔責任。轉載材料僅供參考,不構成任何商業、金融、法律和/或稅務決策的建議、認可或依據。