Anthropic 發布 Claude Sonnet 4.6，效能接近 Opus，並擴展了長上下文處理能力

人工智慧安全和研究公司人類的微軟宣布推出 Claude Sonnet 4.6，稱其為迄今為止功能最強大的 Sonnet 車型。此版本更新涵蓋編碼、電腦使用、長上下文推理、智能體規劃、知識工作和設計等多個方面，並在測試版中提供百萬級上下文視窗。對於免費版和專業版用戶，Sonnet 4.6 將成為 claude.ai 和 Claude Cowork 的預設模型，價格與 Sonnet 4.5 相同。

此次更新旨在將更高階的效能帶給更廣泛的用戶群。早期測試該型號的開發者報告稱，其在一致性、指令執行和上下文理解方面的改進，使其不僅優於 Sonnet 4.5，而且在許多情況下甚至優於 Anthropic 公司將於 2025 年底推出的更先進的 Opus 4.5 型號。以前需要 Opus 級系統才能完成的任務——尤其是那些與實際辦公室工作流程相關的任務——現在使用 Sonnet 4.6 即可輕鬆完成。該公司還強調，電腦使用能力有了顯著提升，而這正是早期 Sonnet 型號的短板所在。

Anthropic強調，該模型經過了全面的安全評估。內部研究人員表示，Sonnet 4.6展現出強大的安全性能，且未出現任何重大的高風險偏差跡象。該公司以此強化其在負責任的人工智慧開發方面的整體定位。

關於電腦使用能力的討論反映了一個更廣泛的論點，即能夠直接操作軟體而非透過應用程式介面（API）運作的人工智慧系統的價值所在。 Anthropic 指出，許多組織依賴難以自動化的傳統工具，而能夠像人一樣與電腦互動的模型可以減少對客製化整合的需求。

諸如 OSWorld 等模擬真實軟體環境的基準測試顯示，Sonnet 在十六個月的開發過程中穩步提升。 Sonnet 4.6 的早期用戶報告稱，該模型現在能夠處理諸如瀏覽複雜電子表格或填寫多步驟網頁表單等任務，其水平已接近人類熟練程度，儘管仍不及專家用戶。同時，該公司也承認存在諸如提示注入攻擊之類的風險，並聲稱與早期版本相比，其防禦能力有所提高。

Sonnet 4.6 提升了程式碼品質、推理能力和工具使用效率

除了電腦應用之外，Anthropic 還報告稱，Sonnet 4.6 在各項基準測試中均取得了顯著改進。在 Claude Code 測試中，使用者在大多數測試中都更傾向於使用 Sonnet 4.6 而非 Sonnet 4.5，理由是 Sonnet 4.6 的上下文讀取能力更強、重複程式碼更少，並且多步驟執行更加可靠。許多使用者也更青睞 Sonnet 4.6 而非 Opus 4.5，認為 Sonnet 4.6 較不容易出現過度設計，並且在遵循指令方面更加一致。擴展的上下文視窗使該模型能夠處理整個程式碼庫或大型研究資料集，Anthropic 還重點介紹了 Sonnet 4.6 在自動販賣機競技場模擬中的出色表現，該模型採用的長期投資策略優於競爭對手。

該公司指出，早期客戶已體驗到前端開發、財務分析和視覺設計品質等方面的改進。 Sonnet 4.6 也對 Claude 開發者平台和 API 進行了全面更新，包括自適應和擴展思維模式、上下文壓縮、改進的網路搜尋處理以及擴展的工具使用功能。該模型現已適用於所有 Claude 套餐（包括免費套餐），可透過 Claude Cowork、Claude Code、API 和主流雲端平台存取。