隨著先進系統能力不斷增強,Anthropic 提出了新的 AI 政策框架。
該公司希望各國政府為前沿模型制定規則,並協助工作者因應 AI 帶來的經濟衝擊。其計畫涵蓋危險部署、獨立測試、網路安全及公共韌性。
Anthropic 在其「AI 指數政策」計畫下提出兩項提案。《先進 AI 框架》聚焦於強大模型,而《經濟政策框架》則針對工作者及共享財務利益。該公司認為,AI 發展速度已超越現有政策制定體系,並表示各國政府需要擁有阻止或遏制危險模型部署的權力。
根據該計畫,民事罰款將與全球年度營收掛鉤。依據所提框架,重複違規將面臨更高罰款。該框架亦要求前沿開發者在發布前對模型進行測試,並為強大的 AI 系統發布摘要、安全框架及系統說明卡。
獨立評估機構將審查模型測試結果與風險報告。Anthropic 也希望開發者為模型權重與訓練系統維持強健的安全計畫。該提案支持加州及紐約等州的透明度法規,但該公司認為,單靠公開揭露已無法跟上 AI 發展的速度。
所提規則僅適用於最先進的 AI 系統。Anthropic 將門檻設定為訓練量超過 10²⁵ 次浮點運算的模型。該框架亦涵蓋 AI 相關營收超過 5 億美元的公司,以及 AI 研發支出超過 10 億美元的企業。
Anthropic 在提案中列出四大主要風險領域,包括生物風險、網路風險、失控風險及自動化 AI 研究。在生物風險方面,該公司警告不安全的系統可能協助攻擊者開發有害病毒,同時也指出類似的 AI 工具可支援藥物研發。
在網路風險方面,前沿模型可大規模發現嚴重的軟體漏洞。Anthropic 表示,這些能力對醫院、電網及其他關鍵系統構成隱憂。該公司亦強調系統在開發者控制範圍外自主行動的風險。若安全措施失效,自動化 AI 研究可能加劇生物、網路及控制風險。
Anthropic 希望前沿開發者定期發布風險報告,描述開發者的整體風險狀況及模型安全工作。該框架亦要求至少設有一名合格的獨立評估人員,負責審查公司評估結果並發布模型風險報告的調查結果。
各國政府與業界也將為這些評估人員制定標準。提案指出,評估人員需要資金支持及前沿模型的使用權限。安全規則是該框架的另一重要組成部分,開發者須保護其完整的開發環境,防範外部攻擊者與內部威脅。
公司須在高層次上公開描述其安全計畫,並在被要求時向指定政府機構提供更詳細的資訊。Anthropic 表示,政策制定者可從較寬鬆的規則開始,並隨時間加以調整。該框架指出,監管應跟隨模型能力與評估標準的發展。
框架第二部分聚焦於公共韌性。Anthropic 建議針對生物、網路及控制相關 AI 風險加強規劃。在生物方面,提案包含基因合成篩查及早期預警生物監測,並提及防護裝備儲備及降低空氣傳播的工具。
在網路方面,框架呼籲強化網路軟體並支援關鍵基礎設施運營商,同時建議替換重要基礎設施中的老舊系統。各國政府亦應透過專責職能追蹤前沿網路能力。Anthropic 提議政府與業界就模型安全防護展開合作。
該公司表示,針對失控風險與自動化研究風險的相關工作仍有待發展,並呼籲開發更好的工具來偵測、遏制或關閉不安全的系統。Anthropic 敦促政策制定者在模型能力持續提升之際採取行動,並表示 AI 治理必須與技術發展保持同步。


