美國人工智能公司Anthropic於2月24日(周二)發表了3.0版本的負責任擴展策略(Responsible Scaling Policy,RSP),調整了舊版的「硬性安全限制」,轉向一個更具彈性、以市場競爭為考慮的框架。前一天(23日),Anthropic指出三家中國公司利用Claude來改進自身模型。
2月24日,Anthropic在其公司網站發布了新版的RSP策略,指出不再以自我設定的框架限制其AI模型的開發,而是採用一套不具約束力、且可能會持續調整的安全框架。Anthropic認為,前RSP政策的不足,可能會阻礙公司在AI快速成長市場中的競爭力。
Anthropic成立於2021年,其定位是把AI的安全與可控性視作產品與研究的核心。Anthropic由前OpenAI的成員創立,包括Anthropic的共同創辦人兼CEO達里奧‧阿莫代(Dario Amodei)。
試圖定義一套「負責任的競爭標準」
Anthropic制定RSP,旨在預測AI能力增強可能帶來的風險,並提前規劃相應的緩解措施。
Anthropic在2月24日發布的RSP 3.0,標誌著人工智能安全治理從「理論框架」轉向「實戰執行」的重要里程碑。
這次更新的核心在於強化對極端風險(Catastrophic Risks)的防禦,並首次引入了更具體的技術指標與第三方審核機制。
Anthropic的舊政策規定,如果模型能力超出公司可控制與確保安全的範圍,應暫停訓練更強大的模型;3.0的新政策已刪除了這一條。Anthropic解釋,若負責任的AI開發者停止發展,而不負責任的競爭者繼續推進,這不僅無法降低全球性風險,反而會損害其競爭地位,並可能導致不具備安全意識的公司主導市場。
Anthropic表示,希望其安全策略「能鼓勵其它AI公司推出類似政策」。這是一種「競相提升」的理念,即不同產業參與者被激勵去強化,以便在業界建立減少AI風險的共識,而不是削弱AI安全。
面臨著的諸多挑戰
但Anthropic在這方面顯然還面臨著諸多挑戰,Anthropic於2月23日發布的聲明中指出,中國的三家AI公司(DeepSeek、Moonshot和MiniMax)利用其Claude聊天機械人非法訓練AI,使用約2.4萬個虛假帳戶對Claude發起「工業級蒸餾攻擊」,互動次數高達1600萬次,違反服務條款和區域訪問限制。
所謂「蒸餾」技術,即用強模型的輸出來訓練弱模型。換句話說,中國AI公司在非法挖取美國AI企業的模型能力,以此來節省其研發的時間與成本。
Anthropic在聲明中警告,外國實驗室如果能夠提取美國的技術模型,就可以將這些未經保護的能力輸入到軍事、情報和監控系統中,可能使專制政府能夠利用前沿AI開展網絡攻擊、虛假資訊宣傳和大規模監控。
「Anthropic和其它美國公司構建的系統,旨在防止國家和非國家行為體利用AI開發生物武器或進行惡意網絡活動。」
「通過非法蒸餾構建的模型不太可能保留這些安全保障,這意味著危險能力可能會在許多保護措施完全失效的情況下迅速擴散。」
「前沿安全路線圖」新框架
在新政策中,Anthropic決定將把自身安全計劃與對整個AI產業的建議區分開來。
新的RSP政策採用的新框架被稱為「前沿安全路線圖」(Frontier Safety Roadmap)。特點是雖然仍設定了安全目標,但這些目標被描述為「非約束力但公開聲明」的。
其邏輯是,該公司將「公司內部的安全計劃」與「對產業的建議」分開。這意味著,Anthropic會根據競爭對手的行為來動態調整自己的腳步,而非單方面遵守死板的限制。
Anthropic說,路線圖中所描述的目標不僅具有挑戰性,同時又切實可行,這些目標並非硬性承諾,而是我們將公開評估進展的公開目標。這種「非約束力但公開聲明」的目標策略借鑒了一直倡導的前沿AI立法透明化的方法。
單間公司難以控制AI使用的風險
隨著AI技術的發展,使用範圍也在拓展。Anthropic在2月24日發表的政策變化一文中寫道:「我們看到世界各國政府(例如加州的SB 53法案、紐約州的RAISE法案,以及歐盟AI法案的實踐準則)開始要求,前沿AI開發者創建並發布用於評估和管理災難性風險的框架。Anthropic通過包括其前沿合規框架在內的公開文件來滿足這些要求。鼓勵業界建立此類嚴格的透明度框架,正是我們發布RSP的初衷。」
RSP 3.0延續並深化了AI安全等級(AI Safety Levels,ASL)系統。這套系統模仿生物實驗室的安全等級(BSL),根據模型的潛在危險性定義不同的防護門檻。RSP 3.0還引入「能力閾值」與「保護措施」自動掛鈎,及透明度與第三方審核機制。
AI已經在軍事行動中使用。Anthropic的主要產品是大型語言模型Claude。《華爾街日報》曾報道,Claude被用於美國軍方拘捕委內瑞拉前總統馬杜羅(Nicolás Maduro)的行動中。
但多家媒體近日報道,Anthropic和美國戰爭部對AI的應用存在分歧。據報道,Anthropic在兩個問題上不願讓步:AI控制武器,以及對美國公民的大規模監控。Anthropic認為,AI目前尚不足以可靠地操作武器,且目前仍缺乏規範AI如何用於大規模監控的法律與法規。
RSP 3.0特別關注AI的「自主性風險」。這包括模型是否能自行獲取資源、修復自身代碼或繞過人類監督。政策中新增了針對這些能力的專項測試流程,以確保模型始終處於人類的有效控制之下。
Anthropic於2月24日發布新RSP策略時,提到了對未來的展望。Anthropic表示,將來單憑自身力量可能難以甚至無法實現對國家級別濫用AI的控制,但我們希望,當我們達到更高能力時,世界能夠清楚地認識到其中的危險,並且我們能夠與世界各國政府協調合作,實施那些單憑一間公司難以實現的保障措施。
這份RSP 3.0不僅是Anthropic的公司政策,也常被視為全球AI監管法律(如歐盟AI法案或美國行政命令)的重要參考範本。#
-------------------
局勢持續演變
與您見證世界格局重塑
-------------------
🔔下載大紀元App 接收即時新聞通知:
🍎iOS:https://bit.ly/epochhkios
🤖Android:https://bit.ly/epochhkand
📰周末版實體報銷售點👇🏻
http://epochtimeshk.org/stores


















