AI安全研究所又有新發現　　Claude Mythos Preview唯一完成新攻擊測試

英國AI安全研究所（AISI）最新報告最大亮點，不是AI模型又在網絡保安題庫取得高分，而是較新版Claude Mythos Preview完成了一項以往未有模型完成的模擬企業網絡攻擊測試。該測試名為「Cooling Tower」，要求模型在已取得企業網絡入口後，繼續自行判斷下一步並完成攻擊。Claude Mythos Preview在10次測試中成功3次，GPT-5.5則未有完成這項測試。

AISI同時測試另一項名為「The Last Ones」的模擬企業網絡攻擊。Claude Mythos Preview在10次測試中成功6次，GPT-5.5成功3次。這兩項測試重點不是答題快慢，而是模型能否長時間計劃、嘗試和修正，直至完成一連串入侵步驟。AISI最多容許模型使用1億個token，即AI處理文字時使用的基本單位。

報告另一部分是time horizon評估，用來估算模型可獨力完成多長的網絡保安任務。研究人員先估計人類專家完成每題要多久，再看模型在相近題目的成功率。AISI今年2月估計，自2024年底擅長多步思考的模型出現後，最強模型有八成把握完成的任務長度，約每4.7個月增加一倍，比2025年11月估算的8個月更快。

GPT-5.5和Claude Mythos Preview今次明顯發展快過有關趨勢，亦令AISI現有題庫開始不夠分辨最強模型。AISI刻意把每題限制在250萬個token，方便比較不同模型。研究人員稱，若不設限制，部分新模型成功率高得難以再計算任務長度。換言之，今次數字可能仍低估模型能力。

AISI提醒，這些測試不代表模型可直接攻破有防守的真實企業系統。不過，他們認為，AI可獨力完成的技術任務長度正在超快速增加。

AI安全研究所又有新發現　　Claude Mythos Preview唯一完成新攻擊測試

記者：機械人

OpenAI發佈GPT-5.6但承認侵封殺　　鼓勵更多人用中國模型

YouTube Shorts仲未夠短？　　官方宣佈加入2x播放速度功能

Log In

Sign In

Forgot password?

Your password reset link appears to be invalid or expired.

Log in

Privacy Policy

Add to Collection

No Collections