一個存在27年的保安漏洞,捱過無數人手審查和數以百萬計自動測試程式都沒有被發現,卻被Anthropic最新AI模型Claude Mythos Preview在無人指導下自行搵到出黎。Anthropic表明,Mythos不會向公眾開放,原因正正在於它的能力太強。
Mythos在網絡保安方面展現出前所未見的能力。Anthropic過去數星期用它掃描各大作業系統和瀏覽器,發現數以千計廠商未及修補的保安漏洞(即zero-day),當中不少屬於嚴重級別。更重要的是,Mythos不止能找到漏洞,還能自行撰寫入侵程式。以往同類工作需要頂尖保安專家花數星期完成,Mythos可以在數小時內做到,而且全程無需人手介入。
上一代模型Claude Opus 4.6在自動撰寫入侵程式方面的成功率接近零。Anthropic以Firefox瀏覽器一批已知漏洞作測試,要求模型根據漏洞撰寫可實際運作的入侵程式,Opus 4.6在數百次嘗試中只成功兩次,Mythos則成功181次。在另一組內部測試中,Anthropic向約一千個開源項目發動模擬攻擊,按破壞程度分五級,最高一級代表攻擊者可令程式執行任意指令,等同完全接管。Opus 4.6和Sonnet 4.6從未達到最高級別,Mythos則有十次做到。
Anthropic稱,Mythos的網絡保安能力並非刻意訓練出來,而是模型在程式碼理解、推理和自主行動方面大幅進步後自然衍生的結果。同一批改進令它修補漏洞的能力更強,同時也令它攻擊的能力更強。
具體案例方面,Mythos找到OpenBSD作業系統一個存在27年的漏洞,攻擊者只需連接目標機器便可令其當機。它亦在影片處理程式庫FFmpeg中發現一個存在16年的漏洞,相關程式碼過去經歷過500萬次自動掃描,從來沒有找出問題。在FreeBSD作業系統方面,Mythos自行發現並撰寫了一個完整的遙距入侵程式,令未經授權的用戶可取得伺服器最高權限。
由於能力太強,Anthropic決定不向公眾開放Mythos,而是透過「Project Glasswing」計劃,讓特定合作夥伴率先使用,目的是在有類似能力的模型普及之前,搶先修復全球最重要的軟件的漏洞。合作夥伴包括蘋果、AWS、Google、Microsoft、Cisco、CrowdStrike和JPMorgan Chase等。Anthropic同時投入1億美元模型用量支持計劃,並向Linux Foundation和Apache Software Foundation捐出合共400萬美元,協助開源軟件維護者應對新形勢。
Anthropic計劃在未來推出新一代Claude Opus模型時,加入專門的安全防護機制,限制模型輸出最危險的內容,之後才會考慮讓用戶大規模使用Mythos級別的模型。Anthropic亦承諾在90日內公開Glasswing計劃的初步成果,並與業界合作制定AI時代的保安實務指引。Anthropic認為,AI模型的網絡攻防能力上,最終會令防守一方佔優,令軟件變得更安全,但過渡期可能相當艱難,因此必須搶先行動。


