in ,

新Claude Opus 4.8有更多選項  AI由過往跑分轉成⋯

Anthropic今日推出Claude Opus 4.8版本,價格與上一代Opus 4.7相同。今次更新的重點不在於測試分數,而在於模型作為合作夥伴更可靠、判斷更準,並能處理更長、更大規模的任務,由AI自行分拆步驟、長時間執行的工作。

Anthropic稱,早期測試者發現Opus 4.8在Claude Code中的判斷力明顯較佳,懂得問對問題並發現自己的錯誤,並在計劃不夠時主動提出異議。負責自動化工程的測試者亦表示,新模型使用工具更俐落,並修正了Opus 4.7解釋過多和工具呼叫方面的問題。

Anthropic表示,AI模型有時會在證據不足下仍自信地聲稱工作有進展,而Opus 4.8較傾向主動指出工作中的不確定之處,較少作出無根據的聲稱。據其內部評估,Opus 4.8放過自己所寫程式碼漏洞的機率,約為前一代的四分之一。

配合Opus 4.8,Anthropic在Claude Code推出研究預覽階段的dynamic workflows功能,讓Claude先規劃工作,再在同一節對話中同時運行數百個分工的子任務,核對結果後才向用戶報告。Anthropic舉例稱,Claude Code配上Opus 4.8現時可以處理橫跨數十萬行程式碼的大規模遷移,由開始一直做到合併,並以現有測試作為過關標準。目前,有關功能只適用於Claude Code的Enterprise、Team和Max方案。

Anthropic同日亦有其他更新,claude.ai和Cowork新增投入程度(effort)選項,讓用戶自行選擇Claude在單一回應上花多少功夫,較高設定會思考得更深入,較低設定則回應更快,消耗較少用量,所有方案均可使用。

Anthropic表示下一步會推出能力與Opus相近但成本更低的模型,亦計劃推出比Opus更聰明的新模型。Anthropic呢排成日提到Project Glasswing的計劃,現時有少數機構使用Claude Mythos Preview處理網絡安全工作,這類模型需要更強的網絡安全防護才可全面開放,Anthropic今次已經稱,預計未來數星期內做到。換句話說,公眾可能好快就玩到Mythos。

記者:阿鬼

天生火爆,用一團火和光合作用,繼續盡力發聲做記者。