in ,

Claude Sonnet 4.6新模型登場  表現接近Opus、但相對較平!

Anthropic推出旗下最新AI模型Claude Sonnet 4.6,在電腦操控、長篇推理及程式撰寫等方面均有明顯改善,售價與上代相同,每百萬token收費3至15美元。

新模型最大提升為電腦操控能力,它可以更真人一樣使用電腦,包括移動滑鼠、輸入文字,無需依賴API或特殊連接方式,便能處理難以自動化的舊式企業系統。早期用戶反映,模型已能以接近人類水準完成填寫網頁表格、處理複雜試算表等工作。在OSWorld測試中,歷代Sonnet模型的得分持續上升,Sonnet 4.6表現更接近Opus水準。

在程式撰寫方面,受邀率先測試的開發者在Claude Code平台測試後,約七成情況下偏好使用Sonnet 4.6,勝過上一代Sonnet 4.5,甚至比去年11月推出的Opus 4.5更受歡迎。用戶指Sonnet 4.6較少出現重複程式碼,更能理解上文下理再修改,多步驟任務的工作亦更為穩定。本站記者實測時,發現Sonnet 4.6寫程式碼時確實穩定得多,而且水準明顯比4.5好了不少。唯使用token數量也不少,若只是付US$20 Pro的話,可能仍然會感覺唔夠用。

Sonnet 4.6另一重要更新是以測試版形式提供100萬token的容量,足以容納整個程式庫或大量研究報告,不過程式設計員在Claude Code使用時,要按輸入輸出Token計算費用,就算付US$100的Max用戶也要按輸入輸出數量俾錢。Anthropic以模擬經營測試Vending-Bench Arena為例,Sonnet 4.6在測試中扮演賣糖果機生意的經營者,與其他AI模型競爭。Sonnet 4.6的策略是前期大量增加產能,到最後階段才轉攻盈利,最終以此節奏勝出,反映其長遠規劃能力有所改善。

記者:阿鬼

天生火爆,用一團火和光合作用,繼續盡力發聲做記者。