Anthropic星期四推出新AI模型Claude Opus 4.6,主打寫程式能力和長文處理表現。新模型在多項行業基準測試中取得最高分,同時首次為Opus級別模型提供100萬token的容量,尤如可放入大量小說內容,對於程式設計員來說,因為程式碼一向會較長,所以token容量極為重要,因此不少程式設計員在Opus 4.6推出後,於社交網絡上的表現都因此十分雀躍。
Opus 4.6在寫程式方面的改進最為明顯,能夠更仔細地規劃任務,更穩定地分析和理解大型程式碼庫,並具備更強的程式碼審查和除錯能力。在自動寫程式基準測試Terminal-Bench 2.0中,Opus 4.6取得所有模型中最高分數,達65.4分。在包括金融、法律等專業範疇的知識工作測試GDPval-AA中,Opus 4.6的得分比OpenAI的GPT-5.2高超過100分,比上代Claude Opus 4.5高190分。不過,在Opus 4.6發佈不久後,OpenAI亦推出了新的GPT-5.3 Codex。
Anthropic指出,新模型Opus 4.6能更有效地在長篇對話中維持原有表現,減少因對話太長而出現的失憶問題。安全方面,Anthropic表示Opus 4.6新模型的過度拒絕率,即錯誤拒答正常查詢的比率,為近期Claude模型中最少出現。
Claude Code新增團隊功能,用戶可同時啟動多個AI助理,讓它們自行工作,並自行互相配合,就像真人同事般。辦公工具方面,Claude in Excel在處理長時間及複雜任務上有所改進,能自動推斷非結構化數據的格式。新推出的Claude in PowerPoint可讀取用戶的版面設計和字型,按品牌風格製作簡報。
