中國人工智能公司DeepSeek(深度求索)今日(4月24日)推出V4 Preview並推出開源版本,將100萬token上下文能力變成旗下所有官方服務的預設規格。
今次同時推出兩款模型。旗艦版DeepSeek-V4-Pro總參數量達1.6萬億,每次運作實際用到490億。精簡版DeepSeek-V4-Flash總參數2,840億,每次實際用到130億。兩者都支援100萬token上下文,並具備深入思考(Thinking)與即時回覆(Non-Thinking)兩種模式。
DeepSeek宣稱V4-Pro在多項測試中表現追上全球頂級閉源模型,特別在agentic coding(AI agent寫程式)基準中取得開源模型最佳成績,更宣稱整體知識水平僅次於Google旗下的Gemini-3.1-Pro。至於V4-Flash,推理能力貼近V4-Pro,回應更快,API價錢亦更低。
不過,有關測試一向都係官方宣稱,再加上DeepSeek本身就有言論審查,中國敏感話題一定唔答。此外,V4目前發佈的版本仍然只係支援文字,對比就算同樣來自中國的KLM等,算係非常落後。
至於V4今次延遲推出嘅內幕,財經媒體36氪披露,V4原定早幾個月已經上架,但有傳2025年中訓練嚴重失敗,公司內部對訓練方向有分歧,加上資金不足以支撐更大參數嘅訓練,最終要將訓練框架由NVIDIA轉移到華為昇騰(Ascend)晶片。支援文字以外的多模組輸入輸出功能,亦因算力同現金流緊絀而推遲,所以今次V4仍屬純文字模型,唔支援圖像、音訊或影片輸入輸出。
