OpenAI於數小時前推出新一代圖像生成模型ChatGPT Images 2.0,API模型名為gpt-image-2。今次升級對非英文用戶最吸引之處,是非英文文字生成能力明顯改善,中文、日文、韓文、印地文和孟加拉文都可以直接寫入圖像,輸出解像度最高達2K。而且,本站記者實測下,發覺中文生成細緻度大幅提高(上圖)。過往雖然已可生成中文,但不時都會出現細位唔清楚的情況,難免會被人一睇就知係AI,今次ChatGPT Images 2.0明顯有大改進。
新模型加入thinking模式。用戶只要提供一個prompt,模型可以一次過生成最多8張風格一致的圖像,並且在推理過程中搜尋網上即時資訊,再自行檢查輸出結果。OpenAI稱今次升級令模型可以處理更複雜的視覺任務,例如需要跨圖保持角色或品牌視覺一致的場景。
構圖控制方面,Images 2.0支援由3:1超闊橫額到1:3超高直度畫面,覆蓋橫額廣告、簡報投影片以至手機全螢幕等格式。OpenAI表示新模型對指令理解更準確,可以將多個物件按指定位置排列,亦可以在圖像中生成相當密集文字。
所有ChatGPT和Codex用戶,就算係免費用戶,由即日起都可以用到,但thinking模式的進階輸出只開放予Plus、Pro、Business和Enterprise付費用戶使用。
