OpenAI GPT-4o 超強改良 圖片生成得到巨大的進步,並且多模態能力也大幅增強。

在 Google 發布了 Gemini 2.0 Flash (Image Generation) Experimental,在圖像生成與多模態處理令人驚嘆。OpenAI 也不甘示弱的升級GPT-4o 的重大改良,讓原本在圖像處理方面相對薄弱的 GPT 模型也成功追趕上來,甚至在某些面向上有超越 Google 的趨勢。

雖然過去 GPT 模型在圖片辨識與處理上的表現只能說是「堪用」,稱不上亮眼,但這次的 GPT-4o 更新,無論是在"圖片理解、修圖建議,甚至是生成圖片的能力"上,都有了質的飛躍。

圖片修圖

在修圖方面,GPT-4o 能夠結合圖像辨識與語言理解,提出具體且實用的修圖建議。例如提供一張照片後,它可以針對色彩、構圖、光影等面向給出專業等級的回饋,在結合其他圖像處理工具(如 Photoshop 或 Lightroom),能夠進一步協助調整參數,讓修圖更有效率。

圖片生成

GPT-4o 現在也能透過結構化的語意輸入,生成特定風格或主題的圖片,不僅能理解抽象描述,還能將這些語意轉化為具體的視覺元素。雖然目前在細節還有可提升空間,但對於創意構圖、初步視覺草圖等用途,已具備高度實用性

整體使用下來,感覺非常的棒,已經到了"可實用"在工作的等級,當然細節還是要自己補強。

官網:https://chatgpt.com/

參考:介紹 4o 影像生成 | OpenAI --- Introducing 4o Image Generation | OpenAI