蘋果大膽突破:全新Ferret-UI模型,重塑LLM對螢幕內容的認知!


蘋果推出專為手機UI設計的創新多模態語言模型Ferret-UI

在2024年世界開發者大會(WWDC)前夕,蘋果公司宣布了其最新科技突破:獨立開發的多模態大語言模型Ferret-UI,這是一款專門為提升對行動裝置用戶介面(UI)的理解和互動而設計的模型。

傳統的多模態語言模型(MLLM)如GPT-3,儘管在多種任務上表現卓越,但通常在與手機UI的互動方面存在限制。Ferret-UI的開發正是為了克服這一挑戰。此模型採用了創新的「任何解析度」技術,能夠處理各種屏幕比例並放大圖像細節,以增強視覺特徵的識別。

蘋果從多種基本UI任務中精心收集了訓練樣本,如圖標識別、文字搜索和小工具列表等。這些經過格式化的樣本,附有區域註釋,幫助模型精確理解和執行指令。此外,為了提升模型的推理能力,蘋果還編譯了一套高級任務的數據集,包括詳細描述、對話感知互動和功能推論。

據蘋果研究人員所述,Ferret-UI在所有基本UI任務中的表現均超過了GPT-4V和其他開源UI MLLM。這一成就不僅展示了蘋果在強化人工智慧對用戶介面的理解方面的領導地位,也為Siri提供了強大的新功能,能更有效地與應用程式互動,推動自然語言導航和應用整合。

Ferret-UI的應用潛力廣泛,不僅可作為評估UI有效性的工具,協助開發者優化應用程式,還可能為視障人士提供更好的螢幕內容總結和操作選項。此外,這種技術將使Siri能夠更深入地理解用戶的需求,如在特定時間內預訂航班,並通過應用程式自動完成複雜任務。

隨著WWDC 2024的臨近,蘋果的這一創新預計將引起廣泛關注,進一步確立其在全球技術領域的領導地位。

來源:Apple teaching an AI system to use apps; maybe for advanced Siri (9to5mac.com)