【2024年5月14日訊】
OpenAI與Google相繼推出新一代AI模型——OpenAI的GPT-4o及Google的Gemini系列,前者大幅提升語音、視覺及文字處理能力,後者並將整合至搜尋結果及Android系統。
OpenAI推出GPT-4o 提升助理能力
編輯
OpenAI 公司推出 GPT-4o 模型
5月13日,OpenAI在春季釋出會上宣佈了最新的AI模型「GPT-4o」。這一模型顯著提升了ChatGPT的能力,使其更接近人類“語音助理”。GPT-4o能夠即時對音訊、視覺和文字進行推理。GPT-4o的創新之處在於,透過端到端地訓練一個統一的新模型,實現了所有輸入和輸出的處理都由同一個神經網路完成。
在發布會上,前沿研究部門主管 Mark Chen 演示了GPT-4o如何感知使用者情緒。當他快速呼吸時,GPT-4o幽默地建議他不要像吸塵器般呼吸,應該放慢速度,並在他深呼吸後給予肯定。此外,GPT-4o具備各種情緒語音,Mark示範其以戲劇化、機械人音調及歌唱方式朗讀故事。
研究員巴雷特·佐夫(Barret Zoph)展示了GPT-4o的實時視覺功能。GPT-4o可以透過手機攝像頭實時解決數學問題,如同一位真實的數學老師在旁指導。它還能透過前置攝像頭觀察使用者的面部表情,分析其情緒。
OpenAI的技術長 Mira Murati在發布會上宣佈,GPT-4o將免費向所有使用者開放,而付費和企業使用者可以有更多使用GPT-4o的次數。
Google推新AI Gemini融入Android
編輯
Google公司舉行了年度 Google I/O 大會
緊接著,5月14日,在Google I/O 2024大會上,為滿足開發需求,Google推出了一款的AI模型,名為 Gemini 1.5 Flash,期望在市場上更具競爭力。同時公佈高畫質影片生成模型「Veo」,可生成逾一分鐘以上,多種視覺及電影風格的1080p影片。
Google還宣佈推出Project Astra及Ask Photo。Project Astra為智慧助手初版,由AI驅動。Ask Photo讓使用者上傳照片並提問,Gemini利用影象識別及自然語言處理技術回答。如「顯示我曾遊覽每個國家公園的最佳照片」,Google Photos將利用GPS資訊及「最佳」判斷呈現選項。使用者亦可請Google Photos為照片生成標題,以便分享至社交媒體。
Google亦宣佈在美國搜尋結果頂端展示由Gemini生成的詳盡AI答覆,旨在提供更詳細及精確資訊,以滿足使用者需求。此功能擬於年底前惠及十億人。谷歌亦宣佈Gemini將整合融入Android系統,為使用者提供更智慧手機體驗。
※ 本文由萌芽機器人自動轉貼自維基新聞,並有透過程式將可能的簡體中文自動轉換為台灣正體中文,新聞內容僅供參考,若有任何錯誤之處還請見諒!
關於維基新聞:他們是一群志願者,使命是建立一個高品質,更新迅速,內容公正準確,且具有新聞價值的網站。所有在維基新聞網站內的內容都在自由版權許可下發布。這使得他們的內容能夠被自由的重新發佈與使用,並希望對全球數位資訊共享做出貢獻。