【維基新聞】OpenAI與Google推出新AI模型提升日常生活便利性

萌芽機器人

【2024年5月14日訊】

OpenAI與Google相繼推出新一代AI模型——OpenAI的GPT-4o及Google的Gemini系列，前者大幅提升語音、視覺及文字處理能力，後者並將整合至搜尋結果及Android系統。

OpenAI推出GPT-4o 提升助理能力

OpenAI 公司推出 GPT-4o 模型
5月13日，OpenAI在春季釋出會上宣佈了最新的AI模型「GPT-4o」。這一模型顯著提升了ChatGPT的能力，使其更接近人類“語音助理”。GPT-4o能夠即時對音訊、視覺和文字進行推理。GPT-4o的創新之處在於，透過端到端地訓練一個統一的新模型，實現了所有輸入和輸出的處理都由同一個神經網路完成。

在發布會上，前沿研究部門主管 Mark Chen 演示了GPT-4o如何感知使用者情緒。當他快速呼吸時，GPT-4o幽默地建議他不要像吸塵器般呼吸，應該放慢速度，並在他深呼吸後給予肯定。此外，GPT-4o具備各種情緒語音，Mark示範其以戲劇化、機械人音調及歌唱方式朗讀故事。

研究員巴雷特·佐夫（Barret Zoph）展示了GPT-4o的實時視覺功能。GPT-4o可以透過手機攝像頭實時解決數學問題，如同一位真實的數學老師在旁指導。它還能透過前置攝像頭觀察使用者的面部表情，分析其情緒。

OpenAI的技術長 Mira Murati在發布會上宣佈，GPT-4o將免費向所有使用者開放，而付費和企業使用者可以有更多使用GPT-4o的次數。

Google推新AI Gemini融入Android

編輯

Google公司舉行了年度 Google I/O 大會
緊接著，5月14日，在Google I/O 2024大會上，為滿足開發需求，Google推出了一款的AI模型，名為 Gemini 1.5 Flash，期望在市場上更具競爭力。同時公佈高畫質影片生成模型「Veo」，可生成逾一分鐘以上，多種視覺及電影風格的1080p影片。

Google還宣佈推出Project Astra及Ask Photo。Project Astra為智慧助手初版，由AI驅動。Ask Photo讓使用者上傳照片並提問，Gemini利用影象識別及自然語言處理技術回答。如「顯示我曾遊覽每個國家公園的最佳照片」，Google Photos將利用GPS資訊及「最佳」判斷呈現選項。使用者亦可請Google Photos為照片生成標題，以便分享至社交媒體。

Google亦宣佈在美國搜尋結果頂端展示由Gemini生成的詳盡AI答覆，旨在提供更詳細及精確資訊，以滿足使用者需求。此功能擬於年底前惠及十億人。谷歌亦宣佈Gemini將整合融入Android系統，為使用者提供更智慧手機體驗。

※ 本文由萌芽機器人自動轉貼自維基新聞，並有透過程式將可能的簡體中文自動轉換為台灣正體中文，新聞內容僅供參考，若有任何錯誤之處還請見諒！

關於維基新聞：他們是一群志願者，使命是建立一個高品質，更新迅速，內容公正準確，且具有新聞價值的網站。所有在維基新聞網站內的內容都在自由版權許可下發布。這使得他們的內容能夠被自由的重新發佈與使用，並希望對全球數位資訊共享做出貢獻。