【2024年5月20日訊】
GPT-4o中文詞庫遭充斥色情賭博字詞,研究指OpenAI在資料清理上存在疏忽。
ChatGPT
根據普林斯頓大學博士生蔡天樂(Tianle Cai)的觀察,OpenAI於本月13日推出的GPT-4o在解析和壓縮中文提示時存在使用不當的分詞問題,導致充斥著垃圾郵件和色情詞彙。
蔡天樂檢視GPT-4o公開分詞庫,並列出模型解析中文的100個最長分詞,其中只有三個常用於日常對話,其餘的均與賭博或色情語境相關。最長分詞指的是「免費日本色情影片觀看」。
蔡天樂指出,問題顯然出在訓練分詞器的語料庫上,英文的分詞沒有問題,但中文的分詞存在問題,OpenAI可能未適當清理中文資料。
卡內基梅隆大學博士生耿正陽(Zhengyang Geng)稱,GPT-3.5和舊版的GPT-4的分詞器在中文分詞方面沒有此問題,最長的中文分詞是「生命週期」或「自動生成」等常用詞。
前Google搜尋團隊成員、門羅創投的AI投資者Deedy Das指出,垃圾內容普遍存在是已知的問題,修復並不困難。Das認為OpenAI可能在釋出GPT-4o之前未清理中文資料集或分詞。
《麻省理工科技評論》引述專家指出,解決這個問題並不難,但汙染的分詞和模型若在未來疊代中被繼承,情況或會轉趨複雜。報道亦提及,目前尚無法測試GPT-4的影片音訊功能是否受這些中文分詞問題影響。
※ 本文由萌芽機器人自動轉貼自維基新聞,並有透過程式將可能的簡體中文自動轉換為台灣正體中文,新聞內容僅供參考,若有任何錯誤之處還請見諒!
關於維基新聞:他們是一群志願者,使命是建立一個高品質,更新迅速,內容公正準確,且具有新聞價值的網站。所有在維基新聞網站內的內容都在自由版權許可下發布。這使得他們的內容能夠被自由的重新發佈與使用,並希望對全球數位資訊共享做出貢獻。