OpenAI發佈GPT-4o升級版 ChatGPT情感表達更貼近人類

日前,OpenAI發佈了其最新人工智能模型GPT-4o,該模型將很快爲部分ChatGPT產品提供支撐。升級後的ChatGPT能夠快速響應來自實時對話夥伴的文本、音頻和視頻輸入,同時以傳達強烈情感和個性的語調與措辭進行對話。

根據OpenAI官網的介紹,GPT-4o可以在232毫秒內響應音頻輸入,其平均反饋時間爲320毫秒,這與人類在對話中的響應時間相當接近。此前,當用戶使用語音模式與ChatGPT通話時,存在明顯的延遲,GPT-3.5平均需要2.8秒,而GPT-4的平均反饋時長則爲5.4秒。語音模式由三個專門的模型來實現:一個模型先將語音轉換爲文本,然後GPT-3.5或GPT-4處理這些文本並生成回覆,最後另一個模型將文本回復轉化爲語音。在此過程中,GPT-3.5/GPT-4無法直接處理語音的細微差別,比如語調、多個說話人的區分或背景噪聲,也無法產生笑聲、歌聲或其他情感表達。

在現場演示中,OpenAI展示了升級版語音模式的情感模仿能力,此次演示涵蓋了ChatGPT移動應用程序以及一個新的桌面應用程序。其以女性聲音回應ChatGPT這個名字時,聽起來更接近於2013年科幻電影《她》中由斯嘉麗·約翰遜配音的那種親切聲音,而非典型語音助手技術那種更爲機械和模式化的回應。

加利福尼亞大學戴維斯分校的米歇爾·科恩對此評價道,新的GPT-4o語音交互更接近人與人之間的互動。究其原因,較短的延遲時間確實是一個重要因素,但更重要的是這種語音所產生的情感表達水平。

在與OpenAI員工的一次對話中,由GPT-4o驅動的ChatGPT就對話者沉重且急促的呼吸給出建議,說“哇,慢下來,你又不是吸塵器”,並建議他進行一次呼吸練習。

新版ChatGPT還能口頭指導其對話夥伴解簡單的線性方程,對計算機代碼的功能進行解釋,以及對一張顯示夏季氣溫峯值的圖表進行解讀。在用戶的要求下,該人工智能甚至多次講述了一個虛構的睡前故事,在多種富有戲劇性的敘述方式之間切換,並以唱歌的方式結束。

OpenAI首席執行官薩姆·奧爾特曼在社交平臺X上的一篇帖子中表示,新的語音模式將在未來幾周內首先向ChatGPT Plus的付費用戶提供。

OpenAI首席技術官米拉·穆拉蒂坦言,由GPT-4o驅動的新版ChatGPT,由於其整合和解釋實時信息的方式,帶來了新的安全風險。她說,OpenAI一直在努力構建“防止濫用的措施”。

“進行無縫的多模態對話非常困難,所以這些演示令人印象深刻。”新澤西州普林斯頓大學的彼得·亨德森說,“但是,當你添加更多模態時,安全性變得更加困難和重要——可能需要一些時間來確定這種模型利用的輸入擴展可能導致的潛在安全故障模式。”

亨德森還表示,他好奇一旦ChatGPT用戶開始分享實時音頻和視頻等輸入,OpenAI的隱私條款會是什麼樣子,以及免費用戶是否可以選擇退出可能用於訓練未來OpenAI模型的數據收集。

“由於該模型似乎是在雲端託管的,如果用戶通過互聯網與模型共享桌面屏幕或持續錄製音頻或視頻,那麼對於這個特定的產品來說,這無疑會增加挑戰,尤其是在考慮是否計劃存儲和使用這些數據時。”他說。

根據科恩及其同事的研究,一個更擬人化的AI聊天機器人也代表了另一種威脅:一個可以通過語音對話假裝有同理心的機器人可能更親切和更有說服力,這增加了人們更傾向於相信這種大型語言模型可能產生的潛在不準確信息和偏見刻板印象的風險。

“這對於人們如何從大型語言模型中搜索和接收指導具有重要意義,特別是因爲它們並不總是生成準確的信息。”科恩說。



Scroll to Top