【環球網科技綜合報道】3月21日消息,美國開放人工智能研究中心(OpenAI)近日宣佈對其應用程序編程接口(API)進行重大更新,正式引入新一代語音合成與轉錄模型。
據官方披露,核心升級產品gpt-4o-mini-tts不僅實現了語音生成擬真度的跨越式提升,更首次支持開發者通過自然語言指令實時調控音色、語調與情感表達。
區別於傳統參數調節模式,新模型允許開發者以"用興奮的語調朗讀"、"模仿青年播音員聲線"等日常語言下達指令,系統即可動態調整聲紋特徵。OpenAI技術團隊演示顯示,該模型能精準解析"略帶沙啞的科幻旁白"等抽象描述,並在0.3秒內生成匹配音頻,較此前版本響應速度提升40%。
官方文檔顯示,gpt-4o-mini-tts支持48kHz採樣率與神經聲碼器技術,信噪比指標較行業平均水平優化18分貝,可服務於有聲書錄制、影視配音等高端場景。
OpenAI透露,此次升級得益於自研的"聲紋解耦"算法,使音色特徵與語義理解模塊實現分離訓練。開發者既可單獨微調音色庫,也可結合語言模型定製行業專用語音助手。(青山)