OpenAI 正在大幅強化音頻人工智能模型研發,目標是為未來推出的語音優先 AI 設備做好技術準備。根據《The Information》的報道,過去兩個月內,OpenAI 已將多個工程、產品及研究團隊整合統一,集中攻關音頻交互技術,以提升語音 AI 模型的對話表現和響應能力。整個產品生態將聚焦純音頻交互,由 Sam Altman 與 Jony Ive 團隊主導開發。
據知情人士透露,OpenAI 內部認為目前用於語音對話的音頻模型在準確性與響應速度上仍落後於文本模型,因此加速推進架構升級,新一代模型計劃在 2026 年第一季度發佈。新模型將具備更自然、富有感情的語音輸出能力,並能更好地處理對話中的實時打斷與交互場景。
這次音頻技術升級不僅是為了改善現有語音體驗,更與 OpenAI 即將發佈的語音優先個人設備密切相關。報道指出,該設備預計將在約一年後推向市場,並可能不只是一款產品,而是一個設備系列,例如無屏智能眼鏡、屏幕極簡的語音助手等形態。這些設備的設計旨在減少對屏幕的依賴,通過自然語音交流來提升用户體驗。
此外,新音頻模型預計能夠在對話時支持“邊聽邊説”功能——即在用户尚未説完時就開始響應,從而實現更流暢的實時交互體驗,這在現有大多數語音 AI 中尚不常見。
綜合這些動向,OpenAI 正加速向一個“以語音為核心接口”的未來邁進,這既是自身產品發展的戰略調整,也是科技行業對屏幕交互模式可能轉變的響應。