博客 / 詳情

返回

OpenBayes 教程上新丨CSM 駕到,統統閃開!更鮮活的語音生成,從此告別延遲呆板機械味

與 AI 語音助手聊天時,總感覺哪裏怪怪的。它們對問題應答自如,可就是少了點「人味」。語調呆板、停頓突兀,時不時還在莫名其妙的地方卡頓,這種似人非人的違和感,其實就是「恐怖谷效應」在作祟。當 AI 語音與人類語音相似度頗高卻又未達到完美一致時,用户便會感到不適。

近期,由 Sesame 團隊推出的語音生成模型 CSM (Conversational Speech Model) 在眾多語音模型中脱穎而出。該模型採用 Llama 主幹架構和輕量級音頻解碼器,結合端到端 Transformer 框架,能夠根據文本和音頻輸入生成 RVQ 音頻代碼,進而輸出流暢自然、飽含情感的語音, 打造出可以帶給用户情感需求的語音助手。

相比傳統 AI 語音生成模型,CSM 的功能遠不止是簡單的生成音頻:

*更強的情感理解能力: 能夠深入剖析語境,並靈活的調整語氣、聲調。

*更自然的對話節奏: 對停頓、強調、打斷等細節進行精細優化,讓交談更流暢。

*幾乎零延遲的體驗: 高效的推理架構,讓語音生成更接近實時,提升交互效率。

「CSM 對話語音生成模型 Demo」教程現已上線至 OpenBayes 公共教程板塊,快來一探究竟!

教程地址

https://go.openbayes.com/iYjtf

Demo 運行

01 運行步驟

  1. 登錄 http://OpenBayes.com,在「公共教程」頁面,選擇「CSM 雙人對話語音生成 Demo」。

  1. 頁面跳轉後,點擊右上角「克隆」,將該教程克隆至自己的容器中。

3.選擇「NVIDIA RTX 4090」以及「PyTorch」鏡像,點擊「繼續執行」。

OpenBayes 提供了 4 種計費方式,大家可以按照需求選擇「按量付費」或「包日/周/月」,新用户使用下方邀請鏈接註冊,可獲得 4 小時 RTX 4090 + 5 小時 CPU 的免費時長!

小貝總專屬邀請鏈接(直接複製到瀏覽器打開):

https://go.openbayes.com/9S6Dr

  1. 等待分配資源,首次克隆需等待約 2 分鐘左右的時間。當狀態變為「運行中」後,點擊「API 地址」旁邊的跳轉箭頭,即可跳轉至 Demo 頁面。由於模型較大,需等待約 3 分鐘顯示 WebUI 界面,否則將顯示「Bad Gateway」。請注意,用户需在實名認證後才能使用 API 地址訪問功能。

02 效果展示

選擇或上傳個人音頻,輸入對話內容,點擊「Generate conversation」即可生成對話。

*默認情況下,將由 Speaker A 開啓首輪發言,隨後 Speaker A 與 Speaker B 交替進行對話交流(目前僅支持英文內容生成)。

新用户福利

註冊福利: 點擊下方邀請鏈接註冊,即可獲得 4 小時 RTX 4090 + 5 小時 CPU 的免費算力時長,永久有效!

小貝總專屬邀請鏈接(直接複製到瀏覽器打開):

https://go.openbayes.com/9S6Dr

user avatar u_17349038 頭像 haoqingwanqiandehongcha 頭像 nocobase 頭像 juicefs 頭像
4 位用戶收藏了這個故事!

發佈 評論

Some HTML is okay.