AI 初創公司 Resemble AI 發佈開源文本到語音模型 “Chatterbox Turbo”,僅需 5 秒音頻即可克隆人聲。
該公司稱,該模型在音質上優於 ElevenLabs 與 Cartesia,且首段音頻輸出延遲低於 150 毫秒,適用於實時智能體、客服系統、遊戲、虛擬形象及社交平台等場景。
Chatterbox Turbo 採用 MIT 許可證發佈,支持免費商用、修改與再分發。模型已在 Hugging Face、RunPod、Modal、Replicate 和 Fal 上線,完整代碼託管於 GitHub。
https://huggingface.co/ResembleAI/chatterbox-turbo
https://github.com/resemble-ai/chatterbox
Resemble AI 同時提供託管服務,並計劃推出低延遲版本。模型內置 “PerTh” 水印,便於監管行業驗證語音是否由 AI 生成。