Windows 11 下載安裝 CosyVoice2,一鍵啓動
1. CosyVoice2 簡介
CosyVoice2 是阿里巴巴推出的 多語言語音合成/文本轉語音(TTS)模型。
CosyVoice2 開源免費、可本地部署、離線使用。
2. 硬件要求
- 顯卡品牌:英偉達(NVIDIA)
- 顯卡顯存:≥ 4G
如何查看顯卡信息?
右擊任務欄,點擊“任務管理器”,點擊“性能”,點擊最下方的“GPU ...”,右邊“專用GPU內存”下斜槓後面的數值,即為顯存。
3. 準備工作
3.1. 下載 CosyVoice2 安裝包
下載鏈接:https://hanshuixin.org/go/222T
- 包含:
- 適用於 Windows 11 的 CosyVoice2 的安裝包(CosyVoice.zip)
- 完善過的 CosyVoice 源碼
- 一鍵安裝依賴腳本
- 一鍵安裝模型腳本
- 一鍵啓動腳本
- 附贈
- Git、Miniforge 的安裝包、安裝説明
- 孫悟空、林黛玉、三國演義旁白 的音頻和對應文本
全部文件:
└── Windows 11 下載安裝 CosyVoice2,一鍵啓動.zip
└── Windows 11 下載安裝 CosyVoice2,一鍵啓動
├── Windows 11 下載安裝 CosyVoice2,一鍵啓動.pdf
├── pdf文件
│ ├── Windows 11 安裝 Git.pdf
│ └── Windows 11 安裝 Miniforge.pdf
├── 聲音素材
│ ├── 三國演義旁白
│ │ ├── 三國演義旁白_音頻.mp3
│ │ ├── 三國演義旁白_音頻_對應文本.txt
│ │ └── 待合成文本.txt
│ ├── 孫悟空
│ │ ├── 孫悟空_音頻.mp3
│ │ ├── 孫悟空_音頻_對應文本.txt
│ │ └── 待合成文本.txt
│ └── 林黛玉
│ ├── 待合成文本.txt
│ ├── 林黛玉_音頻.mp3
│ └── 林黛玉_音頻_對應文本.txt
├── 許可證
│ ├── CosyVoice-LICENSE.txt
│ ├── git-LICENSE.txt
│ ├── miniforge-LICENSE.txt
│ └── src
│ ├── build-extra-git-sdk-1.0.8.tar.gz
│ └── git-2.51.0.windows.1.tar.gz
└── 軟件
├── CosyVoice.zip
├── Git-2.51.0-64-bit.exe
└── Miniforge3-Windows-x86_64.exe
3.2. 安裝 Git
安裝 Git 的目的是:用於獲取模型文件。
如果你已經安裝了 Git,可以跳過本節。
驗證是否安裝:
桌面右擊,點擊“在終端中打開”,將打開 PowerShell 終端,輸入以下命令:
git --version
如果輸出了版本號,則説明已安裝。如果輸出了錯誤信息,則説明未安裝。
具體安裝 Miniforge 的步驟,請找到資料中的文件:
- pdf文件/Windows 11 安裝 Git.pdf
- 軟件/Git-2.51.0-64-bit.exe
按照 .pdf 的説明進行安裝 .exe 文件、完成配置。
3.3. 安裝 Miniforge
安裝 Miniforge 的目的是:將使用其中的 mamba 創建激活虛擬環境、安裝項目的依賴。
如果你已經安裝了 Miniforge,可以跳過本節。
驗證是否安裝:
桌面右擊,點擊“在終端中打開”,將打開 PowerShell 終端,輸入以下命令:
mamba --version
如果輸出了版本號,則説明已安裝。如果輸出了錯誤信息,則説明未安裝。
具體安裝 Miniforge 的步驟,請找到資料中的文件:
- pdf文件/Windows 11 安裝 Miniforge.pdf
- 軟件/Miniforge3-Windows-x86_64.exe
按照 .pdf 的説明進行安裝 .exe 文件、完成配置。
4. 安裝 CosyVoice2
- 下載資料資料文件中的
CosyVoice.zip文件 - 解壓項目代碼: 右擊
CosyVoice.zip文件,選擇“全部解壓縮”,輸入你想要安裝的文件夾路徑,點擊“提取”,解壓完成後進入解壓後的文件夾CosyVoice。 - 安裝依賴包
在CosyVoice文件夾下,雙擊install_dependencies.bat,等待執行完畢。 - 下載模型文件
在CosyVoice文件夾下,雙擊install_model.bat,等待執行完畢。
5. 使用 CosyVoice2
在 CosyVoice 文件夾下,右擊 start_CosyVoice2.bat > 顯示更多選項 > 發送到 > 桌面快捷方式。
在桌面上找到 start_CosyVoice2.bat 的快捷方式,雙擊運行。
- 執行完畢後會 自動在默認瀏覽器中打開 CosyVoice 的 WebUI 界面
- 或者完畢後,你可以手動打開瀏覽器,訪問:
http://localhost:50000
即可打開 CosyVoice 的 WebUI 界面了。
在 CosyVoice 的 WebUI 界面中:
- 選擇推理模式:選擇“3s極速復刻”
- 上傳 prompt 音頻,即樣本音頻
- 比如資料中的:
- 聲音素材\孫悟空\孫悟空_音頻.mp3
- 聲音素材\林黛玉\林黛玉_音頻.mp3
- 聲音素材\三國演義旁白\三國演義旁白_音頻.mp3
- 填寫 prompt 文本,即樣本音頻對應的文字內容
- 比如資料中的:
- 聲音素材\孫悟空\孫悟空_音頻_對應文本.txt
- 聲音素材\林黛玉\林黛玉_音頻_對應文本.txt
- 聲音素材\三國演義旁白\三國演義旁白_音頻_對應文本.txt
- 填寫“合成文本”,即你想要生成的文字內容,即文本轉語音的文本
- 比如資料中的:
- 聲音素材\孫悟空\待合成文本.txt
- 聲音素材\林黛玉\待合成文本.txt
- 聲音素材\三國演義旁白\待合成文本.txt
- 點擊“生成音頻”
- 觀察命令行窗口,確保沒有報錯,觀察命令行中出現的進度條,等待進度條填滿
- 等待,一段時間後“合成音頻”框中就可以點擊播放音頻了,也可以點擊右上角的下載按鈕進行下載
- 首次運行時,可能出現進度條已填滿,但播放按鈕還是不能點擊的情況,可重新點擊“生成音頻”