克隆库文件到服务器
因为我们要克隆到本地的库并不是“main”,而是“fast_inference_”分支,所以我们要运行如下的命令
git clone -b fast_inference_ https://github.com/RVC-Boss/GPT-SoVITS.git
克隆完成之后,就会在主文件夹中出现一个“GPT-SoVITS”的文件,进入到这个文件夹中,然后在该文件夹中打开一个终端
创建和激活虚拟环境
运行如下两条命令,新建一个名为“GPTSoVits”的虚拟环境,Python版本指定为3.9,然后激活该虚拟环境!
conda create -n GPTSoVits python=3.9 conda activate GPTSoVits
安装
在Ubuntu上安装非常简单,就是运行如下这一条命令!
bash install.sh
下载预训练模型
还需要分别下载下面几个预训练模型到指定的文件夹中
从 GPT-SoVITS Models 下载预训练模型,并将它们放置在 GPT_SoVITS\pretrained_models
中。
对于 UVR5(人声/伴奏分离和混响移除,附加),从 UVR5 Weights 下载模型,并将它们放置在 tools/uvr5/uvr5_weights
中。
中国地区用户可以进入以下链接并点击“下载副本”下载以上两个模型:
对于中文自动语音识别(附加),从 Damo ASR Model, Damo VAD Model, 和 Damo Punc Model 下载模型,并将它们放置在 tools/asr/models
中。
对于英语与日语自动语音识别(附加),从 Faster Whisper Large V3 下载模型,并将它们放置在 tools/asr/models
中。 此外,其他模型可能具有类似效果,但占用更小的磁盘空间。
中国地区用户可以通过以下链接下载:
-
Faster Whisper Large V3(点击“下载副本”)
-
Faster Whisper Large V3(Hugging Face镜像站)
启动服务端
这时候安装基本上就完成了,可以通过运行如下的命令来启动一个api的服务端
python api_v3.py
不过这时候如果我们在客户端调用该api的话,可能会报错,因为我们还需要复制一个参考音频文件到项目的根目录
客户端调用api的方法如下:
http://127.0.0.1:9880/tts?text=先帝创业未半而中道崩殂,今天下三分,益州疲弊,此诚危急存亡之秋也。&text_lang=zh&ref_audio_path=./Keira.wav&prompt_lang=zh&prompt_text=光动嘴不如亲自做给你看,等我一下呀&text_split_method=cut5&batch_size=1&media_type=wav&streaming_mode=true
# 切换模型
http://127.0.0.1:9880/set_gpt_weights?weights_path=GPT_SoVITS/pretrained_models/s1bert25hz-2kh-longer-epoch=68e-step=50232.ckpt
http://127.0.0.1:9880/set_sovits_weights?weights_path=GPT_SoVITS/pretrained_models/s2G488k.pth
我们可以看到在调用该api的时候用到了一个“Keira.wav”的音频文件,我们需要把这个音频文件弄到根目录去!可以从下面下载这个音频文件
原创文章,作者:朋远方,如若转载,请注明出处:https://caovan.com/zaiubuntufuwuqibushugpt-sovitsfuwuduanjiaocheng/.html