在Ubuntu服务器部署GPT-SoVits服务端教程

Table of Contents

克隆库文件到服务器

因为我们要克隆到本地的库并不是“main”，而是“fast_inference_”分支，所以我们要运行如下的命令

git clone -b fast_inference_ https://github.com/RVC-Boss/GPT-SoVITS.git

克隆完成之后，就会在主文件夹中出现一个“GPT-SoVITS”的文件，进入到这个文件夹中，然后在该文件夹中打开一个终端

创建和激活虚拟环境

运行如下两条命令，新建一个名为“GPTSoVits”的虚拟环境，Python版本指定为3.9，然后激活该虚拟环境！

conda create -n GPTSoVits python=3.9
conda activate GPTSoVits

安装

在Ubuntu上安装非常简单，就是运行如下这一条命令！

bash install.sh

下载预训练模型

还需要分别下载下面几个预训练模型到指定的文件夹中

从 GPT-SoVITS Models 下载预训练模型，并将它们放置在 GPT_SoVITS\pretrained_models 中。

对于 UVR5（人声/伴奏分离和混响移除，附加），从 UVR5 Weights 下载模型，并将它们放置在 tools/uvr5/uvr5_weights 中。

中国地区用户可以进入以下链接并点击“下载副本”下载以上两个模型：

对于中文自动语音识别（附加），从 Damo ASR Model, Damo VAD Model, 和 Damo Punc Model 下载模型，并将它们放置在 tools/asr/models 中。

对于英语与日语自动语音识别（附加),从 Faster Whisper Large V3 下载模型，并将它们放置在 tools/asr/models 中。此外，其他模型可能具有类似效果，但占用更小的磁盘空间。

中国地区用户可以通过以下链接下载：

Faster Whisper Large V3(点击“下载副本”)
Faster Whisper Large V3(Hugging Face镜像站)

启动服务端

这时候安装基本上就完成了，可以通过运行如下的命令来启动一个api的服务端

python api_v3.py

不过这时候如果我们在客户端调用该api的话，可能会报错，因为我们还需要复制一个参考音频文件到项目的根目录

客户端调用api的方法如下：

http://127.0.0.1:9880/tts?text=先帝创业未半而中道崩殂，今天下三分，益州疲弊，此诚危急存亡之秋也。&text_lang=zh&ref_audio_path=./Keira.wav&prompt_lang=zh&prompt_text=光动嘴不如亲自做给你看,等我一下呀&text_split_method=cut5&batch_size=1&media_type=wav&streaming_mode=true

# 切换模型
http://127.0.0.1:9880/set_gpt_weights?weights_path=GPT_SoVITS/pretrained_models/s1bert25hz-2kh-longer-epoch=68e-step=50232.ckpt
http://127.0.0.1:9880/set_sovits_weights?weights_path=GPT_SoVITS/pretrained_models/s2G488k.pth

我们可以看到在调用该api的时候用到了一个“Keira.wav”的音频文件，我们需要把这个音频文件弄到根目录去！可以从下面下载这个音频文件