Spaces:

ASLP-lab
/

WenetSpeech-Yue-TTS

Runtime error

App Files Files Community

gz412 commited on Aug 26

Commit

bd84a81

1 Parent(s): 1a04b2a

test app.py

Browse files

Files changed (1) hide show

app.py +78 -34

app.py CHANGED Viewed

@@ -1,47 +1,91 @@
-import os
 import sys
 import torch
-import spaces
-print("===== Application Startup =====")
-# 不要强制关掉 CUDA，注释掉下面这一行
-# os.environ["CUDA_VISIBLE_DEVICES"] = "-1"
-print("gz start")
-print("Python version:", sys.version)
-print("Torch version:", torch.__version__)
-print("CUDA available:", torch.cuda.is_available())
-# 尝试分配一个 Tensor 到 GPU
-try:
-    if torch.cuda.is_available():
-        device = torch.device("cuda")
-        x = torch.rand((2, 3), device=device)
-        y = torch.mm(x, x.T)
-        print("Tensor allocated on GPU successfully:")
-        print(y)
     else:
-        print("CUDA not available, fallback to CPU")
-        x = torch.rand((2, 3))
-        y = torch.mm(x, x.T)
-        print("Tensor allocated on CPU successfully:")
-        print(y)
-except Exception as e:
-    print("ERROR during CUDA tensor allocation:", str(e))
-# ---- Gradio 测试接口 ----
-import gradio as gr
-@spaces.GPU
-def gpu_test():
-    if torch.cuda.is_available():
-        x = torch.rand((2, 3), device="cuda")
-        return f"GPU OK, tensor sum={x.sum().item()}"
-    else:
-        return "No GPU detected, using CPU"
-demo = gr.Interface(fn=gpu_test, inputs=[], outputs="text")
 demo.launch()

+import spaces
 import sys
 import torch
+import gradio as gr
+import opencc
+# 添加第三方库路径
+sys.path.append('third_party/Matcha-TTS')
+from cosyvoice.cli.cosyvoice import CosyVoice2
+from cosyvoice.utils.file_utils import load_wav
+from huggingface_hub import hf_hub_download
+# 繁简转换
+converter = opencc.OpenCC('s2t.json')
+# 加载模型
+cosyvoice_base = CosyVoice2(
+    'ASLP-lab/WSYue-TTS-Cosyvoice2',
+    load_jit=False, load_trt=False, load_vllm=False, fp16=False
+)
+print('load model 1')
+cosyvoice_zjg = CosyVoice2(
+    'ASLP-lab/WSYue-TTS-Cosyvoice2-zjg',
+    load_jit=False, load_trt=False, load_vllm=False, fp16=False
+)
+print('load model 2')
+# cosyvoice_biaobei = CosyVoice2(
+#     'pretrained_models/CosyVoice2-yue-biaobei',
+#     load_jit=False, load_trt=False, load_vllm=False, fp16=False
+# )
+@spaces.GPU
+def tts_inference(model_choice, text, prompt_audio):
+    # 选择模型和默认音频
+    if model_choice == "CosyVoice2-张悦楷粤语评书":
+        model = cosyvoice_zjg
+        prompt_audio = "asset/sg_017_090.wav"
+    elif model_choice == "CosyVoice2-精品女音":
+        model = cosyvoice_base
+        prompt_audio = "asset/F01_中立_20054.wav"
+    elif model_choice == "CosyVoice2-base":
+        model = cosyvoice_base
+        if prompt_audio is None:
+            return None, "请上传参考音频"
     else:
+        return None, "未知模型"
+    model.eval().cuda()
+    # 繁简转换
+    text = converter.convert(text)
+    prompt_speech_16k = load_wav(prompt_audio, 16000)
+    all_speech = []
+    for _, j in enumerate(
+        model.inference_instruct2(
+            text, "用粤语说这句话", prompt_speech_16k, stream=False
+        )
+    ):
+        all_speech.append(j['tts_speech'])
+    concatenated_speech = torch.cat(all_speech, dim=1)
+    audio_numpy = concatenated_speech.squeeze(0).cpu().numpy()
+    sample_rate = model.sample_rate
+    return (sample_rate, audio_numpy), f"生成成功：{text}"
+# ---- Gradio Interface ----
+demo = gr.Interface(
+    fn=tts_inference,
+    inputs=[
+        gr.Dropdown(
+            ["CosyVoice2-base", "CosyVoice2-张悦楷粤语评书"],
+            # ["CosyVoice2-base", "CosyVoice2-张悦楷粤语评书", "CosyVoice2-精品女音"],
+            label="选择模型", value="CosyVoice2-base"
+        ),
+        gr.Textbox(lines=2, label="输入文本"),
+        # gr.Audio(source="upload", type="filepath", label="上传参考音频（仅 CosyVoice2-base 必需）")
+        gr.Audio(sources=["upload"], type="filepath", label="上传参考音频（仅 CosyVoice2-base 必需）")
+    ],
+    outputs=[
+        gr.Audio(type="numpy", label="生成的语音"),
+        gr.Textbox(label="状态信息")
+    ]
+)
 demo.launch()