Spaces:

Luigi
/

Whisper-vs-Sensevoice-Small

Runtime error

Luigi commited on May 29

Commit

cd4de4c

1 Parent(s): 1a23ac4

faster-whisper improvement: 1. load wav to mem. to speedup 2. show diarization progression

Files changed (2) hide show

app.py CHANGED Viewed

@@ -15,6 +15,8 @@ from funasr.utils.postprocess_utils import rich_transcription_postprocess
 from termcolor import cprint
 import time
 # —————— Model Lists ——————
 WHISPER_MODELS = [
@@ -159,11 +161,11 @@ def _transcribe_fwhisper_cpu(model_id, language, audio_path, enable_diar):
     # Diarization-only branch
     if enable_diar:
         diarizer = get_diarization_pipe()
         diarizer.to(torch.device('cpu'))
-        diary_starttime=time.time()
-        diary = diarizer(audio_path)
-        diary_endtime=time.time()
-        cprint(f'[_transcribe_fwhisper_cpu] Time spent in CPU diarization: {diary_endtime - diary_starttime} seconds', 'yellow')
         snippets = []
         for turn, _, speaker in diary.itertracks(yield_label=True):
             start_ms = int(turn.start * 1000)
@@ -190,10 +192,11 @@ def _transcribe_fwhisper_gpu(model_id, language, audio_path, enable_diar):
     if enable_diar:
         diarizer = get_diarization_pipe()
         diarizer.to(torch.device('cuda'))
-        diary_starttime=time.time()
-        diary = diarizer(audio_path)
-        diary_endtime=time.time()
-        cprint(f'[_transcribe_fwhisper_gpu] Time spent in CUDA diarization: {diary_endtime - diary_starttime} seconds', 'yellow')
         snippets = []
         for turn, _, speaker in diary.itertracks(yield_label=True):
             start_ms = int(turn.start * 1000)

 from termcolor import cprint
 import time
+import torchaudio
+from pyannote.audio.pipelines.utils.hook import ProgressHook
 # —————— Model Lists ——————
 WHISPER_MODELS = [
     # Diarization-only branch
     if enable_diar:
         diarizer = get_diarization_pipe()
+        # Pre-loading audio files in memory may result in faster processing
+        waveform, sample_rate = torchaudio.load(audio_path)
         diarizer.to(torch.device('cpu'))
+        with ProgressHook() as hook:
+            diary = diarizer({"waveform": waveform, "sample_rate": sample_rate}, hook=hook)
         snippets = []
         for turn, _, speaker in diary.itertracks(yield_label=True):
             start_ms = int(turn.start * 1000)
     if enable_diar:
         diarizer = get_diarization_pipe()
         diarizer.to(torch.device('cuda'))
+        # Pre-loading audio files in memory may result in faster processing
+        waveform, sample_rate = torchaudio.load(audio_path)
+        waveform.to(torch.device('cuda'))
+        with ProgressHook() as hook:
+            diary = diarizer({"waveform": waveform, "sample_rate": sample_rate}, hook=hook)
         snippets = []
         for turn, _, speaker in diary.itertracks(yield_label=True):
             start_ms = int(turn.start * 1000)

requirements.txt CHANGED Viewed

@@ -3,6 +3,7 @@ gradio>=3.39.0
 # Core ASR
 torch>=2.0.0
 transformers>=4.35.0
 # FunASR SenseVoice

 # Core ASR
 torch>=2.0.0
+torchaudio
 transformers>=4.35.0
 # FunASR SenseVoice