Upload feature extractor

Files changed (2) hide show

feature_extraction_maest.py CHANGED Viewed

@@ -99,12 +99,21 @@ class MAESTFeatureExtractor(SequenceFeatureExtractor):
         self.std = std
         self.return_attention_mask = return_attention_mask
-        self.window = window_function(
             window_length=self.n_fft,
             name="hann",
-        ).tolist()
-        self.mel_fb = mel_filter_bank(
             num_frequency_bins=self.n_fft // 2 + 1,
             num_mel_filters=self.num_mel_bins,
             min_frequency=0,
@@ -112,24 +121,15 @@ class MAESTFeatureExtractor(SequenceFeatureExtractor):
             sampling_rate=self.sampling_rate,
             norm="slaney",
             mel_scale="slaney",
-        ).tolist()
-    def _extract_fbank_features(
-        self,
-        waveform: np.ndarray,
-        max_length: int,
-    ) -> np.ndarray:
-        """
-        Get mel-spectrogram features using audio_utils.
-        """
         melspec = spectrogram(
             waveform,
-            window=np.array(self.window),
             frame_length=self.n_fft,
             hop_length=self.hop_length,
             power=2,
-            mel_filters=np.array(self.mel_fb),
             min_value=1e-30,
             mel_floor=1e-30,
             pad_mode="constant",

         self.std = std
         self.return_attention_mask = return_attention_mask
+    def _extract_fbank_features(
+        self,
+        waveform: np.ndarray,
+        max_length: int,
+    ) -> np.ndarray:
+        """
+        Get mel-spectrogram features using audio_utils.
+        """
+        window = window_function(
             window_length=self.n_fft,
             name="hann",
+        )
+        mel_fb = mel_filter_bank(
             num_frequency_bins=self.n_fft // 2 + 1,
             num_mel_filters=self.num_mel_bins,
             min_frequency=0,
             sampling_rate=self.sampling_rate,
             norm="slaney",
             mel_scale="slaney",
+        )
         melspec = spectrogram(
             waveform,
+            window=window,
             frame_length=self.n_fft,
             hop_length=self.hop_length,
             power=2,
+            mel_filters=mel_fb,
             min_value=1e-30,
             mel_floor=1e-30,
             pad_mode="constant",

preprocessor_config.json CHANGED Viewed

The diff for this file is too large to render. See raw diff