Spaces:

DroolingPanda
/

teachingAssistant

Sleeping

Michael Hu commited on Oct 1

Commit

c8d736e

1 Parent(s): 520c315

perf(stt): optimize device handling and use model.generate for inference

This change improves performance by:
- Automatically detecting and using CUDA when available
- Moving inputs to the appropriate device before inference
- Using the model's built-in generate method instead of manual inference
- Loading models with proper device mapping and dtype configuration

Files changed (1) hide show

src/infrastructure/stt/parakeet_provider.py +7 -6

src/infrastructure/stt/parakeet_provider.py CHANGED Viewed

@@ -28,6 +28,7 @@ class ParakeetSTTProvider(STTProviderBase):
         self.model = None
         self.processor = None
         self.current_model_name = None
     def _perform_transcription(self, audio_path: Path, model: str) -> str:
         """
@@ -57,13 +58,11 @@ class ParakeetSTTProvider(STTProviderBase):
                 return_tensors="pt"
             )
-            # Perform inference
-            with torch.no_grad():
-                logits = self.model(inputs.input_features).logits
             # Decode the predictions
-            predicted_ids = torch.argmax(logits, dim=-1)
-            transcription = self.processor.batch_decode(predicted_ids)[0]
             logger.info("Parakeet transcription completed successfully")
             return transcription
@@ -93,8 +92,10 @@ class ParakeetSTTProvider(STTProviderBase):
             # Load processor and model
             self.processor = AutoProcessor.from_pretrained(actual_model_name)
-            self.model = AutoModelForCTC.from_pretrained(actual_model_name)
             self.current_model_name = model_name
             # Set model to evaluation mode
             self.model.eval()

         self.model = None
         self.processor = None
         self.current_model_name = None
+        self.device = "cuda" if torch.cuda.is_available() else "cpu"
     def _perform_transcription(self, audio_path: Path, model: str) -> str:
         """
                 return_tensors="pt"
             )
+            inputs.to(self.device, dtype="auto")
             # Decode the predictions
+            outputs = this.model.generate(**inputs)
+            transcription = self.processor.batch_decode(outputs)
             logger.info("Parakeet transcription completed successfully")
             return transcription
             # Load processor and model
             self.processor = AutoProcessor.from_pretrained(actual_model_name)
+            self.model = AutoModelForCTC.from_pretrained(actual_model_name, dtype="auto", device_map=self.device)
             self.current_model_name = model_name
+            logger.info(f"Parakeet processor {processor}")
+            logger.info(f"Parakeet model {model}")
             # Set model to evaluation mode
             self.model.eval()