batch prediction, adding post processing

tim-roethig-db · May 25, 2024 · dde7f80 · dde7f80
1 parent 52077fe
commit dde7f80
Show file tree

Hide file tree

Showing 3 changed files with 3 additions and 22 deletions.
diff --git a/amondin/main.py b/amondin/main.py
@@ -67,26 +67,9 @@ def transcribe(
     for i, segment in enumerate(segments):
         del segment["audio"]
         segment["text"] = transcript[i]
-    print(segments)
+
     transcript = pd.DataFrame(segments)
-    """
-    transcript = []
-    for i, speaker_section in enumerate(speaker_segments):
-        print(f"Transcribing part {i+1} of {len(speaker_segments)}")
-        text = speech2text(
-            speaker_section["audio"],
-            model_name=s2t_model,
-            language=language,
-            device=device
-        )
 
-        transcript.append(
-            [speaker_section["speaker"], speaker_section["time_stamp"], text]
-        )
-    
-    # Store transcript in pandas Data Frame
-    transcript = pd.DataFrame(data=transcript, columns=["speaker", "time_stamp", "text"])
-    """
     # save transcript
     print(transcript.to_markdown(index=False))
     if output_file_path.endswith(".csv"):

diff --git a/amondin/segment_speakers.py b/amondin/segment_speakers.py
@@ -71,7 +71,6 @@ def segment_speakers(
                     "sampling_rate": sample_rate,
                 },
             }
-            print(segment)
 
             speaker_segments.append(segment)
 

diff --git a/amondin/speech2text.py b/amondin/speech2text.py
@@ -7,11 +7,11 @@
 
 
 def speech2text(
-        audio: dict,
+        audio: list[dict],
         device: str,
         model_name: str,
         language: str
-) -> str:
+) -> list[str]:
     """
     Translate audio to text
     :param device: Device to run the model on [cpu, cuda or cuda:x]
@@ -54,4 +54,3 @@ def speech2text(
 
     # return sting in list
     return [result["text"] for result in results]
-    return results["text"]