Spaces:

TiberiuCristianLeon
/

TranslateGradio

Running

App Files Files

TiberiuCristianLeon commited on 23 days ago

Commit

0e657e3

verified ·

1 Parent(s): ad52b14

Update app.py

Browse files

Files changed (1) hide show

app.py +33 -6

app.py CHANGED Viewed

@@ -15,6 +15,7 @@ non_empty_isos = df.slice(1).filter(pl.col("ISO639-1") != "").rows()
 all_langs = {iso[0]: (iso[1], iso[2], iso[3]) for iso in non_empty_isos} # {'Romanian': ('ro', 'rum', 'ron')}
 # iso1_to_name = {codes[0]: lang for entry in all_langs for lang, codes in entry.items()} # {'ro': 'Romanian', 'de': 'German'}
 iso1_to_name = {iso[1]: iso[0] for iso in non_empty_isos} # {'ro': 'Romanian', 'de': 'German'}
 langs = list(favourite_langs.keys())
 langs.extend(list(all_langs.keys())) # Language options as list, add favourite languages first
@@ -24,14 +25,15 @@ models = ["Helsinki-NLP", "QUICKMT", "Argos", "Google", "HPLT", "HPLT-OPUS",
           "Helsinki-NLP/opus-mt-tc-bible-big-roa-deu_eng_fra_por_spa", "Helsinki-NLP/opus-mt-tc-bible-big-deu_eng_fra_por_spa-roa", "Helsinki-NLP/opus-mt-tc-bible-big-roa-en",
           "facebook/nllb-200-distilled-600M", "facebook/nllb-200-distilled-1.3B", "facebook/nllb-200-1.3B", "facebook/nllb-200-3.3B",
           "facebook/mbart-large-50-many-to-many-mmt", "facebook/mbart-large-50-one-to-many-mmt", "facebook/mbart-large-50-many-to-one-mmt",
-          "facebook/m2m100_418M", "facebook/m2m100_1.2B", "alirezamsh/small100", "Lego-MT/Lego-MT",
           "bigscience/mt0-small", "bigscience/mt0-base", "bigscience/mt0-large", "bigscience/mt0-xl",
           "bigscience/bloomz-560m", "bigscience/bloomz-1b1", "bigscience/bloomz-1b7", "bigscience/bloomz-3b",
           "google-t5/t5-small", "google-t5/t5-base", "google-t5/t5-large",
           "google/flan-t5-small", "google/flan-t5-base", "google/flan-t5-large", "google/flan-t5-xl",
           "google/madlad400-3b-mt", "jbochi/madlad400-3b-mt",
           "NiuTrans/LMT-60-0.6B", "NiuTrans/LMT-60-1.7B", "NiuTrans/LMT-60-4B",
-          "HuggingFaceTB/SmolLM3-3B", "winninghealth/WiNGPT-Babel-2",
           "utter-project/EuroLLM-1.7B", "utter-project/EuroLLM-1.7B-Instruct",
           "Unbabel/Tower-Plus-2B", "Unbabel/TowerInstruct-7B-v0.2", "Unbabel/TowerInstruct-Mistral-7B-v0.2"
           ]
@@ -243,10 +245,9 @@ class Translators:
     def HelsinkiNLP_mulroa(self):
         try:
             pipe = pipeline("translation", model=self.model_name, device=self.device)
-            iso1to3 = {iso[1]: iso[3] for iso in non_empty_isos} # {'ro': 'ron'}
-            iso3tl = iso1to3.get(self.tl) # 'deu', 'ron', 'eng', 'fra'
-            translation = pipe(f'>>{iso3tl}<< {self.input_text}')
-            return translation[0]['translation_text'], f'Translated from {iso1_to_name[self.sl]} to {iso1_to_name[self.tl]} with {self.model_name}.'
         except Exception as error:
             return f"Error translating with model: {self.model_name}! Try other available language combination.", error
@@ -398,6 +399,26 @@ class Translators:
         translator = pipeline('translation', model=model, tokenizer=tokenizer, src_lang=self.sl, tgt_lang=self.tl)
         translated_text = translator(self.input_text, max_length=512)
         return translated_text[0]['translation_text']
     def wingpt(self):
         model = AutoModelForCausalLM.from_pretrained(
@@ -585,6 +606,12 @@ def translate_text(input_text: str, s_language: str, t_language: str, model_name
         elif model_name == "facebook/mbart-large-50-many-to-one-mmt":
             translated_text = Translators(model_name, s_language, t_language, input_text).mbart_many_to_one()
         elif model_name == "utter-project/EuroLLM-1.7B-Instruct":
             translated_text = Translators(model_name, s_language, t_language, input_text).eurollm_instruct()

 all_langs = {iso[0]: (iso[1], iso[2], iso[3]) for iso in non_empty_isos} # {'Romanian': ('ro', 'rum', 'ron')}
 # iso1_to_name = {codes[0]: lang for entry in all_langs for lang, codes in entry.items()} # {'ro': 'Romanian', 'de': 'German'}
 iso1_to_name = {iso[1]: iso[0] for iso in non_empty_isos} # {'ro': 'Romanian', 'de': 'German'}
+iso1toall = {iso[1]: (iso[0], iso[2], iso[3] for iso in non_empty_isos} # {'ro': ('Romanian', 'rum', 'ron')}
 langs = list(favourite_langs.keys())
 langs.extend(list(all_langs.keys())) # Language options as list, add favourite languages first
           "Helsinki-NLP/opus-mt-tc-bible-big-roa-deu_eng_fra_por_spa", "Helsinki-NLP/opus-mt-tc-bible-big-deu_eng_fra_por_spa-roa", "Helsinki-NLP/opus-mt-tc-bible-big-roa-en",
           "facebook/nllb-200-distilled-600M", "facebook/nllb-200-distilled-1.3B", "facebook/nllb-200-1.3B", "facebook/nllb-200-3.3B",
           "facebook/mbart-large-50-many-to-many-mmt", "facebook/mbart-large-50-one-to-many-mmt", "facebook/mbart-large-50-many-to-one-mmt",
+          "facebook/m2m100_418M", "facebook/m2m100_1.2B", "alirezamsh/small100",
+          "facebook/hf-seamless-m4t-medium", "facebook/seamless-m4t-large", "facebook/seamless-m4t-v2-large",
           "bigscience/mt0-small", "bigscience/mt0-base", "bigscience/mt0-large", "bigscience/mt0-xl",
           "bigscience/bloomz-560m", "bigscience/bloomz-1b1", "bigscience/bloomz-1b7", "bigscience/bloomz-3b",
           "google-t5/t5-small", "google-t5/t5-base", "google-t5/t5-large",
           "google/flan-t5-small", "google/flan-t5-base", "google/flan-t5-large", "google/flan-t5-xl",
           "google/madlad400-3b-mt", "jbochi/madlad400-3b-mt",
           "NiuTrans/LMT-60-0.6B", "NiuTrans/LMT-60-1.7B", "NiuTrans/LMT-60-4B",
+          "Lego-MT/Lego-MT", "HuggingFaceTB/SmolLM3-3B", "winninghealth/WiNGPT-Babel-2",
           "utter-project/EuroLLM-1.7B", "utter-project/EuroLLM-1.7B-Instruct",
           "Unbabel/Tower-Plus-2B", "Unbabel/TowerInstruct-7B-v0.2", "Unbabel/TowerInstruct-Mistral-7B-v0.2"
           ]
     def HelsinkiNLP_mulroa(self):
         try:
             pipe = pipeline("translation", model=self.model_name, device=self.device)
+            tgt_lang = iso1toall.get(self.tl)[2] # 'deu', 'ron', 'eng', 'fra'
+            translation = pipe(f'>>{tgt_lang}<< {self.input_text}')
+            return translation[0]['translation_text'], f'Translated from {iso1toall[self.sl][0]} to {iso1toall[self.tl][0]} with {self.model_name}.'
         except Exception as error:
             return f"Error translating with model: {self.model_name}! Try other available language combination.", error
         translator = pipeline('translation', model=model, tokenizer=tokenizer, src_lang=self.sl, tgt_lang=self.tl)
         translated_text = translator(self.input_text, max_length=512)
         return translated_text[0]['translation_text']
+    def seamlessm4t1(self):
+        from transformers import AutoProcessor, SeamlessM4TModel
+        processor = AutoProcessor.from_pretrained(self.model)
+        model = SeamlessM4TModel.from_pretrained(self.model)
+        src_lang = iso1toall.get(self.sl)[2] # 'deu', 'ron', 'eng', 'fra'
+        tgt_lang = iso1toall.get(self.tl)[2]
+        text_inputs = processor(text = self.input_text, src_lang=src_lang, return_tensors="pt")
+        output_tokens = model.generate(**text_inputs, tgt_lang=tgt_lang, generate_speech=False)
+        return processor.decode(output_tokens[0].tolist()[0], skip_special_tokens=True)
+    def seamlessm4t2(self):
+        from transformers import AutoProcessor, SeamlessM4Tv2ForTextToText
+        processor = AutoProcessor.from_pretrained(self.model)
+        model = SeamlessM4Tv2ForTextToText.from_pretrained(self.model)
+        src_lang = iso1toall.get(self.sl)[2] # 'deu', 'ron', 'eng', 'fra'
+        tgt_lang = iso1toall.get(self.tl)[2]
+        text_inputs = processor(text=self.input_text, src_lang=src_lang, return_tensors="pt")
+        decoder_input_ids = model.generate(**text_inputs, tgt_lang=tgt_lang)[0].tolist()
+        return processor.decode(decoder_input_ids, skip_special_tokens=True)
     def wingpt(self):
         model = AutoModelForCausalLM.from_pretrained(
         elif model_name == "facebook/mbart-large-50-many-to-one-mmt":
             translated_text = Translators(model_name, s_language, t_language, input_text).mbart_many_to_one()
+        elif model_name ==  "facebook/seamless-m4t-v2-large":
+            translated_text = Translators(model_name, s_language, t_language, input_text).seamlessm4t2()
+        elif "m4t-medium" in model_name or "m4t-large" in model_name:
+            translated_text = Translators(model_name, s_language, t_language, input_text).seamlessm4t1()
         elif model_name == "utter-project/EuroLLM-1.7B-Instruct":
             translated_text = Translators(model_name, s_language, t_language, input_text).eurollm_instruct()