Spaces:

harismlnaslm
/

Textilindo-AI

Sleeping

App Files Files Community

harismlnaslm commited on Oct 27

Commit

b35c210

1 Parent(s): 77cde9a

Fix 404 error: Switch from Llama 3.1 8B to DialoGPT-medium (available on HF API)

Browse files

Files changed (1) hide show

app.py +25 -37

app.py CHANGED Viewed

@@ -332,8 +332,8 @@ class TextilindoAI:
     def __init__(self):
         self.api_key = os.getenv('HUGGINGFAC_API_KEY_2')
-        # Use Meta Llama model with your API key
-        self.model = os.getenv('DEFAULT_MODEL', 'meta-llama/Llama-3.1-8B-Instruct')
         self.system_prompt = self.load_system_prompt()
         self.data_loader = TrainingDataLoader()
@@ -489,9 +489,9 @@ Minimum purchase is 1 roll (67-70 yards)."""
             return self.get_fallback_response(user_message)
         try:
-            # Use Llama conversation format
-            if "llama" in self.model.lower():
-                prompt = f"<|system|>\n{self.system_prompt}\n<|user|>\n{user_message}\n<|assistant|>\n"
             else:
                 # Fallback to GPT-2 format for other models
                 prompt = f"User: {user_message}\nAssistant:"
@@ -501,17 +501,17 @@ Minimum purchase is 1 roll (67-70 yards)."""
             logger.info(f"Generating response for prompt: {prompt[:100]}...")
-            # Generate response with Llama-optimized parameters
-            if "llama" in self.model.lower():
                 response = self.client.text_generation(
                     prompt,
-                    max_new_tokens=200,
-                    temperature=0.7,
                     top_p=0.9,
-                    top_k=40,
                     repetition_penalty=1.1,
                     do_sample=True,
-                    stop_sequences=["<|end|>", "<|user|>", "\n\n"]
                 )
             else:
                 # GPT-2 parameters for other models
@@ -529,15 +529,15 @@ Minimum purchase is 1 roll (67-70 yards)."""
             logger.info(f"Raw AI response: {response[:200]}...")
             # Clean up the response based on model type
-            if "llama" in self.model.lower():
-                # Clean up Llama response
-                if "<|assistant|>" in response:
-                    assistant_response = response.split("<|assistant|>")[-1].strip()
                 else:
                     assistant_response = response.strip()
-                # Remove any remaining special tokens
-                assistant_response = assistant_response.replace("<|end|>", "").replace("<|user|>", "").replace("<|system|>", "").strip()
             else:
                 # Clean up GPT-2 response
                 if "Assistant:" in response:
@@ -545,8 +545,8 @@ Minimum purchase is 1 roll (67-70 yards)."""
                 else:
                     assistant_response = response.strip()
-                # Remove any remaining special tokens
-                assistant_response = assistant_response.replace("<|end|>", "").replace("<|user|>", "").strip()
             # Remove any incomplete sentences or cut-off text
             if assistant_response.endswith(('.', '!', '?')):
@@ -1036,21 +1036,15 @@ async def get_available_models():
         "success": True,
         "models": [
             {
-                "name": "meta-llama/Llama-3.1-8B-Instruct",
-                "description": "Llama 3.1 8B Instruct - High performance, best quality",
-                "size": "8B parameters",
                 "recommended": True
             },
             {
-                "name": "meta-llama/Llama-3.2-1B-Instruct",
-                "description": "Llama 3.2 1B Instruct - Fast and efficient",
-                "size": "1B parameters",
-                "recommended": True
-            },
-            {
-                "name": "meta-llama/Llama-3.2-3B-Instruct",
-                "description": "Llama 3.2 3B Instruct - Balanced performance",
-                "size": "3B parameters",
                 "recommended": True
             },
             {
@@ -1064,12 +1058,6 @@ async def get_available_models():
                 "description": "DistilGPT-2 - Even smaller and faster",
                 "size": "82M parameters",
                 "recommended": False
-            },
-            {
-                "name": "microsoft/DialoGPT-small",
-                "description": "DialoGPT Small - Conversational AI",
-                "size": "117M parameters",
-                "recommended": False
             }
         ]
     }

     def __init__(self):
         self.api_key = os.getenv('HUGGINGFAC_API_KEY_2')
+        # Use available model with your API key
+        self.model = os.getenv('DEFAULT_MODEL', 'microsoft/DialoGPT-medium')
         self.system_prompt = self.load_system_prompt()
         self.data_loader = TrainingDataLoader()
             return self.get_fallback_response(user_message)
         try:
+            # Use DialoGPT conversation format
+            if "dialogpt" in self.model.lower():
+                prompt = f"User: {user_message}\nAssistant:"
             else:
                 # Fallback to GPT-2 format for other models
                 prompt = f"User: {user_message}\nAssistant:"
             logger.info(f"Generating response for prompt: {prompt[:100]}...")
+            # Generate response with DialoGPT-optimized parameters
+            if "dialogpt" in self.model.lower():
                 response = self.client.text_generation(
                     prompt,
+                    max_new_tokens=150,
+                    temperature=0.8,
                     top_p=0.9,
+                    top_k=50,
                     repetition_penalty=1.1,
                     do_sample=True,
+                    stop_sequences=["User:", "Assistant:", "\n\n"]
                 )
             else:
                 # GPT-2 parameters for other models
             logger.info(f"Raw AI response: {response[:200]}...")
             # Clean up the response based on model type
+            if "dialogpt" in self.model.lower():
+                # Clean up DialoGPT response
+                if "Assistant:" in response:
+                    assistant_response = response.split("Assistant:")[-1].strip()
                 else:
                     assistant_response = response.strip()
+                # Remove any remaining conversation markers
+                assistant_response = assistant_response.replace("User:", "").replace("Assistant:", "").strip()
             else:
                 # Clean up GPT-2 response
                 if "Assistant:" in response:
                 else:
                     assistant_response = response.strip()
+                # Remove any remaining conversation markers
+                assistant_response = assistant_response.replace("User:", "").replace("Assistant:", "").strip()
             # Remove any incomplete sentences or cut-off text
             if assistant_response.endswith(('.', '!', '?')):
         "success": True,
         "models": [
             {
+                "name": "microsoft/DialoGPT-medium",
+                "description": "DialoGPT Medium - Best conversational AI (Recommended)",
+                "size": "345M parameters",
                 "recommended": True
             },
             {
+                "name": "microsoft/DialoGPT-small",
+                "description": "DialoGPT Small - Fast conversational AI",
+                "size": "117M parameters",
                 "recommended": True
             },
             {
                 "description": "DistilGPT-2 - Even smaller and faster",
                 "size": "82M parameters",
                 "recommended": False
             }
         ]
     }