Spaces:

Wplotnikow
/

TeacherChat

Sleeping

App Files Files Community

Wplotnikow commited on Aug 20

Commit

373e7a9

verified ·

1 Parent(s): 2dda242

Update app.py

Browse files

Files changed (1) hide show

app.py +17 -15

app.py CHANGED Viewed

@@ -15,6 +15,7 @@ def get_blocks_from_docx():
     blocks = []
     for p in doc.paragraphs:
         txt = p.text.strip()
         if (
             txt
             and not (len(txt) <= 3 and txt.isdigit())
@@ -29,22 +30,22 @@ def get_blocks_from_docx():
     for table in doc.tables:
         for row in table.rows:
             row_text = " | ".join(cell.text.strip() for cell in row.cells if cell.text.strip())
-            if row_text and len(row_text) > 35 and len(row_text.split()) > 3:
                 blocks.append(row_text)
     seen = set()
     uniq_blocks = []
     for b in blocks:
-        if b not in seen:
             uniq_blocks.append(b)
             seen.add(b)
     return uniq_blocks
 blocks = get_blocks_from_docx()
-if len(blocks) < 1:
     blocks = ["База знаний пуста: проверьте содержание и формат вашего .docx!"]
-vectorizer = TfidfVectorizer().fit(blocks)
 matrix = vectorizer.transform(blocks)
 tokenizer = T5Tokenizer.from_pretrained("cointegrated/rut5-base-multitask")
@@ -64,27 +65,29 @@ def rut5_answer(question, context):
     return tokenizer.decode(output_ids[0], skip_special_tokens=True)
 def ask_chatbot(question):
-    if not question.strip():
         return "Пожалуйста, введите вопрос."
     if not blocks or blocks == ["База знаний пуста: проверьте содержание и формат вашего .docx!"]:
         return "Ошибка: база знаний пуста. Проверьте .docx и перезапустите Space."
-    user_vec = vectorizer.transform([question])
     sims = cosine_similarity(user_vec, matrix)
     n_blocks = min(3, len(blocks))
-    # Корректно работают даже при len(blocks) == 1
     top_idxs = list(reversed(sims.argsort()[-n_blocks:]))
     context_blocks = []
-    for idx in top_idxs:
-        try:
-            if sims[idx] > 0.08 and len(blocks[idx].split()) > 3 and len(blocks[idx]) > 35:
                 context_blocks.append(blocks[idx])
-        except IndexError:
-            continue
     context = " ".join(context_blocks)
     if not context:
-        return "Не найден релевантный фрагмент в документе. Попробуйте иначе сформулировать вопрос или добавьте больше содержательных абзацев в .docx."
     answer = rut5_answer(question, context)
-    if len(answer.strip().split()) < 8 or len(answer.split('.')) < 2:
         answer += "\n\n" + context
     return answer
@@ -122,4 +125,3 @@ with gr.Blocks() as demo:
     """)
 demo.launch()

     blocks = []
     for p in doc.paragraphs:
         txt = p.text.strip()
+        # Исключаем короткие и заголовочные блоки
         if (
             txt
             and not (len(txt) <= 3 and txt.isdigit())
     for table in doc.tables:
         for row in table.rows:
             row_text = " | ".join(cell.text.strip() for cell in row.cells if cell.text.strip())
+            if row_text and len(row_text) > 20 and len(row_text.split()) > 3:
                 blocks.append(row_text)
     seen = set()
     uniq_blocks = []
     for b in blocks:
+        if b not in seen and len(b) > 0:
             uniq_blocks.append(b)
             seen.add(b)
     return uniq_blocks
 blocks = get_blocks_from_docx()
+if not blocks:
     blocks = ["База знаний пуста: проверьте содержание и формат вашего .docx!"]
+vectorizer = TfidfVectorizer(lowercase=True).fit(blocks)
 matrix = vectorizer.transform(blocks)
 tokenizer = T5Tokenizer.from_pretrained("cointegrated/rut5-base-multitask")
     return tokenizer.decode(output_ids[0], skip_special_tokens=True)
 def ask_chatbot(question):
+    # Регистронезависимый поиск! (lowercase everywhere)
+    question = question.strip()
+    if not question:
         return "Пожалуйста, введите вопрос."
     if not blocks or blocks == ["База знаний пуста: проверьте содержание и формат вашего .docx!"]:
         return "Ошибка: база знаний пуста. Проверьте .docx и перезапустите Space."
+    user_vec = vectorizer.transform([question.lower()])
     sims = cosine_similarity(user_vec, matrix)
     n_blocks = min(3, len(blocks))
     top_idxs = list(reversed(sims.argsort()[-n_blocks:]))
     context_blocks = []
+    for rank, idx in enumerate(top_idxs):
+        # ПОНИЖЕННЫЙ ПОРОГ! Если ничего не найдено по порогу, всегда берём самый первый (лучший) блок
+        if sims[idx] > 0.05 or (rank == 0):
+            if len(blocks[idx].split()) > 3 and len(blocks[idx]) > 20:
                 context_blocks.append(blocks[idx])
     context = " ".join(context_blocks)
+    # Если даже так не вышло — значит база совсем пуста
     if not context:
+        return "Не найден ни один фрагмент для ответа. Проверьте, что в .docx есть содержательные абзацы."
     answer = rut5_answer(question, context)
+    # Защита: требуем минимум два предложения ("." хотя бы 2 раза)
+    if len(answer.strip().split()) < 8 or answer.count('.') < 2:
         answer += "\n\n" + context
     return answer
     """)
 demo.launch()