Spaces:

Wplotnikow
/

TeacherChat

Sleeping

App Files Files Community

Wplotnikow commited on Aug 20

Commit

2160154

verified ·

1 Parent(s): d0e25a2

Update app.py

Browse files

Files changed (1) hide show

app.py +21 -30

app.py CHANGED Viewed

@@ -7,11 +7,9 @@ import torch
 from transformers import T5ForConditionalGeneration, T5Tokenizer
 def is_header(txt):
-    # Абсолютно короткая фраза без знака препинания и вся в верхнем регистре — заголовок
     if not txt or len(txt) < 35:
         if txt == txt.upper() and not txt.endswith(('.', ':', '?', '!')):
             return True
-        # Также часто заголовок — просто пара слов с заглавных (мало слов и нет в конце точки):
         if txt.istitle() and len(txt.split()) < 6 and not txt.endswith(('.', ':', '?', '!')):
             return True
     return False
@@ -22,7 +20,7 @@ def get_blocks_from_docx():
         return [], []
     doc = Document(docx_list[0])
     blocks = []
-    non_header_blocks = []
     for p in doc.paragraphs:
         txt = p.text.strip()
         if (
@@ -32,35 +30,31 @@ def get_blocks_from_docx():
         ):
             blocks.append(txt)
             if not is_header(txt) and len(txt) > 25:
-                non_header_blocks.append(txt)
-    # Таблицы
     for table in doc.tables:
         for row in table.rows:
             row_text = " | ".join(cell.text.strip() for cell in row.cells if cell.text.strip())
             if row_text and len(row_text.split()) > 3 and len(row_text) > 25:
                 blocks.append(row_text)
                 if not is_header(row_text):
-                    non_header_blocks.append(row_text)
-    # Убираем дубли
-    seen = set()
-    blocks_clean = []
-    non_hdr_clean = []
     for b in blocks:
         if b not in seen:
             blocks_clean.append(b)
             seen.add(b)
-    seen = set()
-    for b in non_header_blocks:
         if b not in seen:
-            non_hdr_clean.append(b)
             seen.add(b)
-    return blocks_clean, non_hdr_clean
 blocks, normal_blocks = get_blocks_from_docx()
 if not blocks or not normal_blocks:
-    # Если ничего не нашли — фэйк заглушка
-    blocks = ["База знаний пуста: проверьте содержание и формат вашего .docx!"]
-    normal_blocks = ["База знаний пуста: проверьте содержание и формат вашего .docx!"]
 vectorizer = TfidfVectorizer(lowercase=True).fit(blocks)
 matrix = vectorizer.transform(blocks)
@@ -85,41 +79,38 @@ def ask_chatbot(question):
     question = question.strip()
     if not question:
         return "Пожалуйста, введите вопрос."
-    if not normal_blocks or normal_blocks == ["База знаний пуста: проверьте содержание и формат вашего .docx!"]:
         return "Ошибка: база знаний пуста. Проверьте .docx и перезапустите Space."
     user_vec = vectorizer.transform([question.lower()])
     sims = cosine_similarity(user_vec, matrix)
     n_blocks = min(3, len(blocks))
     if n_blocks == 0:
-        return "База знаний пуста: загрузите методичку с осмысленными абзацами!"
-    # Получаем индексы лучших блоков среди ВСЕХ
-    top_idxs = list(reversed(sims.argsort()[-n_blocks:]))
-    # Для генерации контекста используем все блоки, но...
     context_blocks = []
     for rank, idx in enumerate(top_idxs):
-        if 0 <= idx < len(blocks):
             context_blocks.append(blocks[idx])
     context = " ".join(context_blocks)
-    # ...для финального ответа ищем САМЫЙ релевантный не-заголовок (абзац)!
-    # (обычно первый релевантен)
     best_normal_block = ""
     max_sim = -1
-    for idx, nb in enumerate(normal_blocks):
         v_nb = vectorizer.transform([nb.lower()])
         sim = cosine_similarity(user_vec, v_nb)[0]
         if sim > max_sim:
             max_sim = sim
             best_normal_block = nb
-    # Если совсем всё плохо — fallback на обычный context
     if not best_normal_block:
         best_normal_block = context_blocks if context_blocks else ""
-    # Генерируем развернутый ответ с подложкой из максимального контекста
     answer = rut5_answer(question, context)
-    # Если слишком кратко — дублируем релевантный фрагмент (абзац)
     if len(answer.strip().split()) < 8 or answer.count('.') < 2:
         answer += "\n\n" + best_normal_block
-    # Финальный ответ — если сгенерированный ответ случайно "превратился" в заголовок, заменяем его на абзац!
     if is_header(answer):
         answer = best_normal_block
     return answer

 from transformers import T5ForConditionalGeneration, T5Tokenizer
 def is_header(txt):
     if not txt or len(txt) < 35:
         if txt == txt.upper() and not txt.endswith(('.', ':', '?', '!')):
             return True
         if txt.istitle() and len(txt.split()) < 6 and not txt.endswith(('.', ':', '?', '!')):
             return True
     return False
         return [], []
     doc = Document(docx_list[0])
     blocks = []
+    normal_blocks = []
     for p in doc.paragraphs:
         txt = p.text.strip()
         if (
         ):
             blocks.append(txt)
             if not is_header(txt) and len(txt) > 25:
+                normal_blocks.append(txt)
     for table in doc.tables:
         for row in table.rows:
             row_text = " | ".join(cell.text.strip() for cell in row.cells if cell.text.strip())
             if row_text and len(row_text.split()) > 3 and len(row_text) > 25:
                 blocks.append(row_text)
                 if not is_header(row_text):
+                    normal_blocks.append(row_text)
+    # remove duplicates
+    seen = set(); blocks_clean = []
     for b in blocks:
         if b not in seen:
             blocks_clean.append(b)
             seen.add(b)
+    seen = set(); normal_blocks_clean = []
+    for b in normal_blocks:
         if b not in seen:
+            normal_blocks_clean.append(b)
             seen.add(b)
+    return blocks_clean, normal_blocks_clean
 blocks, normal_blocks = get_blocks_from_docx()
 if not blocks or not normal_blocks:
+    blocks = ["База знаний пуста: проверьте содержимое и структуру вашего .docx!"]
+    normal_blocks = ["База знаний пуста: проверьте содержимое и структуру вашего .docx!"]
 vectorizer = TfidfVectorizer(lowercase=True).fit(blocks)
 matrix = vectorizer.transform(blocks)
     question = question.strip()
     if not question:
         return "Пожалуйста, введите вопрос."
+    if not normal_blocks or normal_blocks == ["База знаний пуста: проверьте содержимое и структуру вашего .docx!"]:
         return "Ошибка: база знаний пуста. Проверьте .docx и перезапустите Space."
     user_vec = vectorizer.transform([question.lower()])
     sims = cosine_similarity(user_vec, matrix)
     n_blocks = min(3, len(blocks))
     if n_blocks == 0:
+        return "Ошибка: база знаний отсутствует или пуста."
+    # Корректная обработка индексов!
+    sorted_idxs = sims.argsort()
+    top_idxs = list(map(int, sorted_idxs[-n_blocks:][::-1]))
     context_blocks = []
     for rank, idx in enumerate(top_idxs):
+        idx = int(idx)
+        if 0 <= idx < len(blocks):  # строгое попадание в диапазон
             context_blocks.append(blocks[idx])
     context = " ".join(context_blocks)
+    # Ответ только из абзацев, не заголовков!
+    # Ищем наиболее релевантный "нормальный" блок
     best_normal_block = ""
     max_sim = -1
+    for nb in normal_blocks:
         v_nb = vectorizer.transform([nb.lower()])
         sim = cosine_similarity(user_vec, v_nb)[0]
         if sim > max_sim:
             max_sim = sim
             best_normal_block = nb
     if not best_normal_block:
         best_normal_block = context_blocks if context_blocks else ""
     answer = rut5_answer(question, context)
     if len(answer.strip().split()) < 8 or answer.count('.') < 2:
         answer += "\n\n" + best_normal_block
     if is_header(answer):
         answer = best_normal_block
     return answer