74 lines
2.1 KiB
Python
74 lines
2.1 KiB
Python
|
|
"""
|
|||
|
|
启发式判断访谈「本轮」是否值得跑阶段 LLM / 记忆检索等高成本步骤。
|
|||
|
|
|
|||
|
|
短答、应答词、元话语(谈整理回忆本身而非人生经历)为 False;长文本或中等长度非常用词为 True。
|
|||
|
|
与配置 `chat_substantive_*` 配合;关闭启发式时恒为 True。
|
|||
|
|
"""
|
|||
|
|
|
|||
|
|
from __future__ import annotations
|
|||
|
|
|
|||
|
|
import re
|
|||
|
|
from typing import Final
|
|||
|
|
|
|||
|
|
from app.core.config import settings
|
|||
|
|
|
|||
|
|
# 极短应答(整句精确匹配)
|
|||
|
|
_SHORT_ACK_EXACT: Final[frozenset[str]] = frozenset(
|
|||
|
|
{
|
|||
|
|
"嗯",
|
|||
|
|
"对",
|
|||
|
|
"好",
|
|||
|
|
"是",
|
|||
|
|
"行的",
|
|||
|
|
"是的",
|
|||
|
|
"没有",
|
|||
|
|
"行",
|
|||
|
|
"噢",
|
|||
|
|
"哦",
|
|||
|
|
"好吧",
|
|||
|
|
"嗯嗯",
|
|||
|
|
"对对",
|
|||
|
|
"好嘞",
|
|||
|
|
"对的",
|
|||
|
|
"没了",
|
|||
|
|
"可以",
|
|||
|
|
"就这样",
|
|||
|
|
"还行",
|
|||
|
|
"还好",
|
|||
|
|
}
|
|||
|
|
)
|
|||
|
|
|
|||
|
|
# 元话语:谈回忆过程/访谈本身,不足以切换人生阶段或拉记忆证据
|
|||
|
|
_META_PROCESS: Final[re.Pattern[str]] = re.compile(
|
|||
|
|
r"(回忆|想起).{0,20}(细节|收获|快忘|忘的|很多东西)"
|
|||
|
|
r"|(整理|聊聊|谈到).{0,8}(回忆|访谈|记录)"
|
|||
|
|
r"|最大的收获",
|
|||
|
|
re.UNICODE,
|
|||
|
|
)
|
|||
|
|
|
|||
|
|
|
|||
|
|
def should_run_chat_stage_memory_heavy_work(text: str) -> bool:
|
|||
|
|
"""
|
|||
|
|
True:值得调用阶段检测 LLM、记忆检索(向量等)。
|
|||
|
|
False:仅用关键词阶段回退、跳过记忆检索。
|
|||
|
|
"""
|
|||
|
|
if not settings.chat_substantive_heuristic_enabled:
|
|||
|
|
return True
|
|||
|
|
s = (text or "").strip()
|
|||
|
|
if not s:
|
|||
|
|
return False
|
|||
|
|
# 元话语可略长,须在「达到 min_chars」分支之前判断
|
|||
|
|
if _META_PROCESS.search(s):
|
|||
|
|
return False
|
|||
|
|
min_chars = int(settings.chat_substantive_min_chars)
|
|||
|
|
if len(s) >= min_chars:
|
|||
|
|
return True
|
|||
|
|
if s in _SHORT_ACK_EXACT:
|
|||
|
|
return False
|
|||
|
|
if len(s) <= 4:
|
|||
|
|
# 极短:多为语气/应答
|
|||
|
|
if all(ch in "嗯哦噢对对好好的没行是的不没一下的了呗嘛呀啊" for ch in s):
|
|||
|
|
return False
|
|||
|
|
# 偏短但未命中噪音规则:默认走完整路径;5 字常见为有信息短句(旧逻辑用 >=6 会误杀)
|
|||
|
|
return len(s) >= 5
|