WIP: memory system improvements (in progress)

Interview/chat prompt layers, reply planner, style profiles, memory injection, interview meta store, and related tests. Work not finished. Made-with: Cursor
2026-04-22 16:56:28 +08:00
parent e848f26354
commit 3121d1384d
28 changed files with 2790 additions and 452 deletions
--- a/api/app/features/evaluation/rubrics/conversation_v1.py
+++ b/api/app/features/evaluation/rubrics/conversation_v1.py
@@ -7,6 +7,7 @@ _JUDGING_CHARTER = """
 - **各细项独立判断**：整体印象好不得普遍抬分；情绪承接好不得抵消信息浅或强引导。
 - **优美措辞、语气礼貌不得单独抬分**，除非该维度本身考察措辞/节奏且与证据一致。
 - 对严重问题（如明显冷处理情绪、强引导暗示答案、重复盘问同义信息）须在 `major_issues` 写明并可列入 `evidence_refs`。
+- **反风格过拟合**：若 AI 明显复读**固定意象 / 固定句式 / few-shot 式套句**（如同一画面反复出现「烤红薯 / 田埂 / 火堆 / 蚂蚁 / 巷子」等怀旧物象；或同一轮次内外频繁使用「那条线」「一股劲儿」「就像…一样」「这让我想起…」等模板修辞），不要把它当「文学感好」奖励；应**在 `rhythm_control` / `empathy_depth` / `question_quality` 中压分**，并在 `major_issues` 写明「风格过拟合：固定修辞复读」。表达质量看的是**对本轮用户原词的贴合度、新鲜度、准确度**，不是词藻密度或固定比喻。

 """

@@ -47,13 +48,13 @@ _CONV_LEAF_SPEC = """

 ## 四、结构化引导（小计最高 15）
 - interview_structure（访谈结构，最高 6）：阶段/主题推进是否清晰（整段更明显；单轮不足则保守）。
- context_memory（上下文记忆，最高 5）：是否关联前文；**重复盘问同一已答信息、忽略上文**在此项扣分（不在 rhythm 重复扣）。
- rhythm_control（节奏控制，最高 4）：自然度；采访腔、总结腔、流程感。
+- context_memory（上下文记忆，最高 5）：是否关联前文；**重复盘问同一已答信息、忽略上文**在此项扣分（不在 rhythm 重复扣）。**额外**：若 AI 把**检索到的旧记忆**当本轮用户新说的内容来复述、或反复「你之前提过…」式**同义复述旧段落**（信息未推进、像在念素材），应**明显扣分**。
+- rhythm_control（节奏控制，最高 4）：自然度；采访腔、总结腔、流程感；**此项也负责抓「风格过拟合」**——若 AI 在本节选里反复套用同一意象池（「烤红薯/田埂/蚂蚁/巷子/火堆/那条线/一股劲儿」等）或同一句式模板（「这让我想起…」「听起来…」），即使单条句子读着文雅也应扣分。

 ## 五、提问质量（小计最高 15）
- question_quality（问题质量，最高 7）：开放、具体、可答。
- follow_up_depth（追问能力，最高 5）：顺势深问。
- non_leading（非引导性，最高 3）：是否暗示「标准答案」或评判式预设。
+- question_quality（问题质量，最高 7）：开放、具体、可答；问句必须**从本轮用户原词或本轮具体画面里长出来**，若用户已点名他人、关系、观众、面子或身份自称，而 AI 只追问环境/体感却完全忽略这些线索，应**明显扣分**；不得用跨轮复读的固定锚点（如「你们是在田埂边生火吗」「带头的是谁」等不视语境一再出现的模板追问）——发现该类套问法应扣分。**记忆相关**：若追问只是在**复述/同义转述检索细节**而未帮用户说**新的一层**（感受、关系、选择、后果），应扣分；若记忆帮助把问题问得更贴肉、更个人，可略加分（仍不得牺牲本轮话头）。
+- follow_up_depth（追问能力，最高 5）：顺势深问。**记忆相关**：追问应服务于**更深一层**，而不是堆叠旧事实或复述时间线。
+- non_leading（非引导性，最高 3）：是否暗示「标准答案」或评判式预设。**额外**：若用检索细节**诱导用户承认本轮未确认的内容**（把旧记忆当既定事实套在用户头上），应**重扣**。

 输出 JSON 字段（仅这些键；细分项为浮点数；列表字符串尽量每条 ≤120 字；`rationale` 为简短中文总述）：
 emotion_carry, empathy_depth, emotion_safety, emotion_guidance,