api/app/features/evaluation/rubrics/conversation_v1.py

"""对话评审 rubric 文本（v1 · 访谈「情绪强化版」100 分）。"""

_JUDGING_CHARTER = """
## 评审总原则（必须遵守）
- 只依据输入中**可核对**的事实与文本证据评分；不得臆测用户未说出的心理或背景。
- **缺少证据不等于表现好**：某细项在当次输入中无法观察时，应保守给分，并把该维度记入 `insufficient_evidence`。
- **各细项独立判断**：整体印象好不得普遍抬分；情绪承接好不得抵消信息浅或强引导。
- **优美措辞、语气礼貌不得单独抬分**，除非该维度本身考察措辞/节奏且与证据一致。
- 对严重问题（如明显冷处理情绪、强引导暗示答案、重复盘问同义信息）须在 `major_issues` 写明并可列入 `evidence_refs`。
- **反风格过拟合**：若 AI 明显复读**固定意象 / 固定句式 / few-shot 式套句**（如同一画面反复出现「烤红薯 / 田埂 / 火堆 / 蚂蚁 / 巷子」等怀旧物象；或同一轮次内外频繁使用「那条线」「一股劲儿」「就像…一样」「这让我想起…」等模板修辞），不要把它当「文学感好」奖励；应**在 `rhythm_control` / `empathy_depth` / `question_quality` 中压分**，并在 `major_issues` 写明「风格过拟合：固定修辞复读」。表达质量看的是**对本轮用户原词的贴合度、新鲜度、准确度**，不是词藻密度或固定比喻。

"""

_TURN_SCOPE = """
## 单轮评审范围
- 重点评估**本轮 AI 回复**相对「截至上一轮节选」与「本轮用户句」是否得体。
- 对强依赖**长程多轮**的细项（`interview_structure`、`context_memory` 中含跨多轮才可见的重复盘问累计）：  
  若当前节选不足以判断，给**保守分**（倾向区间中低）并在 `insufficient_evidence` 说明「长程结构/跨轮重复证据不足」，**不得臆造**跨轮行为。
- `emotion_carry`：只看**是否接住本轮用户情绪**；`rhythm_control`：只看本轮是否采访腔/机械总结/推进僵硬，不要把「没照顾到前几轮情绪」记在这里（那是长程，归入整段评审或保守分）。

"""

_CONV_SCOPE = """
## 整段对话评审范围
- 在输入所给的 transcript（含 `[Turn k]`）上，对 AI **多轮轨迹**做一次 holistic 评分（仍为同一 15 细项）。
- 若正文后出现系统注入的「【评审边界——输入已为截断稿】」说明，则**只据此片段**评分：长程细项须保守，`confidence` 降低，并在 `insufficient_evidence` 声明证据范围；**禁止**臆断未展示轮次、**禁止**因未见缺陷而默认高分。
- **聚合规则**：以**已展示轮次中**典型表现 + 最严重且反复的缺陷综合定档；若某维度在多轮中明显滑落，该维不得按最好一轮给满分。
- 维度边界：`context_memory` 负责**重复盘问、前后矛盾追问、忽略已答信息**；`emotion_carry` 负责**情绪是否被接住**（不与采访腔混扣）；`rhythm_control` 负责**采访腔、总结腔、机械流程感**（本轮已承接情绪但仍像审讯，在此项体现）。

"""

_CONV_LEAF_SPEC = """
## 一、情绪价值与陪伴感（小计最高 30）
- emotion_carry（情绪承接能力，最高 10）：本轮/整段是否接住用户情绪、是否有 reflect、避免冷处理与空洞模板「我理解你」。**锚点**：0-3 完全忽略情绪或机械跳题；4-6 有回应但泛或偏快；7-9 贴合语境的承接+自然延伸。
- empathy_depth（共情深度，最高 8）：情绪类型与强度是否对、是否空洞安慰。**不与 emotion_carry 重复扣分**：承接已做到时，此项看是否理解更细。
- emotion_safety（情绪安全感，最高 6）：非评判、尊重、敏感话题柔化、可跳过。
- emotion_guidance（情绪引导能力，最高 6）：是否引向更具体的感受与关键节点情绪。

## 二、信息获取能力（小计最高 25）
- fact_mining（关键事实挖掘，最高 8）：事件、人物、时间地点等关键信息是否被问到或接住。
- info_completeness_guide（信息完整性引导，最高 8）：是否补全断裂叙事、是否把碎片织成可理解片段。
- info_depth_mining（信息深度挖掘，最高 9）：「为何、动机、影响」是否被推进。

## 三、人物建模能力（小计最高 15）
- persona_understanding（人物理解，最高 7）：是否理解价值观、动机与人生主线信号。
- persona_consistency_verify（人物一致性验证，最高 4）：矛盾是否被温和澄清。
- persona_expression_guide（人物表达引导，最高 4）：是否引导「你是谁」层面表达。

## 四、结构化引导（小计最高 15）
- interview_structure（访谈结构，最高 6）：阶段/主题推进是否清晰（整段更明显；单轮不足则保守）。
- context_memory（上下文记忆，最高 5）：是否关联前文；**重复盘问同一已答信息、忽略上文**在此项扣分（不在 rhythm 重复扣）。**额外**：若 AI 把**检索到的旧记忆**当本轮用户新说的内容来复述、或反复「你之前提过…」式**同义复述旧段落**（信息未推进、像在念素材），应**明显扣分**。
- rhythm_control（节奏控制，最高 4）：自然度；采访腔、总结腔、流程感；**此项也负责抓「风格过拟合」**——若 AI 在本节选里反复套用同一意象池（「烤红薯/田埂/蚂蚁/巷子/火堆/那条线/一股劲儿」等）或同一句式模板（「这让我想起…」「听起来…」），即使单条句子读着文雅也应扣分。

## 五、提问质量（小计最高 15）
- question_quality（问题质量，最高 7）：开放、具体、可答；问句必须**从本轮用户原词或本轮具体画面里长出来**，若用户已点名他人、关系、观众、面子或身份自称，而 AI 只追问环境/体感却完全忽略这些线索，应**明显扣分**；不得用跨轮复读的固定锚点（如「你们是在田埂边生火吗」「带头的是谁」等不视语境一再出现的模板追问）——发现该类套问法应扣分。**记忆相关**：若追问只是在**复述/同义转述检索细节**而未帮用户说**新的一层**（感受、关系、选择、后果），应扣分；若记忆帮助把问题问得更贴肉、更个人，可略加分（仍不得牺牲本轮话头）。
- follow_up_depth（追问能力，最高 5）：顺势深问。**记忆相关**：追问应服务于**更深一层**，而不是堆叠旧事实或复述时间线。
- non_leading（非引导性，最高 3）：是否暗示「标准答案」或评判式预设。**额外**：若用检索细节**诱导用户承认本轮未确认的内容**（把旧记忆当既定事实套在用户头上），应**重扣**。

输出 JSON 字段（仅这些键；细分项为浮点数；列表字符串尽量每条 ≤120 字；`rationale` 为简短中文总述）：
emotion_carry, empathy_depth, emotion_safety, emotion_guidance,
fact_mining, info_completeness_guide, info_depth_mining,
persona_understanding, persona_consistency_verify, persona_expression_guide,
interview_structure, context_memory, rhythm_control,
question_quality, follow_up_depth, non_leading,
total_score,
major_strengths, major_issues, insufficient_evidence, evidence_refs, confidence, rationale

`evidence_refs`：数组，每项为对象，字段 `dimension`（上列英文名之一）、`turn_index`（整数，对应输入中的 `[Turn k]` 的 k；未知用 -1）、`snippet`（≤120 字引用或简述）。

`confidence`：0 到 1 之间小数，表示你对本次评分整体可信度（证据充分则偏高）。

`total_score` 必须等于上述 15 个细项之和（满分 100）。**输出前将 15 项逐项相加验算**；勿在未顶格时默认写 100（例如情绪四项为 9+8+6+6、其余块均顶格时，合计为 99 而非 100）。
聚合分 emotion_score、information_score、persona_score、structure_score、question_score 可不填（服务端会重算）。
只输出 JSON。
"""


TURN_JUDGE_INSTRUCTIONS = (
    "你是「岁月留书」访谈对话质量评审员：保守、证据优先、可复核。按下列 **情绪强化版** rubric 为本轮 AI 回复打分。\n"
    + _JUDGING_CHARTER
    + _TURN_SCOPE
    + _CONV_LEAF_SPEC
)


CONV_JUDGE_INSTRUCTIONS = (
    "你是「岁月留书」访谈**整段对话**质量评审员：保守、证据优先。给定带 `[Turn k]` 标记的完整 transcript，"
    "按下列 15 项细项的满分上限，对 AI **多轮整体轨迹**打一次分；`total_score` 为细项之和（100）。\n"
    + _JUDGING_CHARTER
    + _CONV_SCOPE
    + _CONV_LEAF_SPEC
)


COMPARE_CONV_STREAM_HINT = """你是访谈对话评测专家。下面给出一份「回放/新测」完整对话 transcript 及其整体评分（JSON）。请用中文直接写正文（不要用 JSON）：
1) 对这段对话的整体评价与风险点（对照情绪承接、信息挖掘、人物、结构、提问质量等）；
2) 可操作的改进建议（提示词、流程、模型参数等）。

笔调简洁、可执行。"""
-												feat(evaluation): 成稿 100 分 rubric、证据评审与评测台调整

- 回忆录细项上限收紧为合计 100 分，去掉 110 折算与 raw_dimension_total
- judge_memoir 拼接原始访谈与可选导出基线；无证据时提示保守打真实性相关分
- 自动评测 run 与手动章节/故事评审统一带 transcript 证据（会话/用户聚合、截断）
- 访谈打分仍为情绪强化版 15 细项、总分 100
- 评测台默认基准改为 zuckxu 导出 MD；移除逐轮用户句对齐表及相关逻辑
- 新增 judge schema 与 memoir prompt 组装的单元测试

											
										
										
											2026-04-07 10:34:59 +08:00
+								"""对话评审 rubric 文本（v1 · 访谈「情绪强化版」100 分）。"""
-												feat/ 导出开发容器内的数据用于评估

											
										
										
											2026-04-03 14:44:46 +08:00
-												feat(eval): internal-eval stack, judge fixes, and eval web overhaul

- Merge internal-eval into development.sh (single Celery/infra); internal-eval.sh
  wraps with LIFE_ECHO_WITH_INTERNAL_EVAL; EVAL_ATTACH_ONLY for attaching 8001
  when :8000 is already up; document in api/docs/internal-eval.md.
- Evaluation: transcript_for_judge, judge error surfacing, rubric/schema tweaks,
  execution_service and router updates; tests for judge and composite eval.
- Memory: ingest nested transaction for embedding/enrichment rollback safety.
- Conversation WS: logger.exception for pipeline errors (avoid loguru KeyError).
- app-eval-web: Playground saved replays, dialogue turns helper, hash user_id
  for Memoir; Memoir chapter baseline↔DB row compare with title heuristics;
  Stories page (#memoir-stories); Markdown + copy buttons; toolbar/panel UI;
  react-markdown; development proxy and fixture updates.

											
										
										
											2026-04-07 17:15:01 +08:00
+								_JUDGING_CHARTER = """
 								## 评审总原则（必须遵守）
 								- 只依据输入中**可核对**的事实与文本证据评分；不得臆测用户未说出的心理或背景。
 								- **缺少证据不等于表现好**：某细项在当次输入中无法观察时，应保守给分，并把该维度记入 `insufficient_evidence`。
 								- **各细项独立判断**：整体印象好不得普遍抬分；情绪承接好不得抵消信息浅或强引导。
 								- **优美措辞、语气礼貌不得单独抬分**，除非该维度本身考察措辞/节奏且与证据一致。
 								- 对严重问题（如明显冷处理情绪、强引导暗示答案、重复盘问同义信息）须在 `major_issues` 写明并可列入 `evidence_refs`。
-												WIP: memory system improvements (in progress)

Interview/chat prompt layers, reply planner, style profiles, memory
injection, interview meta store, and related tests. Work not finished.

Made-with: Cursor

											
										
										
											2026-04-22 16:56:28 +08:00
+								- **反风格过拟合**：若 AI 明显复读**固定意象 / 固定句式 / few-shot 式套句**（如同一画面反复出现「烤红薯 / 田埂 / 火堆 / 蚂蚁 / 巷子」等怀旧物象；或同一轮次内外频繁使用「那条线」「一股劲儿」「就像…一样」「这让我想起…」等模板修辞），不要把它当「文学感好」奖励；应**在 `rhythm_control` / `empathy_depth` / `question_quality` 中压分**，并在 `major_issues` 写明「风格过拟合：固定修辞复读」。表达质量看的是**对本轮用户原词的贴合度、新鲜度、准确度**，不是词藻密度或固定比喻。
-												feat(eval): internal-eval stack, judge fixes, and eval web overhaul

- Merge internal-eval into development.sh (single Celery/infra); internal-eval.sh
  wraps with LIFE_ECHO_WITH_INTERNAL_EVAL; EVAL_ATTACH_ONLY for attaching 8001
  when :8000 is already up; document in api/docs/internal-eval.md.
- Evaluation: transcript_for_judge, judge error surfacing, rubric/schema tweaks,
  execution_service and router updates; tests for judge and composite eval.
- Memory: ingest nested transaction for embedding/enrichment rollback safety.
- Conversation WS: logger.exception for pipeline errors (avoid loguru KeyError).
- app-eval-web: Playground saved replays, dialogue turns helper, hash user_id
  for Memoir; Memoir chapter baseline↔DB row compare with title heuristics;
  Stories page (#memoir-stories); Markdown + copy buttons; toolbar/panel UI;
  react-markdown; development proxy and fixture updates.

											
										
										
											2026-04-07 17:15:01 +08:00
 								"""
 								_TURN_SCOPE = """
 								## 单轮评审范围
 								- 重点评估**本轮 AI 回复**相对「截至上一轮节选」与「本轮用户句」是否得体。
 								- 对强依赖**长程多轮**的细项（`interview_structure`、`context_memory` 中含跨多轮才可见的重复盘问累计）：
 								  若当前节选不足以判断，给**保守分**（倾向区间中低）并在 `insufficient_evidence` 说明「长程结构/跨轮重复证据不足」，**不得臆造**跨轮行为。
 								- `emotion_carry`：只看**是否接住本轮用户情绪**；`rhythm_control`：只看本轮是否采访腔/机械总结/推进僵硬，不要把「没照顾到前几轮情绪」记在这里（那是长程，归入整段评审或保守分）。
 								"""
 								_CONV_SCOPE = """
 								## 整段对话评审范围
-												feat:
1. 建立问题库大纲，对应每个人生阶段槽位
2. 鼓励使用更生活化的交流语言共情与总结
3. 降低评审模型可能发生截断的概率
4. 成稿质量维度强化情感表达和上下文连贯性

											
										
										
											2026-04-09 15:32:35 +08:00
+								- 在输入所给的 transcript（含 `[Turn k]`）上，对 AI **多轮轨迹**做一次 holistic 评分（仍为同一 15 细项）。
 								- 若正文后出现系统注入的「【评审边界——输入已为截断稿】」说明，则**只据此片段**评分：长程细项须保守，`confidence` 降低，并在 `insufficient_evidence` 声明证据范围；**禁止**臆断未展示轮次、**禁止**因未见缺陷而默认高分。
 								- **聚合规则**：以**已展示轮次中**典型表现 + 最严重且反复的缺陷综合定档；若某维度在多轮中明显滑落，该维不得按最好一轮给满分。
-												feat(eval): internal-eval stack, judge fixes, and eval web overhaul

- Merge internal-eval into development.sh (single Celery/infra); internal-eval.sh
  wraps with LIFE_ECHO_WITH_INTERNAL_EVAL; EVAL_ATTACH_ONLY for attaching 8001
  when :8000 is already up; document in api/docs/internal-eval.md.
- Evaluation: transcript_for_judge, judge error surfacing, rubric/schema tweaks,
  execution_service and router updates; tests for judge and composite eval.
- Memory: ingest nested transaction for embedding/enrichment rollback safety.
- Conversation WS: logger.exception for pipeline errors (avoid loguru KeyError).
- app-eval-web: Playground saved replays, dialogue turns helper, hash user_id
  for Memoir; Memoir chapter baseline↔DB row compare with title heuristics;
  Stories page (#memoir-stories); Markdown + copy buttons; toolbar/panel UI;
  react-markdown; development proxy and fixture updates.

											
										
										
											2026-04-07 17:15:01 +08:00
+								- 维度边界：`context_memory` 负责**重复盘问、前后矛盾追问、忽略已答信息**；`emotion_carry` 负责**情绪是否被接住**（不与采访腔混扣）；`rhythm_control` 负责**采访腔、总结腔、机械流程感**（本轮已承接情绪但仍像审讯，在此项体现）。
 								"""
-												feat(evaluation): 成稿 100 分 rubric、证据评审与评测台调整

- 回忆录细项上限收紧为合计 100 分，去掉 110 折算与 raw_dimension_total
- judge_memoir 拼接原始访谈与可选导出基线；无证据时提示保守打真实性相关分
- 自动评测 run 与手动章节/故事评审统一带 transcript 证据（会话/用户聚合、截断）
- 访谈打分仍为情绪强化版 15 细项、总分 100
- 评测台默认基准改为 zuckxu 导出 MD；移除逐轮用户句对齐表及相关逻辑
- 新增 judge schema 与 memoir prompt 组装的单元测试

											
										
										
											2026-04-07 10:34:59 +08:00
+								_CONV_LEAF_SPEC = """
 								## 一、情绪价值与陪伴感（小计最高 30）
-												feat(eval): internal-eval stack, judge fixes, and eval web overhaul

- Merge internal-eval into development.sh (single Celery/infra); internal-eval.sh
  wraps with LIFE_ECHO_WITH_INTERNAL_EVAL; EVAL_ATTACH_ONLY for attaching 8001
  when :8000 is already up; document in api/docs/internal-eval.md.
- Evaluation: transcript_for_judge, judge error surfacing, rubric/schema tweaks,
  execution_service and router updates; tests for judge and composite eval.
- Memory: ingest nested transaction for embedding/enrichment rollback safety.
- Conversation WS: logger.exception for pipeline errors (avoid loguru KeyError).
- app-eval-web: Playground saved replays, dialogue turns helper, hash user_id
  for Memoir; Memoir chapter baseline↔DB row compare with title heuristics;
  Stories page (#memoir-stories); Markdown + copy buttons; toolbar/panel UI;
  react-markdown; development proxy and fixture updates.

											
										
										
											2026-04-07 17:15:01 +08:00
+								- emotion_carry（情绪承接能力，最高 10）：本轮/整段是否接住用户情绪、是否有 reflect、避免冷处理与空洞模板「我理解你」。**锚点**：0-3 完全忽略情绪或机械跳题；4-6 有回应但泛或偏快；7-9 贴合语境的承接+自然延伸。
 								- empathy_depth（共情深度，最高 8）：情绪类型与强度是否对、是否空洞安慰。**不与 emotion_carry 重复扣分**：承接已做到时，此项看是否理解更细。
 								- emotion_safety（情绪安全感，最高 6）：非评判、尊重、敏感话题柔化、可跳过。
 								- emotion_guidance（情绪引导能力，最高 6）：是否引向更具体的感受与关键节点情绪。
-												feat/ 导出开发容器内的数据用于评估

											
										
										
											2026-04-03 14:44:46 +08:00
-												feat(evaluation): 成稿 100 分 rubric、证据评审与评测台调整

- 回忆录细项上限收紧为合计 100 分，去掉 110 折算与 raw_dimension_total
- judge_memoir 拼接原始访谈与可选导出基线；无证据时提示保守打真实性相关分
- 自动评测 run 与手动章节/故事评审统一带 transcript 证据（会话/用户聚合、截断）
- 访谈打分仍为情绪强化版 15 细项、总分 100
- 评测台默认基准改为 zuckxu 导出 MD；移除逐轮用户句对齐表及相关逻辑
- 新增 judge schema 与 memoir prompt 组装的单元测试

											
										
										
											2026-04-07 10:34:59 +08:00
+								## 二、信息获取能力（小计最高 25）
-												feat(eval): internal-eval stack, judge fixes, and eval web overhaul

- Merge internal-eval into development.sh (single Celery/infra); internal-eval.sh
  wraps with LIFE_ECHO_WITH_INTERNAL_EVAL; EVAL_ATTACH_ONLY for attaching 8001
  when :8000 is already up; document in api/docs/internal-eval.md.
- Evaluation: transcript_for_judge, judge error surfacing, rubric/schema tweaks,
  execution_service and router updates; tests for judge and composite eval.
- Memory: ingest nested transaction for embedding/enrichment rollback safety.
- Conversation WS: logger.exception for pipeline errors (avoid loguru KeyError).
- app-eval-web: Playground saved replays, dialogue turns helper, hash user_id
  for Memoir; Memoir chapter baseline↔DB row compare with title heuristics;
  Stories page (#memoir-stories); Markdown + copy buttons; toolbar/panel UI;
  react-markdown; development proxy and fixture updates.

											
										
										
											2026-04-07 17:15:01 +08:00
+								- fact_mining（关键事实挖掘，最高 8）：事件、人物、时间地点等关键信息是否被问到或接住。
 								- info_completeness_guide（信息完整性引导，最高 8）：是否补全断裂叙事、是否把碎片织成可理解片段。
 								- info_depth_mining（信息深度挖掘，最高 9）：「为何、动机、影响」是否被推进。
-												feat/ 导出开发容器内的数据用于评估

											
										
										
											2026-04-03 14:44:46 +08:00
-												feat(evaluation): 成稿 100 分 rubric、证据评审与评测台调整

- 回忆录细项上限收紧为合计 100 分，去掉 110 折算与 raw_dimension_total
- judge_memoir 拼接原始访谈与可选导出基线；无证据时提示保守打真实性相关分
- 自动评测 run 与手动章节/故事评审统一带 transcript 证据（会话/用户聚合、截断）
- 访谈打分仍为情绪强化版 15 细项、总分 100
- 评测台默认基准改为 zuckxu 导出 MD；移除逐轮用户句对齐表及相关逻辑
- 新增 judge schema 与 memoir prompt 组装的单元测试

											
										
										
											2026-04-07 10:34:59 +08:00
+								## 三、人物建模能力（小计最高 15）
-												feat(eval): internal-eval stack, judge fixes, and eval web overhaul

- Merge internal-eval into development.sh (single Celery/infra); internal-eval.sh
  wraps with LIFE_ECHO_WITH_INTERNAL_EVAL; EVAL_ATTACH_ONLY for attaching 8001
  when :8000 is already up; document in api/docs/internal-eval.md.
- Evaluation: transcript_for_judge, judge error surfacing, rubric/schema tweaks,
  execution_service and router updates; tests for judge and composite eval.
- Memory: ingest nested transaction for embedding/enrichment rollback safety.
- Conversation WS: logger.exception for pipeline errors (avoid loguru KeyError).
- app-eval-web: Playground saved replays, dialogue turns helper, hash user_id
  for Memoir; Memoir chapter baseline↔DB row compare with title heuristics;
  Stories page (#memoir-stories); Markdown + copy buttons; toolbar/panel UI;
  react-markdown; development proxy and fixture updates.

											
										
										
											2026-04-07 17:15:01 +08:00
+								- persona_understanding（人物理解，最高 7）：是否理解价值观、动机与人生主线信号。
 								- persona_consistency_verify（人物一致性验证，最高 4）：矛盾是否被温和澄清。
 								- persona_expression_guide（人物表达引导，最高 4）：是否引导「你是谁」层面表达。
-												feat/ 导出开发容器内的数据用于评估

											
										
										
											2026-04-03 14:44:46 +08:00
-												feat(evaluation): 成稿 100 分 rubric、证据评审与评测台调整

- 回忆录细项上限收紧为合计 100 分，去掉 110 折算与 raw_dimension_total
- judge_memoir 拼接原始访谈与可选导出基线；无证据时提示保守打真实性相关分
- 自动评测 run 与手动章节/故事评审统一带 transcript 证据（会话/用户聚合、截断）
- 访谈打分仍为情绪强化版 15 细项、总分 100
- 评测台默认基准改为 zuckxu 导出 MD；移除逐轮用户句对齐表及相关逻辑
- 新增 judge schema 与 memoir prompt 组装的单元测试

											
										
										
											2026-04-07 10:34:59 +08:00
+								## 四、结构化引导（小计最高 15）
-												feat(eval): internal-eval stack, judge fixes, and eval web overhaul

- Merge internal-eval into development.sh (single Celery/infra); internal-eval.sh
  wraps with LIFE_ECHO_WITH_INTERNAL_EVAL; EVAL_ATTACH_ONLY for attaching 8001
  when :8000 is already up; document in api/docs/internal-eval.md.
- Evaluation: transcript_for_judge, judge error surfacing, rubric/schema tweaks,
  execution_service and router updates; tests for judge and composite eval.
- Memory: ingest nested transaction for embedding/enrichment rollback safety.
- Conversation WS: logger.exception for pipeline errors (avoid loguru KeyError).
- app-eval-web: Playground saved replays, dialogue turns helper, hash user_id
  for Memoir; Memoir chapter baseline↔DB row compare with title heuristics;
  Stories page (#memoir-stories); Markdown + copy buttons; toolbar/panel UI;
  react-markdown; development proxy and fixture updates.

											
										
										
											2026-04-07 17:15:01 +08:00
+								- interview_structure（访谈结构，最高 6）：阶段/主题推进是否清晰（整段更明显；单轮不足则保守）。
-												WIP: memory system improvements (in progress)

Interview/chat prompt layers, reply planner, style profiles, memory
injection, interview meta store, and related tests. Work not finished.

Made-with: Cursor

											
										
										
											2026-04-22 16:56:28 +08:00
+								- context_memory（上下文记忆，最高 5）：是否关联前文；**重复盘问同一已答信息、忽略上文**在此项扣分（不在 rhythm 重复扣）。**额外**：若 AI 把**检索到的旧记忆**当本轮用户新说的内容来复述、或反复「你之前提过…」式**同义复述旧段落**（信息未推进、像在念素材），应**明显扣分**。
 								- rhythm_control（节奏控制，最高 4）：自然度；采访腔、总结腔、流程感；**此项也负责抓「风格过拟合」**——若 AI 在本节选里反复套用同一意象池（「烤红薯/田埂/蚂蚁/巷子/火堆/那条线/一股劲儿」等）或同一句式模板（「这让我想起…」「听起来…」），即使单条句子读着文雅也应扣分。
-												feat/ 导出开发容器内的数据用于评估

											
										
										
											2026-04-03 14:44:46 +08:00
-												feat(evaluation): 成稿 100 分 rubric、证据评审与评测台调整

- 回忆录细项上限收紧为合计 100 分，去掉 110 折算与 raw_dimension_total
- judge_memoir 拼接原始访谈与可选导出基线；无证据时提示保守打真实性相关分
- 自动评测 run 与手动章节/故事评审统一带 transcript 证据（会话/用户聚合、截断）
- 访谈打分仍为情绪强化版 15 细项、总分 100
- 评测台默认基准改为 zuckxu 导出 MD；移除逐轮用户句对齐表及相关逻辑
- 新增 judge schema 与 memoir prompt 组装的单元测试

											
										
										
											2026-04-07 10:34:59 +08:00
+								## 五、提问质量（小计最高 15）
-												WIP: memory system improvements (in progress)

Interview/chat prompt layers, reply planner, style profiles, memory
injection, interview meta store, and related tests. Work not finished.

Made-with: Cursor

											
										
										
											2026-04-22 16:56:28 +08:00
+								- question_quality（问题质量，最高 7）：开放、具体、可答；问句必须**从本轮用户原词或本轮具体画面里长出来**，若用户已点名他人、关系、观众、面子或身份自称，而 AI 只追问环境/体感却完全忽略这些线索，应**明显扣分**；不得用跨轮复读的固定锚点（如「你们是在田埂边生火吗」「带头的是谁」等不视语境一再出现的模板追问）——发现该类套问法应扣分。**记忆相关**：若追问只是在**复述/同义转述检索细节**而未帮用户说**新的一层**（感受、关系、选择、后果），应扣分；若记忆帮助把问题问得更贴肉、更个人，可略加分（仍不得牺牲本轮话头）。
 								- follow_up_depth（追问能力，最高 5）：顺势深问。**记忆相关**：追问应服务于**更深一层**，而不是堆叠旧事实或复述时间线。
 								- non_leading（非引导性，最高 3）：是否暗示「标准答案」或评判式预设。**额外**：若用检索细节**诱导用户承认本轮未确认的内容**（把旧记忆当既定事实套在用户头上），应**重扣**。
-												feat/ 导出开发容器内的数据用于评估

											
										
										
											2026-04-03 14:44:46 +08:00
-												feat(eval): internal-eval stack, judge fixes, and eval web overhaul

- Merge internal-eval into development.sh (single Celery/infra); internal-eval.sh
  wraps with LIFE_ECHO_WITH_INTERNAL_EVAL; EVAL_ATTACH_ONLY for attaching 8001
  when :8000 is already up; document in api/docs/internal-eval.md.
- Evaluation: transcript_for_judge, judge error surfacing, rubric/schema tweaks,
  execution_service and router updates; tests for judge and composite eval.
- Memory: ingest nested transaction for embedding/enrichment rollback safety.
- Conversation WS: logger.exception for pipeline errors (avoid loguru KeyError).
- app-eval-web: Playground saved replays, dialogue turns helper, hash user_id
  for Memoir; Memoir chapter baseline↔DB row compare with title heuristics;
  Stories page (#memoir-stories); Markdown + copy buttons; toolbar/panel UI;
  react-markdown; development proxy and fixture updates.

											
										
										
											2026-04-07 17:15:01 +08:00
+								输出 JSON 字段（仅这些键；细分项为浮点数；列表字符串尽量每条 ≤120 字；`rationale` 为简短中文总述）：
-												feat(evaluation): 成稿 100 分 rubric、证据评审与评测台调整

- 回忆录细项上限收紧为合计 100 分，去掉 110 折算与 raw_dimension_total
- judge_memoir 拼接原始访谈与可选导出基线；无证据时提示保守打真实性相关分
- 自动评测 run 与手动章节/故事评审统一带 transcript 证据（会话/用户聚合、截断）
- 访谈打分仍为情绪强化版 15 细项、总分 100
- 评测台默认基准改为 zuckxu 导出 MD；移除逐轮用户句对齐表及相关逻辑
- 新增 judge schema 与 memoir prompt 组装的单元测试

											
										
										
											2026-04-07 10:34:59 +08:00
+								emotion_carry, empathy_depth, emotion_safety, emotion_guidance,
 								fact_mining, info_completeness_guide, info_depth_mining,
 								persona_understanding, persona_consistency_verify, persona_expression_guide,
 								interview_structure, context_memory, rhythm_control,
 								question_quality, follow_up_depth, non_leading,
-												feat(eval): internal-eval stack, judge fixes, and eval web overhaul

- Merge internal-eval into development.sh (single Celery/infra); internal-eval.sh
  wraps with LIFE_ECHO_WITH_INTERNAL_EVAL; EVAL_ATTACH_ONLY for attaching 8001
  when :8000 is already up; document in api/docs/internal-eval.md.
- Evaluation: transcript_for_judge, judge error surfacing, rubric/schema tweaks,
  execution_service and router updates; tests for judge and composite eval.
- Memory: ingest nested transaction for embedding/enrichment rollback safety.
- Conversation WS: logger.exception for pipeline errors (avoid loguru KeyError).
- app-eval-web: Playground saved replays, dialogue turns helper, hash user_id
  for Memoir; Memoir chapter baseline↔DB row compare with title heuristics;
  Stories page (#memoir-stories); Markdown + copy buttons; toolbar/panel UI;
  react-markdown; development proxy and fixture updates.

											
										
										
											2026-04-07 17:15:01 +08:00
+								total_score,
 								major_strengths, major_issues, insufficient_evidence, evidence_refs, confidence, rationale
 								`evidence_refs`：数组，每项为对象，字段 `dimension`（上列英文名之一）、`turn_index`（整数，对应输入中的 `[Turn k]` 的 k；未知用 -1）、`snippet`（≤120 字引用或简述）。
 								`confidence`：0 到 1 之间小数，表示你对本次评分整体可信度（证据充分则偏高）。
-												refactor(chat): AI-native prompts, remove interview heuristics

- Drop interview_reply_length and utterance_substance; always run stage LLM
  and memory retrieval when enabled; trim Settings fields and .env.example.
- Replace guided/opening prompts with compact fact blocks plus unified
  behavior guidance; slim background_voice and persona to tone hints.
- InterviewAgent uses fixed chat_interview max_tokens/chars/segments.

Also includes stacked work: profile followup/extract path, evaluation rubric
and judge schema updates, transcript SPLIT handling in execution service,
user export markdown split tests, and golden case fixture.

											
										
										
											2026-04-06 22:22:50 +08:00
-												feat(evaluation): memoir readiness, judge/replay updates, eval web playground

Add memoir_readiness_service and router tests; extend judge schemas/services, replay_service, and conversation rubric; align story route agent, payload, prompts, and story_pipeline_sync; update agent logging, config, and DI. Document internal-eval; add replayDraft util and PlaygroundPage changes in app-eval-web.

											
										
										
											2026-04-08 09:38:07 +08:00
+								`total_score` 必须等于上述 15 个细项之和（满分 100）。**输出前将 15 项逐项相加验算**；勿在未顶格时默认写 100（例如情绪四项为 9+8+6+6、其余块均顶格时，合计为 99 而非 100）。
-												feat(evaluation): 成稿 100 分 rubric、证据评审与评测台调整

- 回忆录细项上限收紧为合计 100 分，去掉 110 折算与 raw_dimension_total
- judge_memoir 拼接原始访谈与可选导出基线；无证据时提示保守打真实性相关分
- 自动评测 run 与手动章节/故事评审统一带 transcript 证据（会话/用户聚合、截断）
- 访谈打分仍为情绪强化版 15 细项、总分 100
- 评测台默认基准改为 zuckxu 导出 MD；移除逐轮用户句对齐表及相关逻辑
- 新增 judge schema 与 memoir prompt 组装的单元测试

											
										
										
											2026-04-07 10:34:59 +08:00
+								聚合分 emotion_score、information_score、persona_score、structure_score、question_score 可不填（服务端会重算）。
 								只输出 JSON。
 								"""
-												feat/ 导出开发容器内的数据用于评估

											
										
										
											2026-04-03 14:44:46 +08:00
-												feat(evaluation): 成稿 100 分 rubric、证据评审与评测台调整

- 回忆录细项上限收紧为合计 100 分，去掉 110 折算与 raw_dimension_total
- judge_memoir 拼接原始访谈与可选导出基线；无证据时提示保守打真实性相关分
- 自动评测 run 与手动章节/故事评审统一带 transcript 证据（会话/用户聚合、截断）
- 访谈打分仍为情绪强化版 15 细项、总分 100
- 评测台默认基准改为 zuckxu 导出 MD；移除逐轮用户句对齐表及相关逻辑
- 新增 judge schema 与 memoir prompt 组装的单元测试

											
										
										
											2026-04-07 10:34:59 +08:00
 								TURN_JUDGE_INSTRUCTIONS = (
-												feat(eval): internal-eval stack, judge fixes, and eval web overhaul

- Merge internal-eval into development.sh (single Celery/infra); internal-eval.sh
  wraps with LIFE_ECHO_WITH_INTERNAL_EVAL; EVAL_ATTACH_ONLY for attaching 8001
  when :8000 is already up; document in api/docs/internal-eval.md.
- Evaluation: transcript_for_judge, judge error surfacing, rubric/schema tweaks,
  execution_service and router updates; tests for judge and composite eval.
- Memory: ingest nested transaction for embedding/enrichment rollback safety.
- Conversation WS: logger.exception for pipeline errors (avoid loguru KeyError).
- app-eval-web: Playground saved replays, dialogue turns helper, hash user_id
  for Memoir; Memoir chapter baseline↔DB row compare with title heuristics;
  Stories page (#memoir-stories); Markdown + copy buttons; toolbar/panel UI;
  react-markdown; development proxy and fixture updates.

											
										
										
											2026-04-07 17:15:01 +08:00
+								    "你是「岁月留书」访谈对话质量评审员：保守、证据优先、可复核。按下列 **情绪强化版** rubric 为本轮 AI 回复打分。\n"
 								    + _JUDGING_CHARTER
 								    + _TURN_SCOPE
-												feat(evaluation): 成稿 100 分 rubric、证据评审与评测台调整

- 回忆录细项上限收紧为合计 100 分，去掉 110 折算与 raw_dimension_total
- judge_memoir 拼接原始访谈与可选导出基线；无证据时提示保守打真实性相关分
- 自动评测 run 与手动章节/故事评审统一带 transcript 证据（会话/用户聚合、截断）
- 访谈打分仍为情绪强化版 15 细项、总分 100
- 评测台默认基准改为 zuckxu 导出 MD；移除逐轮用户句对齐表及相关逻辑
- 新增 judge schema 与 memoir prompt 组装的单元测试

											
										
										
											2026-04-07 10:34:59 +08:00
+								    + _CONV_LEAF_SPEC
 								)
 								CONV_JUDGE_INSTRUCTIONS = (
-												feat(eval): internal-eval stack, judge fixes, and eval web overhaul

- Merge internal-eval into development.sh (single Celery/infra); internal-eval.sh
  wraps with LIFE_ECHO_WITH_INTERNAL_EVAL; EVAL_ATTACH_ONLY for attaching 8001
  when :8000 is already up; document in api/docs/internal-eval.md.
- Evaluation: transcript_for_judge, judge error surfacing, rubric/schema tweaks,
  execution_service and router updates; tests for judge and composite eval.
- Memory: ingest nested transaction for embedding/enrichment rollback safety.
- Conversation WS: logger.exception for pipeline errors (avoid loguru KeyError).
- app-eval-web: Playground saved replays, dialogue turns helper, hash user_id
  for Memoir; Memoir chapter baseline↔DB row compare with title heuristics;
  Stories page (#memoir-stories); Markdown + copy buttons; toolbar/panel UI;
  react-markdown; development proxy and fixture updates.

											
										
										
											2026-04-07 17:15:01 +08:00
+								    "你是「岁月留书」访谈**整段对话**质量评审员：保守、证据优先。给定带 `[Turn k]` 标记的完整 transcript，"
 								    "按下列 15 项细项的满分上限，对 AI **多轮整体轨迹**打一次分；`total_score` 为细项之和（100）。\n"
 								    + _JUDGING_CHARTER
 								    + _CONV_SCOPE
 								    + _CONV_LEAF_SPEC
-												feat(evaluation): 成稿 100 分 rubric、证据评审与评测台调整

- 回忆录细项上限收紧为合计 100 分，去掉 110 折算与 raw_dimension_total
- judge_memoir 拼接原始访谈与可选导出基线；无证据时提示保守打真实性相关分
- 自动评测 run 与手动章节/故事评审统一带 transcript 证据（会话/用户聚合、截断）
- 访谈打分仍为情绪强化版 15 细项、总分 100
- 评测台默认基准改为 zuckxu 导出 MD；移除逐轮用户句对齐表及相关逻辑
- 新增 judge schema 与 memoir prompt 组装的单元测试

											
										
										
											2026-04-07 10:34:59 +08:00
+								)
-												feat/ eval

											
										
										
											2026-04-06 23:19:20 +08:00
 								COMPARE_CONV_STREAM_HINT = """你是访谈对话评测专家。下面给出一份「回放/新测」完整对话 transcript 及其整体评分（JSON）。请用中文直接写正文（不要用 JSON）：
-												feat(evaluation): 成稿 100 分 rubric、证据评审与评测台调整

- 回忆录细项上限收紧为合计 100 分，去掉 110 折算与 raw_dimension_total
- judge_memoir 拼接原始访谈与可选导出基线；无证据时提示保守打真实性相关分
- 自动评测 run 与手动章节/故事评审统一带 transcript 证据（会话/用户聚合、截断）
- 访谈打分仍为情绪强化版 15 细项、总分 100
- 评测台默认基准改为 zuckxu 导出 MD；移除逐轮用户句对齐表及相关逻辑
- 新增 judge schema 与 memoir prompt 组装的单元测试

											
										
										
											2026-04-07 10:34:59 +08:00
+) 对这段对话的整体评价与风险点（对照情绪承接、信息挖掘、人物、结构、提问质量等）；
-												feat/ eval

											
										
										
											2026-04-06 23:19:20 +08:00
+) 可操作的改进建议（提示词、流程、模型参数等）。
 								笔调简洁、可执行。"""