api/app/features/evaluation/rubrics/conversation_v1.py

"""对话评审 rubric 文本（v1 · 访谈「情绪强化版」100 分）。"""

_CONV_LEAF_SPEC = """
## 一、情绪价值与陪伴感（小计最高 30）
- emotion_carry（情绪承接能力，最高 10）：是否接住情绪、reflect、避免冷战与模板「我理解你」。
- empathy_depth（共情深度，最高 8）：情绪类型是否准、语境贴合、非空洞安慰。
- emotion_safety（情绪安全感，最高 6）：非评判、尊重、敏感话题语气、可跳过。
- emotion_guidance（情绪引导能力，最高 6）：引导感受、关键节点追问情绪、表达更具体。

## 二、信息获取能力（小计最高 25）
- fact_mining（关键事实挖掘，最高 8）
- info_completeness_guide（信息完整性引导，最高 8）
- info_depth_mining（信息深度挖掘，最高 9）：为何、动机与影响。

## 三、人物建模能力（小计最高 15）
- persona_understanding（人物理解，最高 7）
- persona_consistency_verify（人物一致性验证，最高 4）：矛盾澄清。
- persona_expression_guide（人物表达引导，最高 4）：「你是谁」层面。

## 四、结构化引导（小计最高 15）
- interview_structure（访谈结构，最高 6）：阶段与逻辑。
- context_memory（上下文记忆，最高 5）：关联前文；**重复盘问、同一槽位反复**在此项扣分。
- rhythm_control（节奏控制，最高 4）：自然；**采访腔、总结腔、流程感**在此项与情绪项综合体现。

## 五、提问质量（小计最高 15）
- question_quality（问题质量，最高 7）：开放、具体。
- follow_up_depth（追问能力，最高 5）
- non_leading（非引导性，最高 3）

输出 JSON 字段（仅这些键；务必含 rationale）：
emotion_carry, empathy_depth, emotion_safety, emotion_guidance,
fact_mining, info_completeness_guide, info_depth_mining,
persona_understanding, persona_consistency_verify, persona_expression_guide,
interview_structure, context_memory, rhythm_control,
question_quality, follow_up_depth, non_leading,
total_score, rationale

`total_score` 必须等于上述 15 个细项之和（满分 100）。
聚合分 emotion_score、information_score、persona_score、structure_score、question_score 可不填（服务端会重算）。
只输出 JSON。
"""


TURN_JUDGE_INSTRUCTIONS = (
    "你是「岁月留书」访谈对话质量评审，按下列 **情绪强化版** rubric 为本轮 AI 回复打分。\n"
    + _CONV_LEAF_SPEC
)


CONV_JUDGE_INSTRUCTIONS = (
    "你是访谈整段对话评审。给定完整 transcript（用户与 AI 多轮），按与单轮**相同**的 15 项细项与满分上限，"
    "对**整段对话表现**打一次分；`total_score` 为细项之和（100）。\n" + _CONV_LEAF_SPEC
)


COMPARE_CONV_STREAM_HINT = """你是访谈对话评测专家。下面给出一份「回放/新测」完整对话 transcript 及其整体评分（JSON）。请用中文直接写正文（不要用 JSON）：
1) 对这段对话的整体评价与风险点（对照情绪承接、信息挖掘、人物、结构、提问质量等）；
2) 可操作的改进建议（提示词、流程、模型参数等）。

笔调简洁、可执行。"""
-												feat(evaluation): 成稿 100 分 rubric、证据评审与评测台调整

- 回忆录细项上限收紧为合计 100 分，去掉 110 折算与 raw_dimension_total
- judge_memoir 拼接原始访谈与可选导出基线；无证据时提示保守打真实性相关分
- 自动评测 run 与手动章节/故事评审统一带 transcript 证据（会话/用户聚合、截断）
- 访谈打分仍为情绪强化版 15 细项、总分 100
- 评测台默认基准改为 zuckxu 导出 MD；移除逐轮用户句对齐表及相关逻辑
- 新增 judge schema 与 memoir prompt 组装的单元测试

											
										
										
											2026-04-07 10:34:59 +08:00
+								"""对话评审 rubric 文本（v1 · 访谈「情绪强化版」100 分）。"""
-												feat/ 导出开发容器内的数据用于评估

											
										
										
											2026-04-03 14:44:46 +08:00
-												feat(evaluation): 成稿 100 分 rubric、证据评审与评测台调整

- 回忆录细项上限收紧为合计 100 分，去掉 110 折算与 raw_dimension_total
- judge_memoir 拼接原始访谈与可选导出基线；无证据时提示保守打真实性相关分
- 自动评测 run 与手动章节/故事评审统一带 transcript 证据（会话/用户聚合、截断）
- 访谈打分仍为情绪强化版 15 细项、总分 100
- 评测台默认基准改为 zuckxu 导出 MD；移除逐轮用户句对齐表及相关逻辑
- 新增 judge schema 与 memoir prompt 组装的单元测试

											
										
										
											2026-04-07 10:34:59 +08:00
+								_CONV_LEAF_SPEC = """
 								## 一、情绪价值与陪伴感（小计最高 30）
 								- emotion_carry（情绪承接能力，最高 10）：是否接住情绪、reflect、避免冷战与模板「我理解你」。
 								- empathy_depth（共情深度，最高 8）：情绪类型是否准、语境贴合、非空洞安慰。
 								- emotion_safety（情绪安全感，最高 6）：非评判、尊重、敏感话题语气、可跳过。
 								- emotion_guidance（情绪引导能力，最高 6）：引导感受、关键节点追问情绪、表达更具体。
-												feat/ 导出开发容器内的数据用于评估

											
										
										
											2026-04-03 14:44:46 +08:00
-												feat(evaluation): 成稿 100 分 rubric、证据评审与评测台调整

- 回忆录细项上限收紧为合计 100 分，去掉 110 折算与 raw_dimension_total
- judge_memoir 拼接原始访谈与可选导出基线；无证据时提示保守打真实性相关分
- 自动评测 run 与手动章节/故事评审统一带 transcript 证据（会话/用户聚合、截断）
- 访谈打分仍为情绪强化版 15 细项、总分 100
- 评测台默认基准改为 zuckxu 导出 MD；移除逐轮用户句对齐表及相关逻辑
- 新增 judge schema 与 memoir prompt 组装的单元测试

											
										
										
											2026-04-07 10:34:59 +08:00
+								## 二、信息获取能力（小计最高 25）
 								- fact_mining（关键事实挖掘，最高 8）
 								- info_completeness_guide（信息完整性引导，最高 8）
 								- info_depth_mining（信息深度挖掘，最高 9）：为何、动机与影响。
-												feat/ 导出开发容器内的数据用于评估

											
										
										
											2026-04-03 14:44:46 +08:00
-												feat(evaluation): 成稿 100 分 rubric、证据评审与评测台调整

- 回忆录细项上限收紧为合计 100 分，去掉 110 折算与 raw_dimension_total
- judge_memoir 拼接原始访谈与可选导出基线；无证据时提示保守打真实性相关分
- 自动评测 run 与手动章节/故事评审统一带 transcript 证据（会话/用户聚合、截断）
- 访谈打分仍为情绪强化版 15 细项、总分 100
- 评测台默认基准改为 zuckxu 导出 MD；移除逐轮用户句对齐表及相关逻辑
- 新增 judge schema 与 memoir prompt 组装的单元测试

											
										
										
											2026-04-07 10:34:59 +08:00
+								## 三、人物建模能力（小计最高 15）
 								- persona_understanding（人物理解，最高 7）
 								- persona_consistency_verify（人物一致性验证，最高 4）：矛盾澄清。
 								- persona_expression_guide（人物表达引导，最高 4）：「你是谁」层面。
-												feat/ 导出开发容器内的数据用于评估

											
										
										
											2026-04-03 14:44:46 +08:00
-												feat(evaluation): 成稿 100 分 rubric、证据评审与评测台调整

- 回忆录细项上限收紧为合计 100 分，去掉 110 折算与 raw_dimension_total
- judge_memoir 拼接原始访谈与可选导出基线；无证据时提示保守打真实性相关分
- 自动评测 run 与手动章节/故事评审统一带 transcript 证据（会话/用户聚合、截断）
- 访谈打分仍为情绪强化版 15 细项、总分 100
- 评测台默认基准改为 zuckxu 导出 MD；移除逐轮用户句对齐表及相关逻辑
- 新增 judge schema 与 memoir prompt 组装的单元测试

											
										
										
											2026-04-07 10:34:59 +08:00
+								## 四、结构化引导（小计最高 15）
 								- interview_structure（访谈结构，最高 6）：阶段与逻辑。
 								- context_memory（上下文记忆，最高 5）：关联前文；**重复盘问、同一槽位反复**在此项扣分。
 								- rhythm_control（节奏控制，最高 4）：自然；**采访腔、总结腔、流程感**在此项与情绪项综合体现。
-												feat/ 导出开发容器内的数据用于评估

											
										
										
											2026-04-03 14:44:46 +08:00
-												feat(evaluation): 成稿 100 分 rubric、证据评审与评测台调整

- 回忆录细项上限收紧为合计 100 分，去掉 110 折算与 raw_dimension_total
- judge_memoir 拼接原始访谈与可选导出基线；无证据时提示保守打真实性相关分
- 自动评测 run 与手动章节/故事评审统一带 transcript 证据（会话/用户聚合、截断）
- 访谈打分仍为情绪强化版 15 细项、总分 100
- 评测台默认基准改为 zuckxu 导出 MD；移除逐轮用户句对齐表及相关逻辑
- 新增 judge schema 与 memoir prompt 组装的单元测试

											
										
										
											2026-04-07 10:34:59 +08:00
+								## 五、提问质量（小计最高 15）
 								- question_quality（问题质量，最高 7）：开放、具体。
 								- follow_up_depth（追问能力，最高 5）
 								- non_leading（非引导性，最高 3）
-												feat/ 导出开发容器内的数据用于评估

											
										
										
											2026-04-03 14:44:46 +08:00
-												feat(evaluation): 成稿 100 分 rubric、证据评审与评测台调整

- 回忆录细项上限收紧为合计 100 分，去掉 110 折算与 raw_dimension_total
- judge_memoir 拼接原始访谈与可选导出基线；无证据时提示保守打真实性相关分
- 自动评测 run 与手动章节/故事评审统一带 transcript 证据（会话/用户聚合、截断）
- 访谈打分仍为情绪强化版 15 细项、总分 100
- 评测台默认基准改为 zuckxu 导出 MD；移除逐轮用户句对齐表及相关逻辑
- 新增 judge schema 与 memoir prompt 组装的单元测试

											
										
										
											2026-04-07 10:34:59 +08:00
+								输出 JSON 字段（仅这些键；务必含 rationale）：
 								emotion_carry, empathy_depth, emotion_safety, emotion_guidance,
 								fact_mining, info_completeness_guide, info_depth_mining,
 								persona_understanding, persona_consistency_verify, persona_expression_guide,
 								interview_structure, context_memory, rhythm_control,
 								question_quality, follow_up_depth, non_leading,
 								total_score, rationale
-												refactor(chat): AI-native prompts, remove interview heuristics

- Drop interview_reply_length and utterance_substance; always run stage LLM
  and memory retrieval when enabled; trim Settings fields and .env.example.
- Replace guided/opening prompts with compact fact blocks plus unified
  behavior guidance; slim background_voice and persona to tone hints.
- InterviewAgent uses fixed chat_interview max_tokens/chars/segments.

Also includes stacked work: profile followup/extract path, evaluation rubric
and judge schema updates, transcript SPLIT handling in execution service,
user export markdown split tests, and golden case fixture.

											
										
										
											2026-04-06 22:22:50 +08:00
-												feat(evaluation): 成稿 100 分 rubric、证据评审与评测台调整

- 回忆录细项上限收紧为合计 100 分，去掉 110 折算与 raw_dimension_total
- judge_memoir 拼接原始访谈与可选导出基线；无证据时提示保守打真实性相关分
- 自动评测 run 与手动章节/故事评审统一带 transcript 证据（会话/用户聚合、截断）
- 访谈打分仍为情绪强化版 15 细项、总分 100
- 评测台默认基准改为 zuckxu 导出 MD；移除逐轮用户句对齐表及相关逻辑
- 新增 judge schema 与 memoir prompt 组装的单元测试

											
										
										
											2026-04-07 10:34:59 +08:00
+								`total_score` 必须等于上述 15 个细项之和（满分 100）。
 								聚合分 emotion_score、information_score、persona_score、structure_score、question_score 可不填（服务端会重算）。
 								只输出 JSON。
 								"""
-												feat/ 导出开发容器内的数据用于评估

											
										
										
											2026-04-03 14:44:46 +08:00
-												feat(evaluation): 成稿 100 分 rubric、证据评审与评测台调整

- 回忆录细项上限收紧为合计 100 分，去掉 110 折算与 raw_dimension_total
- judge_memoir 拼接原始访谈与可选导出基线；无证据时提示保守打真实性相关分
- 自动评测 run 与手动章节/故事评审统一带 transcript 证据（会话/用户聚合、截断）
- 访谈打分仍为情绪强化版 15 细项、总分 100
- 评测台默认基准改为 zuckxu 导出 MD；移除逐轮用户句对齐表及相关逻辑
- 新增 judge schema 与 memoir prompt 组装的单元测试

											
										
										
											2026-04-07 10:34:59 +08:00
 								TURN_JUDGE_INSTRUCTIONS = (
 								    "你是「岁月留书」访谈对话质量评审，按下列 **情绪强化版** rubric 为本轮 AI 回复打分。\n"
 								    + _CONV_LEAF_SPEC
 								)
 								CONV_JUDGE_INSTRUCTIONS = (
 								    "你是访谈整段对话评审。给定完整 transcript（用户与 AI 多轮），按与单轮**相同**的 15 项细项与满分上限，"
 								    "对**整段对话表现**打一次分；`total_score` 为细项之和（100）。\n" + _CONV_LEAF_SPEC
 								)
-												feat/ eval

											
										
										
											2026-04-06 23:19:20 +08:00
 								COMPARE_CONV_STREAM_HINT = """你是访谈对话评测专家。下面给出一份「回放/新测」完整对话 transcript 及其整体评分（JSON）。请用中文直接写正文（不要用 JSON）：
-												feat(evaluation): 成稿 100 分 rubric、证据评审与评测台调整

- 回忆录细项上限收紧为合计 100 分，去掉 110 折算与 raw_dimension_total
- judge_memoir 拼接原始访谈与可选导出基线；无证据时提示保守打真实性相关分
- 自动评测 run 与手动章节/故事评审统一带 transcript 证据（会话/用户聚合、截断）
- 访谈打分仍为情绪强化版 15 细项、总分 100
- 评测台默认基准改为 zuckxu 导出 MD；移除逐轮用户句对齐表及相关逻辑
- 新增 judge schema 与 memoir prompt 组装的单元测试

											
										
										
											2026-04-07 10:34:59 +08:00
+) 对这段对话的整体评价与风险点（对照情绪承接、信息挖掘、人物、结构、提问质量等）；
-												feat/ eval

											
										
										
											2026-04-06 23:19:20 +08:00
+) 可操作的改进建议（提示词、流程、模型参数等）。
 								笔调简洁、可执行。"""