Files
life-echo/api/app/features/evaluation/rubrics/memoir_v1.py
Kevin 5972b0e721 feat(evaluation): 成稿 100 分 rubric、证据评审与评测台调整
- 回忆录细项上限收紧为合计 100 分,去掉 110 折算与 raw_dimension_total
- judge_memoir 拼接原始访谈与可选导出基线;无证据时提示保守打真实性相关分
- 自动评测 run 与手动章节/故事评审统一带 transcript 证据(会话/用户聚合、截断)
- 访谈打分仍为情绪强化版 15 细项、总分 100
- 评测台默认基准改为 zuckxu 导出 MD;移除逐轮用户句对齐表及相关逻辑
- 新增 judge schema 与 memoir prompt 组装的单元测试
2026-04-07 10:36:22 +08:00

74 lines
3.4 KiB
Python
Raw Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
"""回忆录成稿评审 rubric 文本v1 · 子项上限合计 100 分制)。
说明:原产品表九个大类上限之和为 110本 rubric 将各细项上限整档收紧,使九类小计之和为 100
便于与 `total_score` 直接一致,无需再折算。
"""
_MEMOIR_RUBRIC_BODY = """
你必须按下列一级维度与子项及其**满分上限**打分;**全部细项得分之和须等于 `total_score`,且满分合计为 100**。
## 一、真实性与覆盖(小计最高 23
1. mem_fidelity记忆忠实度最高 9hallucination、夸大/弱化/改写、因果关系、未证实推测、AI 补全编造。
2. mem_factual_accuracy事实准确性最高 5时间、人物关系、顺序、内部矛盾、数值细节。
3. mem_factual_coverage事实覆盖率最高 5关键/高情感事件、关键人物与细节是否遗漏。
4. mem_traceability记忆可追溯性最高 4与原始对话映射、来源模糊、证据与语义保持。
## 二、信息质量(小计最高 14
5. info_slot_coverage槽位覆盖度最高 6
6. info_sufficiency信息充分性最高 4
7. info_density信息密度最高 4
## 三、叙事结构(小计最高 14
8. narr_structure故事结构最高 6
9. narr_paragraphs段落组织最高 5
10. narr_pacing节奏控制最高 3
## 四、语言与文笔(小计最高 18
11. lang_fluency语言流畅度最高 3
12. lang_conciseness表达精炼度最高 3
13. lang_literary文笔质量最高 4
14. lang_controlled_expansion控制性扩写最高 4
15. lang_detail细节还原与强化最高 2
16. lang_style风格一致性最高 2
## 五、情感表达(小计最高 9
17. emo_authenticity情感真实度最高 5
18. emo_depth情感深度最高 4
## 六、人物建模(小计最高 9
19. char_understanding人物理解最高 4
20. char_consistency人物一致性最高 3
21. char_integration人物融入度最高 2
## 七、连贯性(小计最高 4
22. coh_timeline时间线一致性最高 2
23. coh_cross_chapter跨章节关联最高 2
## 八、表达丰富度(小计最高 5
24. rich_analogy类比与引用最高 3
25. rich_diversity表达多样性最高 2
## 九、出版就绪度(小计最高 4
26. pub_editorial_cost编辑成本最高 2
27. pub_completeness完整度最高 2
输出 JSON 字段(仅这些键;分值浮点;务必含 rationale 中文简述):
mem_fidelity, mem_factual_accuracy, mem_factual_coverage, mem_traceability,
info_slot_coverage, info_sufficiency, info_density,
narr_structure, narr_paragraphs, narr_pacing,
lang_fluency, lang_conciseness, lang_literary, lang_controlled_expansion, lang_detail, lang_style,
emo_authenticity, emo_depth,
char_understanding, char_consistency, char_integration,
coh_timeline, coh_cross_chapter,
rich_analogy, rich_diversity,
pub_editorial_cost, pub_completeness,
total_score, rationale
一级聚合分 authenticity_score、information_score、narrative_score、language_score、emotion_score、character_score、coherence_score、richness_score、publish_ready_score 可不填(服务端会按细项重算)。
只输出 JSON。"""
MEMOIR_JUDGE_INSTRUCTIONS = (
"你是「岁月留书」回忆录成稿评审,必须严格按照下列 rubric 打分。\n"
+ _MEMOIR_RUBRIC_BODY
)