feat(evaluation): 成稿 100 分 rubric、证据评审与评测台调整

- 回忆录细项上限收紧为合计 100 分,去掉 110 折算与 raw_dimension_total
- judge_memoir 拼接原始访谈与可选导出基线;无证据时提示保守打真实性相关分
- 自动评测 run 与手动章节/故事评审统一带 transcript 证据(会话/用户聚合、截断)
- 访谈打分仍为情绪强化版 15 细项、总分 100
- 评测台默认基准改为 zuckxu 导出 MD;移除逐轮用户句对齐表及相关逻辑
- 新增 judge schema 与 memoir prompt 组装的单元测试
This commit is contained in:
Kevin
2026-04-07 10:34:59 +08:00
parent ea97427767
commit 5972b0e721
9 changed files with 616 additions and 235 deletions

View File

@@ -1,11 +1,73 @@
"""回忆录成稿评审 rubric 文本v1)。"""
"""回忆录成稿评审 rubric 文本v1 · 子项上限合计 100 分制)。
MEMOIR_JUDGE_INSTRUCTIONS = """你是「岁月留书」回忆录成稿评审。根据真实性与覆盖、信息质量、叙事结构、语言文笔、情感、人物、连贯性、表达丰富度、出版就绪等,给出分项分(上限与 total_score 满分 100 一致)。
说明:原产品表九个大类上限之和为 110本 rubric 将各细项上限整档收紧,使九类小计之和为 100
便于与 `total_score` 直接一致,无需再折算。
"""
输出 JSON 字段:
total_score,
authenticity_score, information_score, narrative_score, language_score,
emotion_score, character_score, coherence_score, richness_score, publish_ready_score,
rationale
_MEMOIR_RUBRIC_BODY = """
你必须按下列一级维度与子项及其**满分上限**打分;**全部细项得分之和须等于 `total_score`,且满分合计为 100**。
## 一、真实性与覆盖(小计最高 23
1. mem_fidelity记忆忠实度最高 9hallucination、夸大/弱化/改写、因果关系、未证实推测、AI 补全编造。
2. mem_factual_accuracy事实准确性最高 5时间、人物关系、顺序、内部矛盾、数值细节。
3. mem_factual_coverage事实覆盖率最高 5关键/高情感事件、关键人物与细节是否遗漏。
4. mem_traceability记忆可追溯性最高 4与原始对话映射、来源模糊、证据与语义保持。
## 二、信息质量(小计最高 14
5. info_slot_coverage槽位覆盖度最高 6
6. info_sufficiency信息充分性最高 4
7. info_density信息密度最高 4
## 三、叙事结构(小计最高 14
8. narr_structure故事结构最高 6
9. narr_paragraphs段落组织最高 5
10. narr_pacing节奏控制最高 3
## 四、语言与文笔(小计最高 18
11. lang_fluency语言流畅度最高 3
12. lang_conciseness表达精炼度最高 3
13. lang_literary文笔质量最高 4
14. lang_controlled_expansion控制性扩写最高 4
15. lang_detail细节还原与强化最高 2
16. lang_style风格一致性最高 2
## 五、情感表达(小计最高 9
17. emo_authenticity情感真实度最高 5
18. emo_depth情感深度最高 4
## 六、人物建模(小计最高 9
19. char_understanding人物理解最高 4
20. char_consistency人物一致性最高 3
21. char_integration人物融入度最高 2
## 七、连贯性(小计最高 4
22. coh_timeline时间线一致性最高 2
23. coh_cross_chapter跨章节关联最高 2
## 八、表达丰富度(小计最高 5
24. rich_analogy类比与引用最高 3
25. rich_diversity表达多样性最高 2
## 九、出版就绪度(小计最高 4
26. pub_editorial_cost编辑成本最高 2
27. pub_completeness完整度最高 2
输出 JSON 字段(仅这些键;分值浮点;务必含 rationale 中文简述):
mem_fidelity, mem_factual_accuracy, mem_factual_coverage, mem_traceability,
info_slot_coverage, info_sufficiency, info_density,
narr_structure, narr_paragraphs, narr_pacing,
lang_fluency, lang_conciseness, lang_literary, lang_controlled_expansion, lang_detail, lang_style,
emo_authenticity, emo_depth,
char_understanding, char_consistency, char_integration,
coh_timeline, coh_cross_chapter,
rich_analogy, rich_diversity,
pub_editorial_cost, pub_completeness,
total_score, rationale
一级聚合分 authenticity_score、information_score、narrative_score、language_score、emotion_score、character_score、coherence_score、richness_score、publish_ready_score 可不填(服务端会按细项重算)。
只输出 JSON。"""
MEMOIR_JUDGE_INSTRUCTIONS = (
"你是「岁月留书」回忆录成稿评审,必须严格按照下列 rubric 打分。\n"
+ _MEMOIR_RUBRIC_BODY
)