feat: 回忆录证据血缘与内部评测可追溯，顺带对齐本地评测台与 CI

数据库与模型：新增多版迁移（章节证据快照、对话血缘、记忆事实/时间线 lineage 等），把「成稿 ↔ 对话/记忆」的溯源信息落到表结构里。业务链路：会话与 WS、回忆录/故事流水线、记忆写入与 enrichment 等跟着接上线索与快照；新增章节证据快照与评测侧 EvalTraceService 等模块，方便组评审用的证据包。内部评测：自动化 run 与手工 memoir 评审共用可追溯证据；rubric/ judge 相关脚本与文档有配套调整。 app-eval-web：Memoir/实验详情里能展开看证据摘要与 evidence_trace（含对话轮次 id）；Vite 代理与 development.sh 注入的 API 端口与当前默认内部评测端口一致，避免改端口后页面连错服务。工程杂项：GitHub Actions / 仓库说明有更新；各适配器与支付/配额/plan 等多处为小改动或跟随主改动的收尾；新增/扩充了?
2026-04-08 15:37:09 +08:00
parent 6772e1269c
commit 309a051038
109 changed files with 4125 additions and 858 deletions
--- a/api/app/features/evaluation/rubrics/memoir_v1.py
+++ b/api/app/features/evaluation/rubrics/memoir_v1.py
@@ -6,7 +6,7 @@

 _MEMOIR_CHARTER = """
 ## 评审总原则（必须遵守）
- **证据层级**：以【原始访谈/证据】为最高优先级判定真实性与覆盖；【参考基线/导出成稿】仅辅助对照，不得以基线对错代替证据对错。
+- **证据层级**：以【原始访谈/对话证据】+【结构化记忆证据】共同为 artifact 绑定闭包；二者缺一不可时不等于「无证据」——须区分「证据未进 prompt（见评审说明中的截断）」与「数据库确无 lineage」。【参考基线/导出成稿】仅辅助对照，不得以基线对错代替证据对错。
 - 只依据输入中可核对的文字评分；不得臆测用户人生经历。
 - **缺少原文证据不等于「写得好」**：无证据或证据极短时，`mem_fidelity`、`mem_factual_coverage`、`mem_traceability` 等须保守，并在 `insufficient_evidence` 说明。
 - **文笔与结构不得抵消事实问题**：`lang_*`、`narr_*` 高分不得与明显编造、张冠李戴并存。
@@ -76,6 +76,7 @@ total_score,
 major_strengths, major_issues, insufficient_evidence, evidence_refs, confidence, rationale

 `evidence_refs`：数组，每项为对象，字段 `dimension`（上列 mem_* / info_* 等英文名之一）、`turn_index`（无对话轮次用 -1）、`snippet`（≤120 字引文或定位）。
+若输入证据中包含 `dialogue_lineage.turns`，可在 `snippet` 中引用对应轮的 `user_message_id` / `assistant_message_id` 作为可机读定位（与口语引文可同时出现）。

 `confidence`：0 到 1 之间小数。