feat: 回忆录证据血缘与内部评测可追溯,顺带对齐本地评测台与 CI

数据库与模型:新增多版迁移(章节证据快照、对话血缘、记忆事实/时间线 lineage 等),把「成稿 ↔ 对话/记忆」的溯源信息落到表结构里。
业务链路:会话与 WS、回忆录/故事流水线、记忆写入与 enrichment 等跟着接上线索与快照;新增章节证据快照与评测侧 EvalTraceService 等模块,方便组评审用的证据包。
内部评测:自动化 run 与手工 memoir 评审共用可追溯证据;rubric/ judge 相关脚本与文档有配套调整。
app-eval-web:Memoir/实验详情里能展开看证据摘要与 evidence_trace(含对话轮次 id);Vite 代理与 development.sh 注入的 API 端口与当前默认内部评测端口一致,避免改端口后页面连错服务。
工程杂项:GitHub Actions / 仓库说明有更新;各适配器与支付/配额/plan 等多处为小改动或跟随主改动的收尾;新增/扩充了?
This commit is contained in:
Kevin
2026-04-08 15:37:09 +08:00
parent 6772e1269c
commit 309a051038
109 changed files with 4125 additions and 858 deletions

View File

@@ -6,7 +6,7 @@
_MEMOIR_CHARTER = """
## 评审总原则(必须遵守)
- **证据层级**:以【原始访谈/证据】为最高优先级判定真实性与覆盖;【参考基线/导出成稿】仅辅助对照,不得以基线对错代替证据对错。
- **证据层级**:以【原始访谈/对话证据】+【结构化记忆证据】共同为 artifact 绑定闭包;二者缺一不可时不等于「无证据」——须区分「证据未进 prompt见评审说明中的截断」与「数据库确无 lineage」。【参考基线/导出成稿】仅辅助对照,不得以基线对错代替证据对错。
- 只依据输入中可核对的文字评分;不得臆测用户人生经历。
- **缺少原文证据不等于「写得好」**:无证据或证据极短时,`mem_fidelity`、`mem_factual_coverage`、`mem_traceability` 等须保守,并在 `insufficient_evidence` 说明。
- **文笔与结构不得抵消事实问题**`lang_*`、`narr_*` 高分不得与明显编造、张冠李戴并存。
@@ -76,6 +76,7 @@ total_score,
major_strengths, major_issues, insufficient_evidence, evidence_refs, confidence, rationale
`evidence_refs`:数组,每项为对象,字段 `dimension`(上列 mem_* / info_* 等英文名之一)、`turn_index`(无对话轮次用 -1、`snippet`≤120 字引文或定位)。
若输入证据中包含 `dialogue_lineage.turns`,可在 `snippet` 中引用对应轮的 `user_message_id` / `assistant_message_id` 作为可机读定位(与口语引文可同时出现)。
`confidence`0 到 1 之间小数。