feat: 回忆录证据血缘与内部评测可追溯,顺带对齐本地评测台与 CI
数据库与模型:新增多版迁移(章节证据快照、对话血缘、记忆事实/时间线 lineage 等),把「成稿 ↔ 对话/记忆」的溯源信息落到表结构里。 业务链路:会话与 WS、回忆录/故事流水线、记忆写入与 enrichment 等跟着接上线索与快照;新增章节证据快照与评测侧 EvalTraceService 等模块,方便组评审用的证据包。 内部评测:自动化 run 与手工 memoir 评审共用可追溯证据;rubric/ judge 相关脚本与文档有配套调整。 app-eval-web:Memoir/实验详情里能展开看证据摘要与 evidence_trace(含对话轮次 id);Vite 代理与 development.sh 注入的 API 端口与当前默认内部评测端口一致,避免改端口后页面连错服务。 工程杂项:GitHub Actions / 仓库说明有更新;各适配器与支付/配额/plan 等多处为小改动或跟随主改动的收尾;新增/扩充了?
This commit is contained in:
@@ -6,7 +6,7 @@
|
||||
|
||||
_MEMOIR_CHARTER = """
|
||||
## 评审总原则(必须遵守)
|
||||
- **证据层级**:以【原始访谈/证据】为最高优先级判定真实性与覆盖;【参考基线/导出成稿】仅辅助对照,不得以基线对错代替证据对错。
|
||||
- **证据层级**:以【原始访谈/对话证据】+【结构化记忆证据】共同为 artifact 绑定闭包;二者缺一不可时不等于「无证据」——须区分「证据未进 prompt(见评审说明中的截断)」与「数据库确无 lineage」。【参考基线/导出成稿】仅辅助对照,不得以基线对错代替证据对错。
|
||||
- 只依据输入中可核对的文字评分;不得臆测用户人生经历。
|
||||
- **缺少原文证据不等于「写得好」**:无证据或证据极短时,`mem_fidelity`、`mem_factual_coverage`、`mem_traceability` 等须保守,并在 `insufficient_evidence` 说明。
|
||||
- **文笔与结构不得抵消事实问题**:`lang_*`、`narr_*` 高分不得与明显编造、张冠李戴并存。
|
||||
@@ -76,6 +76,7 @@ total_score,
|
||||
major_strengths, major_issues, insufficient_evidence, evidence_refs, confidence, rationale
|
||||
|
||||
`evidence_refs`:数组,每项为对象,字段 `dimension`(上列 mem_* / info_* 等英文名之一)、`turn_index`(无对话轮次用 -1)、`snippet`(≤120 字引文或定位)。
|
||||
若输入证据中包含 `dialogue_lineage.turns`,可在 `snippet` 中引用对应轮的 `user_message_id` / `assistant_message_id` 作为可机读定位(与口语引文可同时出现)。
|
||||
|
||||
`confidence`:0 到 1 之间小数。
|
||||
|
||||
|
||||
Reference in New Issue
Block a user