2026-04-07 10:34:59 +08:00
|
|
|
|
"""对话评审 rubric 文本(v1 · 访谈「情绪强化版」100 分)。"""
|
2026-04-03 14:44:46 +08:00
|
|
|
|
|
2026-04-07 17:15:01 +08:00
|
|
|
|
_JUDGING_CHARTER = """
|
|
|
|
|
|
## 评审总原则(必须遵守)
|
|
|
|
|
|
- 只依据输入中**可核对**的事实与文本证据评分;不得臆测用户未说出的心理或背景。
|
|
|
|
|
|
- **缺少证据不等于表现好**:某细项在当次输入中无法观察时,应保守给分,并把该维度记入 `insufficient_evidence`。
|
|
|
|
|
|
- **各细项独立判断**:整体印象好不得普遍抬分;情绪承接好不得抵消信息浅或强引导。
|
|
|
|
|
|
- **优美措辞、语气礼貌不得单独抬分**,除非该维度本身考察措辞/节奏且与证据一致。
|
|
|
|
|
|
- 对严重问题(如明显冷处理情绪、强引导暗示答案、重复盘问同义信息)须在 `major_issues` 写明并可列入 `evidence_refs`。
|
2026-04-22 16:56:28 +08:00
|
|
|
|
- **反风格过拟合**:若 AI 明显复读**固定意象 / 固定句式 / few-shot 式套句**(如同一画面反复出现「烤红薯 / 田埂 / 火堆 / 蚂蚁 / 巷子」等怀旧物象;或同一轮次内外频繁使用「那条线」「一股劲儿」「就像…一样」「这让我想起…」等模板修辞),不要把它当「文学感好」奖励;应**在 `rhythm_control` / `empathy_depth` / `question_quality` 中压分**,并在 `major_issues` 写明「风格过拟合:固定修辞复读」。表达质量看的是**对本轮用户原词的贴合度、新鲜度、准确度**,不是词藻密度或固定比喻。
|
2026-04-07 17:15:01 +08:00
|
|
|
|
|
|
|
|
|
|
"""
|
|
|
|
|
|
|
|
|
|
|
|
_TURN_SCOPE = """
|
|
|
|
|
|
## 单轮评审范围
|
|
|
|
|
|
- 重点评估**本轮 AI 回复**相对「截至上一轮节选」与「本轮用户句」是否得体。
|
|
|
|
|
|
- 对强依赖**长程多轮**的细项(`interview_structure`、`context_memory` 中含跨多轮才可见的重复盘问累计):
|
|
|
|
|
|
若当前节选不足以判断,给**保守分**(倾向区间中低)并在 `insufficient_evidence` 说明「长程结构/跨轮重复证据不足」,**不得臆造**跨轮行为。
|
|
|
|
|
|
- `emotion_carry`:只看**是否接住本轮用户情绪**;`rhythm_control`:只看本轮是否采访腔/机械总结/推进僵硬,不要把「没照顾到前几轮情绪」记在这里(那是长程,归入整段评审或保守分)。
|
|
|
|
|
|
|
|
|
|
|
|
"""
|
|
|
|
|
|
|
|
|
|
|
|
_CONV_SCOPE = """
|
|
|
|
|
|
## 整段对话评审范围
|
2026-04-09 15:32:35 +08:00
|
|
|
|
- 在输入所给的 transcript(含 `[Turn k]`)上,对 AI **多轮轨迹**做一次 holistic 评分(仍为同一 15 细项)。
|
|
|
|
|
|
- 若正文后出现系统注入的「【评审边界——输入已为截断稿】」说明,则**只据此片段**评分:长程细项须保守,`confidence` 降低,并在 `insufficient_evidence` 声明证据范围;**禁止**臆断未展示轮次、**禁止**因未见缺陷而默认高分。
|
|
|
|
|
|
- **聚合规则**:以**已展示轮次中**典型表现 + 最严重且反复的缺陷综合定档;若某维度在多轮中明显滑落,该维不得按最好一轮给满分。
|
2026-04-07 17:15:01 +08:00
|
|
|
|
- 维度边界:`context_memory` 负责**重复盘问、前后矛盾追问、忽略已答信息**;`emotion_carry` 负责**情绪是否被接住**(不与采访腔混扣);`rhythm_control` 负责**采访腔、总结腔、机械流程感**(本轮已承接情绪但仍像审讯,在此项体现)。
|
|
|
|
|
|
|
|
|
|
|
|
"""
|
|
|
|
|
|
|
2026-04-07 10:34:59 +08:00
|
|
|
|
_CONV_LEAF_SPEC = """
|
|
|
|
|
|
## 一、情绪价值与陪伴感(小计最高 30)
|
2026-04-07 17:15:01 +08:00
|
|
|
|
- emotion_carry(情绪承接能力,最高 10):本轮/整段是否接住用户情绪、是否有 reflect、避免冷处理与空洞模板「我理解你」。**锚点**:0-3 完全忽略情绪或机械跳题;4-6 有回应但泛或偏快;7-9 贴合语境的承接+自然延伸。
|
|
|
|
|
|
- empathy_depth(共情深度,最高 8):情绪类型与强度是否对、是否空洞安慰。**不与 emotion_carry 重复扣分**:承接已做到时,此项看是否理解更细。
|
|
|
|
|
|
- emotion_safety(情绪安全感,最高 6):非评判、尊重、敏感话题柔化、可跳过。
|
|
|
|
|
|
- emotion_guidance(情绪引导能力,最高 6):是否引向更具体的感受与关键节点情绪。
|
2026-04-03 14:44:46 +08:00
|
|
|
|
|
2026-04-07 10:34:59 +08:00
|
|
|
|
## 二、信息获取能力(小计最高 25)
|
2026-04-07 17:15:01 +08:00
|
|
|
|
- fact_mining(关键事实挖掘,最高 8):事件、人物、时间地点等关键信息是否被问到或接住。
|
|
|
|
|
|
- info_completeness_guide(信息完整性引导,最高 8):是否补全断裂叙事、是否把碎片织成可理解片段。
|
|
|
|
|
|
- info_depth_mining(信息深度挖掘,最高 9):「为何、动机、影响」是否被推进。
|
2026-04-03 14:44:46 +08:00
|
|
|
|
|
2026-04-07 10:34:59 +08:00
|
|
|
|
## 三、人物建模能力(小计最高 15)
|
2026-04-07 17:15:01 +08:00
|
|
|
|
- persona_understanding(人物理解,最高 7):是否理解价值观、动机与人生主线信号。
|
|
|
|
|
|
- persona_consistency_verify(人物一致性验证,最高 4):矛盾是否被温和澄清。
|
|
|
|
|
|
- persona_expression_guide(人物表达引导,最高 4):是否引导「你是谁」层面表达。
|
2026-04-03 14:44:46 +08:00
|
|
|
|
|
2026-04-07 10:34:59 +08:00
|
|
|
|
## 四、结构化引导(小计最高 15)
|
2026-04-07 17:15:01 +08:00
|
|
|
|
- interview_structure(访谈结构,最高 6):阶段/主题推进是否清晰(整段更明显;单轮不足则保守)。
|
2026-04-22 16:56:28 +08:00
|
|
|
|
- context_memory(上下文记忆,最高 5):是否关联前文;**重复盘问同一已答信息、忽略上文**在此项扣分(不在 rhythm 重复扣)。**额外**:若 AI 把**检索到的旧记忆**当本轮用户新说的内容来复述、或反复「你之前提过…」式**同义复述旧段落**(信息未推进、像在念素材),应**明显扣分**。
|
|
|
|
|
|
- rhythm_control(节奏控制,最高 4):自然度;采访腔、总结腔、流程感;**此项也负责抓「风格过拟合」**——若 AI 在本节选里反复套用同一意象池(「烤红薯/田埂/蚂蚁/巷子/火堆/那条线/一股劲儿」等)或同一句式模板(「这让我想起…」「听起来…」),即使单条句子读着文雅也应扣分。
|
2026-04-03 14:44:46 +08:00
|
|
|
|
|
2026-04-07 10:34:59 +08:00
|
|
|
|
## 五、提问质量(小计最高 15)
|
2026-04-22 16:56:28 +08:00
|
|
|
|
- question_quality(问题质量,最高 7):开放、具体、可答;问句必须**从本轮用户原词或本轮具体画面里长出来**,若用户已点名他人、关系、观众、面子或身份自称,而 AI 只追问环境/体感却完全忽略这些线索,应**明显扣分**;不得用跨轮复读的固定锚点(如「你们是在田埂边生火吗」「带头的是谁」等不视语境一再出现的模板追问)——发现该类套问法应扣分。**记忆相关**:若追问只是在**复述/同义转述检索细节**而未帮用户说**新的一层**(感受、关系、选择、后果),应扣分;若记忆帮助把问题问得更贴肉、更个人,可略加分(仍不得牺牲本轮话头)。
|
|
|
|
|
|
- follow_up_depth(追问能力,最高 5):顺势深问。**记忆相关**:追问应服务于**更深一层**,而不是堆叠旧事实或复述时间线。
|
|
|
|
|
|
- non_leading(非引导性,最高 3):是否暗示「标准答案」或评判式预设。**额外**:若用检索细节**诱导用户承认本轮未确认的内容**(把旧记忆当既定事实套在用户头上),应**重扣**。
|
2026-04-03 14:44:46 +08:00
|
|
|
|
|
2026-04-07 17:15:01 +08:00
|
|
|
|
输出 JSON 字段(仅这些键;细分项为浮点数;列表字符串尽量每条 ≤120 字;`rationale` 为简短中文总述):
|
2026-04-07 10:34:59 +08:00
|
|
|
|
emotion_carry, empathy_depth, emotion_safety, emotion_guidance,
|
|
|
|
|
|
fact_mining, info_completeness_guide, info_depth_mining,
|
|
|
|
|
|
persona_understanding, persona_consistency_verify, persona_expression_guide,
|
|
|
|
|
|
interview_structure, context_memory, rhythm_control,
|
|
|
|
|
|
question_quality, follow_up_depth, non_leading,
|
2026-04-07 17:15:01 +08:00
|
|
|
|
total_score,
|
|
|
|
|
|
major_strengths, major_issues, insufficient_evidence, evidence_refs, confidence, rationale
|
|
|
|
|
|
|
|
|
|
|
|
`evidence_refs`:数组,每项为对象,字段 `dimension`(上列英文名之一)、`turn_index`(整数,对应输入中的 `[Turn k]` 的 k;未知用 -1)、`snippet`(≤120 字引用或简述)。
|
|
|
|
|
|
|
|
|
|
|
|
`confidence`:0 到 1 之间小数,表示你对本次评分整体可信度(证据充分则偏高)。
|
2026-04-06 22:22:50 +08:00
|
|
|
|
|
2026-04-08 09:38:07 +08:00
|
|
|
|
`total_score` 必须等于上述 15 个细项之和(满分 100)。**输出前将 15 项逐项相加验算**;勿在未顶格时默认写 100(例如情绪四项为 9+8+6+6、其余块均顶格时,合计为 99 而非 100)。
|
2026-04-07 10:34:59 +08:00
|
|
|
|
聚合分 emotion_score、information_score、persona_score、structure_score、question_score 可不填(服务端会重算)。
|
|
|
|
|
|
只输出 JSON。
|
|
|
|
|
|
"""
|
2026-04-03 14:44:46 +08:00
|
|
|
|
|
2026-04-07 10:34:59 +08:00
|
|
|
|
|
|
|
|
|
|
TURN_JUDGE_INSTRUCTIONS = (
|
2026-04-07 17:15:01 +08:00
|
|
|
|
"你是「岁月留书」访谈对话质量评审员:保守、证据优先、可复核。按下列 **情绪强化版** rubric 为本轮 AI 回复打分。\n"
|
|
|
|
|
|
+ _JUDGING_CHARTER
|
|
|
|
|
|
+ _TURN_SCOPE
|
2026-04-07 10:34:59 +08:00
|
|
|
|
+ _CONV_LEAF_SPEC
|
|
|
|
|
|
)
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
CONV_JUDGE_INSTRUCTIONS = (
|
2026-04-07 17:15:01 +08:00
|
|
|
|
"你是「岁月留书」访谈**整段对话**质量评审员:保守、证据优先。给定带 `[Turn k]` 标记的完整 transcript,"
|
|
|
|
|
|
"按下列 15 项细项的满分上限,对 AI **多轮整体轨迹**打一次分;`total_score` 为细项之和(100)。\n"
|
|
|
|
|
|
+ _JUDGING_CHARTER
|
|
|
|
|
|
+ _CONV_SCOPE
|
|
|
|
|
|
+ _CONV_LEAF_SPEC
|
2026-04-07 10:34:59 +08:00
|
|
|
|
)
|
2026-04-06 23:19:20 +08:00
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
COMPARE_CONV_STREAM_HINT = """你是访谈对话评测专家。下面给出一份「回放/新测」完整对话 transcript 及其整体评分(JSON)。请用中文直接写正文(不要用 JSON):
|
2026-04-07 10:34:59 +08:00
|
|
|
|
1) 对这段对话的整体评价与风险点(对照情绪承接、信息挖掘、人物、结构、提问质量等);
|
2026-04-06 23:19:20 +08:00
|
|
|
|
2) 可操作的改进建议(提示词、流程、模型参数等)。
|
|
|
|
|
|
|
|
|
|
|
|
笔调简洁、可执行。"""
|