feat(memory,conversation): 记忆富化/证据包、时间线幂等字段与对话分段全链路

数据库 - 新增迁移 0003：timeline_events.memory_source_id 外键 → memory_sources，便于按 ingest 源做时间线幂等后端 - 记忆 - 新增 ingest 后 LLM 富化（摘要/事实/时间线），可配置开关与最大字符数 - 新增证据包组装：合并 chunk、摘要、事实、时间线、故事等检索结果；支持空 query 时是否仍带 rolling 等开关 - repo/retriever/service/router/schemas/summarizer/timeline/extractor 等扩展；文档 memory-retrieval.md 更新后端 - 对话 WS - 增加 PING/PONG；分段 ASR 日志与空音频处理；转写失败与「无助手回复」错误提示更明确 - 助手多段回复持久化使用统一分隔符，与分段逻辑一致后端 - Agent - reply_limits：按 [SPLIT] 与段落拆段，并保证非空 fallback，供 WS 与 TTS 多段下发后端 - 回忆录任务 - transcript ingest 记录 source_id；任务成功结?
2026-03-27 16:01:28 +08:00
parent 1374f6e8f5
commit e4bf0710c7
70 changed files with 3404 additions and 557 deletions
--- a/api/app/agents/memoir/prompts.py
+++ b/api/app/agents/memoir/prompts.py
@@ -130,29 +130,67 @@ def get_memoir_editor_system_prompt() -> str:
 """


-def get_memoir_fidelity_system_prompt() -> str:
-    """叙事/标题生成专用：准确性优先，禁止编造事实（与 get_memoir_editor_system_prompt 分离）。"""
-    return """你是回忆录编辑助手，任务是把用户口述整理为第一人称书面叙述。
-
-## 事实边界（必须遵守，优先于文采）
+def _memoir_fidelity_core_rules() -> str:
+    """事实边界 1–4 条（与文体第 5 条拆分，供 story 叙事与标题等复用）。"""
+    return """## 事实边界（必须遵守，优先于文采）
 1. **正文只能展开「本段用户口述」区块中的内容**。若输入中有「相关记忆摘录」等参考区，其中信息**不得**写成本人本轮亲口经历的细节；最多用一两句作主题衔接，且不得引入摘录里才有的具体人名、地点、时间、对话、数字。
 2. **禁止编造**：不得新增用户未提及的具体人物姓名、对话原文、地点、时间、事件经过、因果、数字；不得推断性心理描写或「典型年代场景」填充。
 3. **禁止为凑字数扩写**：材料短则输出短；段落数量与长度随材料而定。
-4. 允许：去除口语赘词与寒暄、调整语序、合并重复指代、把口语改为书面语；**不得**用虚构细节「让文章更好看」。
-5. **叙述风格平实**：少用抒情、比喻与文学铺陈；像清楚记事，不要写成散文。
+4. 允许：去除口语赘词与寒暄、调整语序、合并重复指代、把口语改为书面语；**不得**用虚构细节「让文章更好看」。"""

-## 用户档案与阶段信息
+
+def _memoir_fidelity_user_profile_rules() -> str:
+    return """## 用户档案与阶段信息
 - 「用户基本信息」「时间参考」仅可使用其中**已写明**的条目；不得把档案中的出生地等写进正文，除非用户在本段口述里已提及或明确关联。"""


-def get_narrative_editor_system_prompt() -> str:
-    """叙事改写：准确性系统提示 + 可执行文体约束（不用 get_memoir_editor_system_prompt 中的「过渡句/生动细节」泛化指令）。"""
-    return f"""{get_memoir_fidelity_system_prompt()}
+def get_memoir_fidelity_system_prompt() -> str:
+    """叙事/标题生成专用：准确性优先，禁止编造事实（与 get_memoir_editor_system_prompt 分离）。"""
+    return f"""你是回忆录编辑助手，任务是把用户口述整理为第一人称书面叙述。

-## 文体（在严守事实的前提下）
- 使用第一人称、**平实书面语**（少修辞、少感叹）；不要直接引用对话原话。
- 不使用 Markdown 标题（#、##）、不使用表格。
- 如有「衔接上下文」，仅保持语气与时间线连贯，不重复已有段落全文。"""
+{_memoir_fidelity_core_rules()}
+5. **叙述风格平实**：少用抒情、比喻与文学铺陈；像清楚记事，不要写成散文。
+
+{_memoir_fidelity_user_profile_rules()}"""
+
+
+def get_memoir_fidelity_facts_only_prompt() -> str:
+    """与 `get_memoir_fidelity_system_prompt` 相同的事实 1–4 条，第 5 条改为允许传记作家式文采（仍禁止编造）。"""
+    return f"""你是回忆录编辑助手，任务是把用户口述整理为第一人称书面叙述。
+
+{_memoir_fidelity_core_rules()}
+5. **文体**：在遵守第 1–4 条的前提下，可将口语改写为**优雅、连贯的回忆录书面语**（适当过渡句，保留并书面化用户已提及的细节与情感）；文采服务于真实内容，**不得**用虚构描写替代或填补事实。
+
+{_memoir_fidelity_user_profile_rules()}"""
+
+
+def _memoir_editor_narrative_style_block() -> str:
+    """与 `get_memoir_editor_system_prompt` 对齐的传记作家改写要点（用于写入 chapter 的 story 正文）。"""
+    return """## 传记作家文体（须同时遵守上文「事实边界」）
+你是一位专业的传记作家和文字编辑，擅长将口语化的对话内容整理成优雅的书面语回忆录章节。
+
+### 提炼与筛选
+对话中往往夹杂噪音，须严格筛选：保留具体事件、人物关系、时地、情感与信念、用户已提及的细节；过滤语气词、寒暄、与 AI 的交互、无关闲聊、重复冗余。
+
+### 改写原则
+- 保持用户的真实情感
+- 使用优雅但不失亲切的书面语，不要直接引用对话原话
+- 适当添加过渡句，使段落连贯
+- 保留生动的细节，但将口语表达改写为书面叙述
+- 去除口语中的填充词和无意义重复
+- 保持时间顺序和逻辑清晰
+
+### 输出格式约束
+- 使用第一人称
+- 不使用 Markdown 标题（#、##）、不使用表格
+- 如有「衔接上下文」，仅保持语气与时间线连贯，不重复已有段落全文"""
+
+
+def get_narrative_editor_system_prompt() -> str:
+    """故事/章节叙事：传记作家式书面语 + 事实边界（chapter 直接展示 story 时使用）。"""
+    return f"""{get_memoir_fidelity_facts_only_prompt()}
+
+{_memoir_editor_narrative_style_block()}"""


 def _short_classification_edit_prefix() -> str:
@@ -209,7 +247,9 @@ childhood, education, career_early, career_achievement, career_challenge, family

 **JSON 输出**：`response_format=json_object`，只输出：
 {{"category": "childhood|education|career_early|career_achievement|career_challenge|family|beliefs|summary|none"}}
-不要其它文字。"""
+不要其它文字。
+
+若你返回 **none**，服务端会将本段映射到 **summary** 章节并仍写入回忆录正文（不落库丢弃）。"""


 def get_state_extraction_prompt(
@@ -378,7 +418,7 @@ def get_narrative_prompt(

 ## 步骤
 1. 从「本段用户口述」提炼可写事实；丢弃语气词、寒暄、与 AI 的交互。
-2. 改写为第一人称书面叙述：可调整语序与用词，**不得**新增事实。
+2. 改写为第一人称书面叙述（优雅、连贯，可适当过渡；可调整语序与用词），**不得**新增事实。
 3. 若材料中无值得记录的人生经历内容，输出空字符串。

 ## 格式
@@ -428,7 +468,7 @@ def get_narrative_json_prompt(
 1. **只展开「本段用户口述」**；若有参考摘录区，不得把摘录中的具体事实写成本轮亲历经历（见系统说明）。
 2. 过滤语气词、寒暄、与 AI 的交互；不重复已有故事全文；本批只写同一主题/事件链。
 3. 段落数量与每段长度**随材料而定**，禁止为凑字数编造。
-4. 使用第一人称、**平实书面语**，少修辞；不要直接引用原话；不要用 `#`、`##`、表格。
+4. 使用第一人称、**优雅书面语**（可适当过渡与铺陈，须基于口述事实）；不要直接引用原话；不要用 `#`、`##`、表格。

 ## 输出格式（严格 JSON）
 {{
@@ -504,7 +544,7 @@ def get_narrative_merge_json_prompt(
 1. 输出为**完整故事正文**（不是仅写本段）：`paragraphs` 须包含重组后的**全文**。
 2. **禁止编造**：不得新增用户未在「已有」或「本段」中出现的人名、地点、时间、对话、数字。
 3. 若本段与旧文完全重复或无新信息，可仅输出与旧文等价重组后的正文（不得无故缩短到明显少于旧文）。
-4. 使用第一人称、平实书面语；不要用 `#`、`##`、表格。
+4. 使用第一人称、**优雅书面语**（与系统说明中的传记作家文体一致）；不要用 `#`、`##`、表格。

 ## 输出格式（严格 JSON）
 {{
@@ -527,8 +567,8 @@ def get_story_route_prompt(
 ) -> str:
    """Celery 批次：判断写入新 story 还是追加已有 story。输出严格 JSON。

-    「故事」= 可独立讲述的一段人生经历；进入本步的批次已满足 get_chapter_classification_prompt
-    中章节级分类（非 none），二者语义一致。
+    「故事」= 可独立讲述的一段人生经历；进入本步的批次已归入具体 chapter category
+    （含模型返回 none 或零散档案启发式时映射的 summary）。
    """
    return f"""你是回忆录编辑助手。根据本批用户口述与候选故事列表，决定：
 - append_story：内容明显延续、补充某一已有故事的主题与时间线，且能对应到具体 candidate id
@@ -636,12 +676,13 @@ def format_narrative_user_content(oral_text: str, evidence_text: str = "") -> st
 def format_evidence_chunks_for_prompt(evidence: dict) -> str:
    """将 retrieve_evidence / retrieve_evidence_sync 结果格式化为简短文本，供叙事 prompt 使用。

-    仅包含实际返回的 chunks、confirmed facts、timeline；不包含 relevant_summaries / relevant_stories
-    （当前管线多为空列表，避免模型误以为有摘要或故事全文可用）。
+    包含 chunks、摘要（若有）、confirmed facts、timeline、故事摘要（若有）。
    """
    chunks = evidence.get("relevant_chunks") or []
+    summaries = evidence.get("relevant_summaries") or []
    facts = evidence.get("relevant_facts") or []
    timeline = evidence.get("timeline_hints") or []
+    stories = evidence.get("relevant_stories") or []
    parts: list[str] = []
    for c in chunks[:10]:
        content = (
@@ -649,6 +690,13 @@ def format_evidence_chunks_for_prompt(evidence: dict) -> str:
        )
        if content:
            parts.append(content.strip())
+    for s in summaries[:3]:
+        if isinstance(s, dict):
+            st = (s.get("content") or "").strip()
+            stype = (s.get("summary_type") or "").strip()
+            if st:
+                label = f"[摘要:{stype}]" if stype else "[摘要]"
+                parts.append(f"{label} {st}")
    for f in facts[:5]:
        if isinstance(f, dict):
            subj = f.get("subject", "")
@@ -668,6 +716,12 @@ def format_evidence_chunks_for_prompt(evidence: dict) -> str:
            )
            if line:
                parts.append(line)
+    for st in stories[:3]:
+        if isinstance(st, dict):
+            title = (st.get("title") or "").strip()
+            summ = (st.get("summary") or "").strip()
+            if title or summ:
+                parts.append(" ".join(x for x in (title, summ) if x))
    return "\n\n".join(parts) if parts else ""