api/app/agents/memoir/prompts.py

"""
回忆录整理 Agent 提示词模板
"""

from __future__ import annotations

import json
from typing import Optional

from app.agents.chat.background_voice import get_background_voice_narrative_block
from app.agents.chat.occupation_context import get_occupation_narrative_hint
from app.agents.stage_constants import STAGE_ERA_HINTS, STAGE_SLOT_KEYS
from app.features.memory.evidence_format import (
    dedupe_evidence_chunk_rows,
    format_evidence_chunks_for_prompt,
)


def _memoir_fidelity_core_rules() -> str:
    """事实边界 1–4 条（与文体第 5 条拆分，供 story 叙事与标题等复用）。"""
    return """## 事实边界（必须遵守，优先于文采）
1. **正文只能展开「本段用户口述」区块中的内容**。若输入中有「相关记忆摘录」等参考区，其中信息**不得**写成本人本轮亲口经历的细节；最多用一两句作主题衔接，且不得引入摘录里才有的具体人名、地点、时间、对话、数字。**若口述未提及具体场合**（如聚餐、酒席、当晚、前一晚等），不得借用摘录中的场合描写写成本轮亲历。
2. **禁止编造**：不得新增用户未提及的具体人物姓名、对话原文、地点、时间、事件经过、因果、数字；不得推断性心理描写或「典型年代场景」填充。**口述未明确结果、结局或对方最终决定时**，不得用常识补全为确定断言（例如未清楚表达落选、未通过、被拒绝等，则不得写「未能被选中」「最终没有录用」等）；只写已明确的过程与事实，不确定处宁可略写或使用中性表述。
3. **禁止为凑字数扩写**：材料短则输出短；段落数量与长度随材料而定。
4. 允许：去除口语赘词与寒暄、调整语序、合并重复指代、把口语改为书面语；**不得**用虚构细节「让文章更好看」。

## 以下操作是鼓励的（不算编造）
- 口语转书面语：删语气词、用成语/四字词替换口语表达、调整语序
- 过渡句与衔接句：如「那段日子」「回想起来」等，只要不引入新的实体
- 基于口述已有情感的书面化渲染（如口述说「难受」，可改为「心里不好受」）——前提是不新增具体场景、数字、动作
- 合并同义重复表述，让叙述更紧凑
- 纠正明显的语音识别错字"""


def _memoir_fidelity_user_profile_rules() -> str:
    return """## 用户档案与阶段信息
- 「用户基本信息」「时间参考」仅可使用其中**已写明**的条目；不得把档案中的出生地等写进正文，除非用户在本段口述里已提及或明确关联。"""


def get_memoir_fidelity_system_prompt() -> str:
    """叙事/标题生成专用：准确性优先，禁止编造事实。"""
    return f"""你是回忆录编辑助手，任务是把用户口述整理为第一人称书面叙述。

{_memoir_fidelity_core_rules()}
5. **叙述风格平实**：少用抒情、比喻与文学铺陈；像清楚记事，不要写成散文。

{_memoir_fidelity_user_profile_rules()}"""


def get_memoir_fidelity_facts_only_prompt() -> str:
    """与 `get_memoir_fidelity_system_prompt` 相同的事实 1–4 条，第 5 条改为允许传记作家式文采（仍禁止编造）。"""
    return f"""你是回忆录编辑助手，任务是把用户口述整理为第一人称书面叙述。

{_memoir_fidelity_core_rules()}
5. **文体**：在遵守第 1–4 条的前提下，可将口语改写为**优雅、连贯的回忆录书面语**（适当过渡句，保留并书面化用户已提及的细节与情感）；文采服务于真实内容，**不得**用虚构描写替代或填补事实。

{_memoir_fidelity_user_profile_rules()}"""


def _memoir_editor_narrative_style_block() -> str:
    """传记作家改写要点（用于写入 chapter 的 story 正文）。"""
    return """## 传记作家文体（须同时遵守上文「事实边界」）
你是一位专业的传记作家和文字编辑，擅长将口语化的对话内容整理成优雅、有温度的书面语回忆录章节。

### 提炼与筛选
对话中往往夹杂噪音，须严格筛选：保留具体事件、人物关系、时地、情感与信念、用户已提及的细节；过滤语气词、寒暄、与 AI 的交互、无关闲聊、重复冗余。

### 改写原则
- 保持用户的真实情感，让读者能感受到讲述者的心情
- 使用优雅但不失亲切的书面语，不直接引用对话原话
- 适当添加过渡句，使段落连贯流畅
- 保留生动的细节，将口语表达改写为有画面感的书面叙述
- 去除口语中的填充词和无意义重复
- 保持时间顺序和逻辑清晰
- **在事实边界内，鼓励使用有温度的传记笔法**，让读者感受到讲述者当时的心情；可有文学性的表达与恰当的情感渲染；**须同时遵守上文「事实边界」规则 1–4**

### 示例（仅供参考允许的改写程度；只改语气、不加新事实）
- 原文：「那时候穷啊，一家人挤一间房。」
  → 改写：「那时家里拮据，一家人挤在一间屋里过日子。」
- 原文：「后来他走了，我挺难受的。」
  → 改写：「他走后的那段日子，心里一直不是滋味。」

### 输出格式约束
- 使用第一人称
- 不使用 Markdown 标题（#、##）、不使用表格
- 如有「衔接上下文」，仅保持语气与时间线连贯，不重复已有段落全文"""


def get_narrative_editor_system_prompt(
    background_voice: str = "default", occupation: str = ""
) -> str:
    """故事/章节叙事：传记作家式书面语 + 事实边界（chapter 直接展示 story 时使用）。"""
    occ_hint = get_occupation_narrative_hint(occupation, background_voice)
    tail = get_background_voice_narrative_block(background_voice)
    base = f"""{get_memoir_fidelity_facts_only_prompt()}

{_memoir_editor_narrative_style_block()}"""
    if occ_hint:
        base = f"{base}\n\n{occ_hint}"
    if not tail:
        return base
    return f"{base}\n\n{tail}"


def _short_classification_edit_prefix() -> str:
    """章节分类专用短系统前缀。"""
    return """你是回忆录编辑。先忽略语气词与寒暄，只根据**与人生经历有关的实质内容**判断归类。
保留：事件、人物关系、地点时间、情感与信念。过滤：纯寒暄、与 AI 的交互、无关闲聊。"""


def get_chapter_classification_json_prompt(segments_text: str) -> str:
    """章节分类：JSON 输出（与 invoke_json_object 配合）。"""
    return f"""{_short_classification_edit_prefix()}

## 章节 key（英文）
childhood, education, career_early, career_achievement, career_challenge, family, beliefs, summary；不足以成篇则 **none**。

当去掉寒暄后仅为档案式点状信息、无可讲述叙事骨架（无事件/场景/过程/互动/情绪展开）→ **none**；短但有画面的微型故事应归入最贴类别。

对话内容：
{segments_text}

输出形状（仅此对象）：
{{"category": "childhood|education|career_early|career_achievement|career_challenge|family|beliefs|summary|none"}}

若你返回 **none**，服务端会将本段映射到 **summary** 章节并仍写入回忆录正文（不落库丢弃）。"""


def get_state_extraction_prompt(
    user_message: str, current_stage: str, stage_slots: dict
) -> str:
    """抽取结构化信息并判断阶段"""
    slot_keys = list(stage_slots.keys())
    all_stage_slots = {k: list(v) for k, v in STAGE_SLOT_KEYS.items()}

    return f"""你是回忆录访谈信息抽取助手。从用户话语中提取结构化信息，判断用户实际在谈论哪个人生阶段。
只提取口述中确有依据的片段，不得编造或推测。

你需要从用户话语中**先提炼与人生经历相关的核心内容**，然后抽取结构化信息（slots 仅填口述中确有依据的片段）。

系统当前跟踪的阶段：{current_stage}
该阶段可填 slots：{slot_keys}

所有阶段及其 slots 参考：
{json.dumps(all_stage_slots, ensure_ascii=False, indent=2)}

用户话语：
{user_message}

请只返回 JSON，格式如下：
{{
  "detected_stage": "childhood|education|career|family|belief",
  "slots": {{
    "slot_key": "snippet"
  }},
  "emotion": "neutral|warm|low|highlight",
  "is_new_chapter": true
}}

要求：
1. **先忽略话语中的语气词、填充词、寒暄、与AI的交互指令等无关内容**，只关注涉及人生经历的实质信息
2. **仅当 slots 非空时**：detected_stage 必须根据用户话语的实际内容判断；用户可能在聊与系统当前阶段不同的人生阶段
3. slots 的 key 必须属于 detected_stage 对应的 slot 列表
4. slots 只填写确实提到的、与人生经历相关的实质内容
5. **snippet 应是提炼后的核心信息**，去除语气词和冗余表达，50 字以内
6. 如果用户话语中没有任何与人生经历相关的实质内容（如纯粹的寒暄、元话语「整理回忆」、指令、语气词），**slots 必须为空对象**，且 **detected_stage 必须恰好等于系统当前跟踪的阶段**（「不明确」时不得另猜阶段）
"""


def get_batch_memoir_phase1_prep_prompt(
    *,
    system_current_stage: str,
    slots_snapshot: dict,
    segment_items: list[tuple[str, str]],
) -> str:
    """
    Phase1 批处理：多段口述一次 JSON 输出「抽取 + 章节分类」。
    segment_items: (segment_id, user_text)，须按时间顺序。
    """
    lines: list[str] = []
    for sid, text in segment_items:
        lines.append(f"- id={sid}\n  文本：{text}")

    slot_lines = "\n".join(
        f"- {st}: {', '.join(keys)}" for st, keys in STAGE_SLOT_KEYS.items()
    )

    return f"""你是回忆录访谈助手。下面有多段用户口述（按时间顺序），请**逐段**完成：
1）信息抽取（slots、detected_stage）——规则与单段抽取相同；
2）章节分类（chapter_category）——规则与单段分类相同。

系统当前跟踪的人生阶段（chat stage key）：{system_current_stage}
当前各阶段已占用的 slots 摘要（仅作语境，勿编造未出现的细节）：
{json.dumps(slots_snapshot, ensure_ascii=False, indent=2)}

detected_stage 仅允许：childhood | education | career | family | belief
slots 的 key 必须属于该 detected_stage 对应集合：
{slot_lines}

chapter_category 仅允许：childhood | education | career_early | career_achievement | career_challenge | family | beliefs | summary | **none**
（不足以成篇的档案点/纯寒暄 → **none**；与单段分类一致。）

逐段任务（按下列列表顺序，**segments 数组须覆盖每一行 id，且顺序一致**）：
{chr(10).join(lines)}

输出 JSON 对象（无 markdown），格式：
{{
  "segments": [
    {{
      "id": "<与输入相同的 segment id>",
      "detected_stage": "childhood|education|career|family|belief",
      "slots": {{ "slot_key": "snippet 50 字以内" }},
      "chapter_category": "childhood|education|career_early|career_achievement|career_challenge|family|beliefs|summary|none"
    }}
  ]
}}

与单段抽取一致：**仅当 slots 非空时** detected_stage 才按内容推断；若本段无人生经历实质、slots 为空，则 detected_stage 必须等于系统当前跟踪阶段 {system_current_stage}。
"""


def _build_age_hint(stage: str, birth_year: Optional[int] = None) -> str:
    """根据人生阶段和出生年份推算大致年龄区间（`STAGE_ERA_HINTS`，仅作提示）。"""
    if not birth_year:
        return ""
    age_range = STAGE_ERA_HINTS.get(stage)
    if not age_range:
        return ""
    year_start = birth_year + age_range[0]
    year_end = birth_year + age_range[1]
    return f"大约 {year_start}-{year_end} 年（{age_range[0]}-{age_range[1]} 岁）"


def get_creative_title_prompt(
    stage: str,
    emotion: str,
    slots: dict,
    user_profile: str = "",
    birth_year: Optional[int] = None,
) -> str:
    """生成故事标题：概括口述事实或主题，禁止纯意象编造。"""
    age_hint = _build_age_hint(stage, birth_year)
    profile_section = f"\n用户基本信息：\n{user_profile}" if user_profile else ""
    time_section = f"\n时间参考：{age_hint}" if age_hint else ""

    return f"""{get_memoir_fidelity_facts_only_prompt()}

请根据下面「阶段、情绪、可用信息」生成 **1 个**回忆录故事标题。

阶段：{stage}
情绪：{emotion}
可用信息（含口述 slots 与档案）：{slots}{profile_section}{time_section}

要求：
1. 格式：「时间标注 · 标题正文」（时间标注可用年龄、年代或阶段，须与上列信息一致；勿编造未出现的年份）。
2. 标题正文 **12–18 字**，须概括用户口述或 slots 中已出现的主题/事实；可以用书面化的概括与凝练表达，但**禁止虚构**口述中不存在的人、事、地、物。
3. **标题中的具体事实**（职务升迁链、部队番号驻地、战役名、生死去向等）必须能在正文摘录或其它已给出的 slots 中找到**逐字**依据；不得仅凭阶段名或年龄提示臆补未出现的履历词。
4. 语言凝练、有回忆录感，不需要平白直叙也不需要堆砌辞藻。

只输出标题这一行文字，不要加引号或书名号。
"""


def get_creative_title_json_prompt(
    stage: str,
    emotion: str,
    slots: dict,
    user_profile: str = "",
    birth_year: Optional[int] = None,
) -> str:
    """生成故事标题（JSON：`{"title":"..."}`），与 invoke_json_object 配合。"""
    base = get_creative_title_prompt(
        stage=stage,
        emotion=emotion,
        slots=slots,
        user_profile=user_profile,
        birth_year=birth_year,
    )
    return (
        base.rstrip()
        + "\n\n输出示例（仅此 JSON 对象）："
        + '\n{"title":"完整标题一行（含时间标注 · 正文格式）"}\n'
    )


def get_narrative_json_prompt(
    stage: str,
    slots: dict,
    new_content: str,
    existing_content: str = "",
    user_profile: str = "",
    birth_year: Optional[int] = None,
    background_voice: str = "default",
    occupation: str = "",
) -> str:
    """将新对话改写为叙述，输出 JSON 格式（paragraphs: [{content, image_description}]）"""
    context_tail = ""
    if existing_content:
        context_tail = (
            existing_content[-300:] if len(existing_content) > 300 else existing_content
        )
    context_section = (
        f"\n\n【衔接上下文（已有内容的末尾，仅供参考衔接，不要重复）】：\n{context_tail}"
        if context_tail
        else ""
    )
    profile_section = f"\n\n用户基本信息：\n{user_profile}" if user_profile else ""
    age_hint = _build_age_hint(stage, birth_year)
    time_section = f"\n时间参考：{age_hint}" if age_hint else ""

    return f"""{get_narrative_editor_system_prompt(background_voice=background_voice, occupation=occupation)}

请将「本段用户口述」改写为第一人称书面叙述，并输出 **纯 JSON**（无 markdown 围栏）。

阶段：{stage}
可用信息（slots）：{slots}{profile_section}{time_section}

输入材料：
{new_content}
{context_section}

## 要求
1. **格式与输出**：只输出 JSON；第一人称；不使用 `#`、`##`、表格；`content` 仅含正文。
2. **事实与取材**：遵守事实边界，不补写未给出的细节。只展开「本段用户口述」；若有参考摘录区，不得把摘录中的具体事实写成本轮亲历；过滤语气词与寒暄；不重复已有故事全文；本批同一主题/事件链；段落数量与长度随材料，禁止为凑字数编造。
3. **不推断结局**：用户未明确说结果（是否录取、是否被选中等）时，不要凭常识补全为确定结论。

## 输出格式（严格 JSON）
{{
  "paragraphs": [
    {{"content": "段落正文"}},
    ...
  ]
}}

- content：仅含正文。

若无值得记录的内容：{{"paragraphs": []}}
"""


# 整篇合并时避免超长上下文：保留首尾，中间省略（字符级）
NARRATIVE_MERGE_EXISTING_MAX_CHARS = 14000
NARRATIVE_MERGE_HEAD_CHARS = 7000
NARRATIVE_MERGE_TAIL_CHARS = 7000


def clip_existing_story_body_for_merge(existing_markdown: str) -> str:
    """供 append 合并提示使用：极长正文截断为 头+尾，避免 token 爆炸。"""
    s = (existing_markdown or "").strip()
    if not s:
        return ""
    if len(s) <= NARRATIVE_MERGE_EXISTING_MAX_CHARS:
        return s
    head = s[:NARRATIVE_MERGE_HEAD_CHARS]
    tail = s[-NARRATIVE_MERGE_TAIL_CHARS:]
    return (
        f"{head}\n\n【…中间省略…】\n\n"
        f"{tail}\n\n（上文为已有故事正文节选，合并时须保留其中全部事实，不得因省略而删事实。）"
    )


def get_narrative_merge_json_prompt(
    stage: str,
    slots: dict,
    new_content: str,
    existing_content: str,
    user_profile: str = "",
    birth_year: Optional[int] = None,
    background_voice: str = "default",
    occupation: str = "",
) -> str:
    """
    已有故事追加：将「已有全文（或节选）」与「本段口述」合并为**一篇**第一人称叙述，
    按事件发生顺序组织段落，输出覆盖全篇的 JSON paragraphs。
    """
    clipped = clip_existing_story_body_for_merge(existing_content)
    existing_section = (
        f"\n\n【已有故事正文（须全部保留事实，仅调整顺序与衔接；不得编造）】：\n{clipped}"
        if clipped
        else ""
    )
    profile_section = f"\n\n用户基本信息：\n{user_profile}" if user_profile else ""
    age_hint = _build_age_hint(stage, birth_year)
    time_section = f"\n时间参考：{age_hint}" if age_hint else ""

    return f"""{get_narrative_editor_system_prompt(background_voice=background_voice, occupation=occupation)}

你正在**扩写并重组**一则已有回忆录故事：必须把「已有故事」中的事实全部保留在输出中（可合并重复表述、调整语序），并融入「本段用户口述」中的新事实；按**事件发生的时间顺序**排列段落（早→晚）；禁止丢弃未矛盾的旧内容。

阶段：{stage}
可用信息（slots）：{slots}{profile_section}{time_section}

【本段用户口述与参考（含证据摘录时遵守系统事实边界）】：
{new_content}
{existing_section}

## 要求
1. **全文输出**：`paragraphs` 须为重组后的**完整故事正文**（非仅本段）。
2. **事实边界**：遵守事实边界，不补写未给出的细节。不得新增「已有」或「本段」未出现的人名、地点、时间、对话、数字；第一人称、优雅书面语须符合上文传记作家文体说明；不用 `#`、`##`、表格。
3. 若本段与旧文完全重复或无新信息，可输出与旧文等价重组的正文（不得无故缩短到明显少于旧文）。
4. **不推断结局**：本段未明确结果时，不要补全落选/未通过等确定说法，除非旧文中已有同一事实。

## 输出格式（严格 JSON）
{{
  "paragraphs": [
    {{"content": "段落正文"}},
    ...
  ]
}}

若无任何可保留内容：{{"paragraphs": []}}
"""


def story_route_merge_hint_for_category(chapter_category: str) -> str:
    """按章节类目的 append/new 倾向（与 StoryRouteAgent 路由提示共用）。"""
    cc = (chapter_category or "").strip()
    if cc in ("beliefs", "summary"):
        return (
            "### 本章类别路由倾向（强主题容器）\n"
            "- 多条短感悟、同一价值维度、同一总结脉络的补充 → **优先 append_story**，"
            "选最匹配的一条候选 id。\n"
            "- 仅在用户明确讲述**与所有候选主题明显不相关**、且可独立成篇的长经历时，才用 new_story。"
        )
    if cc == "family":
        return (
            "### 本章类别路由倾向（家庭）\n"
            "- **默认 append_story**：同一家庭成员、同一居住环境、婚姻育儿、节日团聚、童年与父母的回忆等，"
            "只要仍围绕已出现的人物或关系网络补充细节，一律并入最匹配的候选，不要因为换了个场景就 new_story。\n"
            "- 仅当口述出现**完全新的人物组合 + 可独立成篇的新事件链**（与所有候选正文都接不上）时，才 new_story。"
        )
    if cc in (
        "childhood",
        "education",
        "career_early",
        "career_achievement",
        "career_challenge",
    ):
        if cc in ("childhood", "education"):
            return (
                "### 本章类别路由倾向（童年 / 求学 — 少拆分）\n"
                "- **默认 append_story**：同一成长阶段里，地点（老家、学校）、父母职业、玩伴、游戏影视、"
                "怀旧细节等**主题延续**的补充，即使分段讲述，也应并入已有童年/求学故事，避免多篇开头重复交代背景。\n"
                "- **仅当**口述出现**另一条清晰可辨的事件链**（时间/地点/人物线换了且与候选明显不是同一脉络）时，才 new_story。"
            )
        return (
            "### 本章类别路由倾向（经历叙事）\n"
            "- 以具体事件链为主：**不同事件 / 时期 / 地点** → 可 new_story。\n"
            "- 明显是**同一段经历的续叙、补充细节** → append_story。"
        )
    return (
        "### 本章类别路由倾向（一般）\n"
        "- 同时参考「主题连续性」与「事件切换」两类信号做判断。"
    )


def get_story_route_prompt(
    *,
    chapter_category: str,
    chapter_title: str,
    batch_transcript: str,
    candidate_stories_json: str,
) -> str:
    """Celery 批次：判断写入新 story 还是追加已有 story。输出严格 JSON。

    「故事」= 可独立讲述的一段人生经历；进入本步的批次已归入具体 chapter category
    （含模型返回 none 或零散档案启发式时映射的 summary）。
    """
    merge_hint = story_route_merge_hint_for_category(chapter_category)
    return f"""你是回忆录编辑助手。根据本批用户口述与【候选故事】决定 append_story 或 new_story。

## 两层决策标准（必须先在心里过一遍）
1. **主题连续性信号**：价值观、关系模式、长期总结、同一反思维度；口述是否像在**同一主题容器**里加厚？
2. **事件切换信号**：是否出现**新人物组合、新地点、新时间段、新事件因果链**，与候选正文明显是**另一段经历**？

- 类别 **beliefs / summary**：更重主题连续性；除非事件切换信号极强，否则倾向 append。
- 类别 **career_* / childhood / education**：更重事件链；不同事件可 new，同一经历续聊则 append。
- 类别 **family**：两类信号兼顾——原则/关系反思倾向 append；明确新事件链可 new。

{merge_hint}

**路由边界（必须遵守）**：仅根据下方「本批口述合并文本」判断；不得将系统检索摘要、记忆摘录等当作本批口述内容来匹配候选。

**候选故事说明**：列表项可能含 `summary`、`body_for_route`（正文摘要）或 `opening_snippet`（无 summary 时的纯文本开头提要）；仅含 `preview` 者为索引项，信息不全。**append 时优先匹配带 summary / body / opening_snippet 的条目**；索引项仅作候选 id 备忘。

当前章节（写作容器）：
- category: {chapter_category}
- title: {chapter_title}

【本批口述合并文本】
{batch_transcript}

【候选故事】（append 时 target_story_id 必须来自下列 id，且原样复制）
{candidate_stories_json}

## 输出 JSON（仅此一个对象，不要 markdown）
{{
  "decision": "new_story" | "append_story",
  "target_story_id": "<uuid 或 null；append 时必填且必须来自候选>",
  "reason": "<一句中文理由>"
}}

规则：
- **不要**只因「不太确定」就选 new_story；在主题可并入某一候选时应 append_story。
- 仅当口述与**所有**候选在两层标准下都明显不兼容时，才选 new_story。
- 若已有候选故事（列表非空）且口述是对同一人生阶段的**补述**，却找不到精确 id：仍应 **append_story** 到最相近的一条，而不是 new_story。
"""


def get_story_batch_plan_prompt(
    *,
    chapter_category: str,
    chapter_title: str,
    segments_json: str,
    candidate_stories_json: str,
) -> str:
    """同一章节类别下多 segment：划分为若干写入单元（每单元 new 或 append）。输出严格 JSON。"""
    merge_hint = story_route_merge_hint_for_category(chapter_category)
    return f"""你是回忆录编辑助手。下面同一章节类别下有一批**按时间顺序**的用户口述片段（每段有 id 与文本）。

## 两层决策标准（每一块都要应用）
1. **主题连续性信号**：价值观、关系模式、长期总结、同一反思维度。
2. **事件切换信号**：新人物组合、新地点、新时间段、新事件因果链。

各类别倾向与单段路由一致：beliefs/summary 重主题连续性；career/childhood/education 重事件链；family 兼顾。

{merge_hint}

## 「故事」定义（必须遵守）
一段「故事」= **可独立讲述的一段人生经历**。**同一主题容器内的连续口述**应并入同一块 append，而不是切碎成多个 new_story。

## 任务
将本批 segment **划分为连续若干块**（每块至少一个 segment，顺序不能打乱；每个 segment 必须恰好属于一块）。对每一块决定：
- **append_story**：与某一候选在两层标准下可合并，且能对应到具体 candidate id
- **new_story**：该块与**所有**候选都明显不兼容，或确认为独立新经历

**候选故事说明**：条目可能含 `summary` / `body_for_route` / `opening_snippet`；仅 `preview` 者为索引项。**优先用带摘要、正文摘要或开头提要的条目做 append 目标**。

当前章节（写作容器）：
- category: {chapter_category}
- title: {chapter_title}

【本批口述片段】（JSON 数组，顺序即口述顺序）
{segments_json}

【候选故事】（append 时 target_story_id 必须来自下列 id，且原样复制）
{candidate_stories_json}

## 输出 JSON（仅此一个对象，不要 markdown）
{{
  "units": [
    {{
      "segment_ids": ["<按顺序列出本块包含的 segment id>"],
      "decision": "new_story" | "append_story",
      "target_story_id": "<uuid 或 null；append 时必填且必须来自候选>",
      "reason": "<一句中文理由，可选>"
    }}
  ]
}}

规则：
- `units` 中所有 `segment_ids` 拼接后，必须**不重不漏**地覆盖本批全部 id，且顺序与【本批口述片段】数组一致
- **不要**仅因不确定就对整块选 new_story；能并入候选时应 append_story
- **同一批里 new_story 单元至多 1 个**：除非口述中同时存在**至少两条**与所有候选都不兼容、且彼此也明显无关的独立长经历，否则禁止拆成多个 new_story；连续多段若都在补充同一主题，应合并为**一块 append_story**。
- 候选列表非空时，优先把本批当作「加厚已有篇章」，而不是再开新篇。
"""


def format_narrative_user_content(oral_text: str, evidence_text: str = "") -> str:
    """
    将口述与检索摘录分区，供叙事模型区分「亲历」与参考材料。
    evidence 为空时仅输出口述块。
    """
    oral = (oral_text or "").strip()
    ev = (evidence_text or "").strip()
    if not ev:
        return f"【本段用户口述】\n{oral}"
    return (
        "【本段用户口述】\n"
        f"{oral}\n\n"
        "【仅供参考的相关记忆摘录（非本段口述；不得把其中具体事实写成本轮亲历经历，仅可作主题衔接）】\n"
        f"{ev}"
    )


# dedupe_evidence_chunk_rows / format_evidence_chunks_for_prompt 见 app.features.memory.evidence_format
-												添加AI代理模块

											
										
										
											2026-01-07 11:56:53 +08:00
+								"""
 								回忆录整理 Agent 提示词模板
 								"""
-												chore/ 删除无用文件

											
										
										
											2026-03-19 14:36:14 +08:00
-												feat(api): 访谈路径轻量门控、Memoir Phase1 批处理与叙事/记忆管线加固

- 新增 utterance_substance：短时/应答/元话语可跳过记忆检索、阶段 LLM 与资料抽取 LLM；可配置
- 输入归一化：LLM 模式默认仅语音/ASR；配置项写入 .env.example
- Memoir Phase1：可选 batch LLM 一次性抽取+分类（失败回退逐段）；Extraction 空槽位时阶段与 current_stage 对齐，prompt 约束收紧
- 叙事与忠实度：narrative_safety、证据重叠/场合锚点、标题 slots 与履历短语 grounded；fidelity 解析失败 fail-open 可配置
- 章节管线：锁 TTL 上调、锁竞争 Celery 重试、Phase2 immediate singleflight 等；story_pipeline_sync / chapter_compose / memoir_tasks 联动
- Memory：compaction / repo / summarizer / evidence 小修；事实 FTS 未命中是否回退最近事实可配置
- 新增 memoir_pipeline_trace；补充 memoir_reliability 文档与多项回归/门控测试

											
										
										
											2026-04-03 10:12:59 +08:00
+								from __future__ import annotations
-												feat: 增强对话代理以检测用户阶段并更新章节排序

- 在 api/agents/conversation_agent.py 中添加 _detect_user_stage 方法，以通过关键词检测用户谈论的人生阶段。
- 在 api/agents/memory_agent.py 中更新章节排序逻辑，使用 STAGE_TO_ORDER 替代 CHAPTER_ORDER。
- 在 api/agents/state_schema.py 中添加方法以获取各阶段的填充情况。
- 在 api/agents/prompts/conversation_prompts.py 中更新对话提示，包含用户阶段检测和整体进度信息。
- 在 api/migrations/fix_chapter_order_index.sql 中添加 SQL 脚本以修复章节 order_index 的问题。
- 更新相关文档和提示以反映新功能。

											
										
										
											2026-02-13 21:45:56 +01:00
+								import json
-												Merge branch 'feat/improve-agent-prompt'

											
										
										
											2026-03-01 10:12:23 +01:00
+								from typing import Optional
-												添加AI代理模块

											
										
										
											2026-01-07 11:56:53 +08:00
-												feat(api): 访谈人格/回复长度策略、口述归一、背景语气与输入净稿全链路

Chat 访谈
- 新增 persona 系统（default / warm_listener / curious_guide）与 background_voice 语气层
- 回复长度由 compute_reply_plan 统一决策（brief / standard / expanded），融合信息密度启发式
- 输入净稿（input_normalize）：编排层可选 rules/llm 归一用户口语后再喂模型与记忆检索
- 记忆证据注入：按用户话检索 memory evidence 并注入 prompt

Memoir 回忆录
- 口述归一（oral_normalize）：segment 原文保留，story 管线取派生净稿作叙事输入
- segment 入队批次门闸：累计字数 + 最长等待秒数，减少零碎提交
- fidelity_check / prompts / narrative_agent 微调
- Alembic 0005：清理跨章节 story 外键

Infra
- Dockerfile 加入 ffmpeg
- pyproject.toml 新增依赖并同步 uv.lock
- .env.example / .env.production 补全新配置项

Tests
- 新增 test_background_voice、test_chat_input_normalize、test_experience_regressions
- 扩展 test_interview_prompts、test_interview_reply_length、test_story_route_oral_invariant

Made-with: Cursor

											
										
										
											2026-03-31 23:55:26 +08:00
+								from app.agents.chat.background_voice import get_background_voice_narrative_block
-												feat(api): 叙事 prompt、职业上下文、读路径章节、WS 解耦与错误脱敏

- 回忆录：事实边界补充允许清单；传记文体示例与 JSON 叙事要求对齐
- default 职业提示 occupation_context；cadre/military 退休语境
- GET 章节读路径零写入，prepare_chapter_read_view + markdown_for_response
- 文本归一抽到 core/text_normalize；移除弃用 reply 策略与 recompose_chapters_for_story
- ConversationService：WS 连接/用户段落/结束对话；对外错误固定文案
- 测试：HTTP 脱敏契约、章节读视图、occupation 与 background_voice

											
										
										
											2026-04-01 11:49:33 +08:00
+								from app.agents.chat.occupation_context import get_occupation_narrative_hint
-												feat(api): 统一 LLM JSON 调用层 llm_json_call，按域 Schema 迁移 chat/memoir agents

											
										
										
											2026-04-03 13:34:27 +08:00
+								from app.agents.stage_constants import STAGE_ERA_HINTS, STAGE_SLOT_KEYS
-												feat(api): 访谈人格/回复长度策略、口述归一、背景语气与输入净稿全链路

Chat 访谈
- 新增 persona 系统（default / warm_listener / curious_guide）与 background_voice 语气层
- 回复长度由 compute_reply_plan 统一决策（brief / standard / expanded），融合信息密度启发式
- 输入净稿（input_normalize）：编排层可选 rules/llm 归一用户口语后再喂模型与记忆检索
- 记忆证据注入：按用户话检索 memory evidence 并注入 prompt

Memoir 回忆录
- 口述归一（oral_normalize）：segment 原文保留，story 管线取派生净稿作叙事输入
- segment 入队批次门闸：累计字数 + 最长等待秒数，减少零碎提交
- fidelity_check / prompts / narrative_agent 微调
- Alembic 0005：清理跨章节 story 外键

Infra
- Dockerfile 加入 ffmpeg
- pyproject.toml 新增依赖并同步 uv.lock
- .env.example / .env.production 补全新配置项

Tests
- 新增 test_background_voice、test_chat_input_normalize、test_experience_regressions
- 扩展 test_interview_prompts、test_interview_reply_length、test_story_route_oral_invariant

Made-with: Cursor

											
										
										
											2026-03-31 23:55:26 +08:00
+								from app.features.memory.evidence_format import (
 								    dedupe_evidence_chunk_rows,
 								    format_evidence_chunks_for_prompt,
 								)
-												添加AI代理模块

											
										
										
											2026-01-07 11:56:53 +08:00
-												feat(memory,conversation): 记忆富化/证据包、时间线幂等字段与对话分段全链路

数据库
- 新增迁移 0003：timeline_events.memory_source_id 外键 → memory_sources，便于按 ingest 源做时间线幂等

后端 - 记忆
- 新增 ingest 后 LLM 富化（摘要/事实/时间线），可配置开关与最大字符数
- 新增证据包组装：合并 chunk、摘要、事实、时间线、故事等检索结果；支持空 query 时是否仍带 rolling 等开关
- repo/retriever/service/router/schemas/summarizer/timeline/extractor 等扩展；文档 memory-retrieval.md 更新

后端 - 对话 WS
- 增加 PING/PONG；分段 ASR 日志与空音频处理；转写失败与「无助手回复」错误提示更明确
- 助手多段回复持久化使用统一分隔符，与分段逻辑一致

后端 - Agent
- reply_limits：按 [SPLIT] 与段落拆段，并保证非空 fallback，供 WS 与 TTS 多段下发

后端 - 回忆录任务
- transcript ingest 记录 source_id；任务成功结?

											
										
										
											2026-03-27 16:01:28 +08:00
+								def _memoir_fidelity_core_rules() -> str:
 								    """事实边界 1–4 条（与文体第 5 条拆分，供 story 叙事与标题等复用）。"""
 								    return """## 事实边界（必须遵守，优先于文采）
-												feat(api): 访谈路径轻量门控、Memoir Phase1 批处理与叙事/记忆管线加固

- 新增 utterance_substance：短时/应答/元话语可跳过记忆检索、阶段 LLM 与资料抽取 LLM；可配置
- 输入归一化：LLM 模式默认仅语音/ASR；配置项写入 .env.example
- Memoir Phase1：可选 batch LLM 一次性抽取+分类（失败回退逐段）；Extraction 空槽位时阶段与 current_stage 对齐，prompt 约束收紧
- 叙事与忠实度：narrative_safety、证据重叠/场合锚点、标题 slots 与履历短语 grounded；fidelity 解析失败 fail-open 可配置
- 章节管线：锁 TTL 上调、锁竞争 Celery 重试、Phase2 immediate singleflight 等；story_pipeline_sync / chapter_compose / memoir_tasks 联动
- Memory：compaction / repo / summarizer / evidence 小修；事实 FTS 未命中是否回退最近事实可配置
- 新增 memoir_pipeline_trace；补充 memoir_reliability 文档与多项回归/门控测试

											
										
										
											2026-04-03 10:12:59 +08:00
+. **正文只能展开「本段用户口述」区块中的内容**。若输入中有「相关记忆摘录」等参考区，其中信息**不得**写成本人本轮亲口经历的细节；最多用一两句作主题衔接，且不得引入摘录里才有的具体人名、地点、时间、对话、数字。**若口述未提及具体场合**（如聚餐、酒席、当晚、前一晚等），不得借用摘录中的场合描写写成本轮亲历。
-												feat(api): 访谈人格/回复长度策略、口述归一、背景语气与输入净稿全链路

Chat 访谈
- 新增 persona 系统（default / warm_listener / curious_guide）与 background_voice 语气层
- 回复长度由 compute_reply_plan 统一决策（brief / standard / expanded），融合信息密度启发式
- 输入净稿（input_normalize）：编排层可选 rules/llm 归一用户口语后再喂模型与记忆检索
- 记忆证据注入：按用户话检索 memory evidence 并注入 prompt

Memoir 回忆录
- 口述归一（oral_normalize）：segment 原文保留，story 管线取派生净稿作叙事输入
- segment 入队批次门闸：累计字数 + 最长等待秒数，减少零碎提交
- fidelity_check / prompts / narrative_agent 微调
- Alembic 0005：清理跨章节 story 外键

Infra
- Dockerfile 加入 ffmpeg
- pyproject.toml 新增依赖并同步 uv.lock
- .env.example / .env.production 补全新配置项

Tests
- 新增 test_background_voice、test_chat_input_normalize、test_experience_regressions
- 扩展 test_interview_prompts、test_interview_reply_length、test_story_route_oral_invariant

Made-with: Cursor

											
										
										
											2026-03-31 23:55:26 +08:00
+. **禁止编造**：不得新增用户未提及的具体人物姓名、对话原文、地点、时间、事件经过、因果、数字；不得推断性心理描写或「典型年代场景」填充。**口述未明确结果、结局或对方最终决定时**，不得用常识补全为确定断言（例如未清楚表达落选、未通过、被拒绝等，则不得写「未能被选中」「最终没有录用」等）；只写已明确的过程与事实，不确定处宁可略写或使用中性表述。
-												修复环境变量，UI问题

											
										
										
											2026-03-23 13:54:41 +08:00
+. **禁止为凑字数扩写**：材料短则输出短；段落数量与长度随材料而定。
-												feat(api): 叙事 prompt、职业上下文、读路径章节、WS 解耦与错误脱敏

- 回忆录：事实边界补充允许清单；传记文体示例与 JSON 叙事要求对齐
- default 职业提示 occupation_context；cadre/military 退休语境
- GET 章节读路径零写入，prepare_chapter_read_view + markdown_for_response
- 文本归一抽到 core/text_normalize；移除弃用 reply 策略与 recompose_chapters_for_story
- ConversationService：WS 连接/用户段落/结束对话；对外错误固定文案
- 测试：HTTP 脱敏契约、章节读视图、occupation 与 background_voice

											
										
										
											2026-04-01 11:49:33 +08:00
+. 允许：去除口语赘词与寒暄、调整语序、合并重复指代、把口语改为书面语；**不得**用虚构细节「让文章更好看」。
 								## 以下操作是鼓励的（不算编造）
 								- 口语转书面语：删语气词、用成语/四字词替换口语表达、调整语序
 								- 过渡句与衔接句：如「那段日子」「回想起来」等，只要不引入新的实体
 								- 基于口述已有情感的书面化渲染（如口述说「难受」，可改为「心里不好受」）——前提是不新增具体场景、数字、动作
 								- 合并同义重复表述，让叙述更紧凑
 								- 纠正明显的语音识别错字"""
-												修复环境变量，UI问题

											
										
										
											2026-03-23 13:54:41 +08:00
-												feat(memory,conversation): 记忆富化/证据包、时间线幂等字段与对话分段全链路

数据库
- 新增迁移 0003：timeline_events.memory_source_id 外键 → memory_sources，便于按 ingest 源做时间线幂等

后端 - 记忆
- 新增 ingest 后 LLM 富化（摘要/事实/时间线），可配置开关与最大字符数
- 新增证据包组装：合并 chunk、摘要、事实、时间线、故事等检索结果；支持空 query 时是否仍带 rolling 等开关
- repo/retriever/service/router/schemas/summarizer/timeline/extractor 等扩展；文档 memory-retrieval.md 更新

后端 - 对话 WS
- 增加 PING/PONG；分段 ASR 日志与空音频处理；转写失败与「无助手回复」错误提示更明确
- 助手多段回复持久化使用统一分隔符，与分段逻辑一致

后端 - Agent
- reply_limits：按 [SPLIT] 与段落拆段，并保证非空 fallback，供 WS 与 TTS 多段下发

后端 - 回忆录任务
- transcript ingest 记录 source_id；任务成功结?

											
										
										
											2026-03-27 16:01:28 +08:00
 								def _memoir_fidelity_user_profile_rules() -> str:
 								    return """## 用户档案与阶段信息
-												修复环境变量，UI问题

											
										
										
											2026-03-23 13:54:41 +08:00
+								- 「用户基本信息」「时间参考」仅可使用其中**已写明**的条目；不得把档案中的出生地等写进正文，除非用户在本段口述里已提及或明确关联。"""
-												feat(memory,conversation): 记忆富化/证据包、时间线幂等字段与对话分段全链路

数据库
- 新增迁移 0003：timeline_events.memory_source_id 外键 → memory_sources，便于按 ingest 源做时间线幂等

后端 - 记忆
- 新增 ingest 后 LLM 富化（摘要/事实/时间线），可配置开关与最大字符数
- 新增证据包组装：合并 chunk、摘要、事实、时间线、故事等检索结果；支持空 query 时是否仍带 rolling 等开关
- repo/retriever/service/router/schemas/summarizer/timeline/extractor 等扩展；文档 memory-retrieval.md 更新

后端 - 对话 WS
- 增加 PING/PONG；分段 ASR 日志与空音频处理；转写失败与「无助手回复」错误提示更明确
- 助手多段回复持久化使用统一分隔符，与分段逻辑一致

后端 - Agent
- reply_limits：按 [SPLIT] 与段落拆段，并保证非空 fallback，供 WS 与 TTS 多段下发

后端 - 回忆录任务
- transcript ingest 记录 source_id；任务成功结?

											
										
										
											2026-03-27 16:01:28 +08:00
+								def get_memoir_fidelity_system_prompt() -> str:
-												refactor(agents): 抽取阶段常量与对话上下文；快档 LLM；图片 prompt 可禁止回退

访谈与阶段
- 新增 app/agents/stage_constants.py：集中 CHAT_STAGES、章节分类/顺序、阶段到默认 memoir 类别等，与 MemoirState 默认槽位顺序对齐；减少散落在 prompts 内的重复常量。
- 新增 app/agents/chat/prompt_context.py：以 ChatPromptContext 汇总 guided 系统提示所需字段（阶段、槽位、轮次、人设、记忆证据、回复长度模式、背景声线、职业等），统一走 get_guided_conversation_prompt。
- 大幅收敛 app/agents/chat/prompts_conversation.py；调整 prompts.py、stage_prompts.py、stage_detection.py；同步 interview_agent、profile_agent、helpers 与 state_schema，使对话侧构造提示的方式一致、可测。

回忆录流水线
- memoir/prompts.py 删除已迁至 stage_constants / 独立模板的大段常量与图片占位相关逻辑；classification / extraction / fidelity / narrative agents 与 orchest（全量历史仍可用于计数，注入模型时按轮次与字符上限截断）、image_prompt_fallback_disabled。
- dependencies 增加 get_llm_provider_fast（LRU 缓存，可与默认共用密钥与 base_url）。

任务与编排
- memoir_tasks：prepare_batches 注入 llm_fast；开启独立快档模型时打结构化日志。
- chapter_cover_tasks、story_image_tasks：与图片 prompt / JSON 工具路径或策略变更对齐（import 与行为一致）。
- story_pipeline_sync 等小处同步。

其它核心
- langchain_llm、text_normalize 随上述调用链微调。

开发者体验
- .cursor/settings.json：启用 redis-development、postman 插件。

测试
- 新增 test_image_prompt_policy：覆盖「禁止回退」等图片 prompt 策略。
- 更新 test_interview_prompts、test_interview_reply_length、test_experience_regressions、test_json_and_memory_utils，匹配新常量位置、json_utils 与对话/长度行为。

											
										
										
											2026-04-02 12:00:00 +08:00
+								    """叙事/标题生成专用：准确性优先，禁止编造事实。"""
-												feat(memory,conversation): 记忆富化/证据包、时间线幂等字段与对话分段全链路

数据库
- 新增迁移 0003：timeline_events.memory_source_id 外键 → memory_sources，便于按 ingest 源做时间线幂等

后端 - 记忆
- 新增 ingest 后 LLM 富化（摘要/事实/时间线），可配置开关与最大字符数
- 新增证据包组装：合并 chunk、摘要、事实、时间线、故事等检索结果；支持空 query 时是否仍带 rolling 等开关
- repo/retriever/service/router/schemas/summarizer/timeline/extractor 等扩展；文档 memory-retrieval.md 更新

后端 - 对话 WS
- 增加 PING/PONG；分段 ASR 日志与空音频处理；转写失败与「无助手回复」错误提示更明确
- 助手多段回复持久化使用统一分隔符，与分段逻辑一致

后端 - Agent
- reply_limits：按 [SPLIT] 与段落拆段，并保证非空 fallback，供 WS 与 TTS 多段下发

后端 - 回忆录任务
- transcript ingest 记录 source_id；任务成功结?

											
										
										
											2026-03-27 16:01:28 +08:00
+								    return f"""你是回忆录编辑助手，任务是把用户口述整理为第一人称书面叙述。
 								{_memoir_fidelity_core_rules()}
 . **叙述风格平实**：少用抒情、比喻与文学铺陈；像清楚记事，不要写成散文。
 								{_memoir_fidelity_user_profile_rules()}"""
 								def get_memoir_fidelity_facts_only_prompt() -> str:
 								    """与 `get_memoir_fidelity_system_prompt` 相同的事实 1–4 条，第 5 条改为允许传记作家式文采（仍禁止编造）。"""
 								    return f"""你是回忆录编辑助手，任务是把用户口述整理为第一人称书面叙述。
 								{_memoir_fidelity_core_rules()}
 . **文体**：在遵守第 1–4 条的前提下，可将口语改写为**优雅、连贯的回忆录书面语**（适当过渡句，保留并书面化用户已提及的细节与情感）；文采服务于真实内容，**不得**用虚构描写替代或填补事实。
 								{_memoir_fidelity_user_profile_rules()}"""
 								def _memoir_editor_narrative_style_block() -> str:
-												refactor(agents): 抽取阶段常量与对话上下文；快档 LLM；图片 prompt 可禁止回退

访谈与阶段
- 新增 app/agents/stage_constants.py：集中 CHAT_STAGES、章节分类/顺序、阶段到默认 memoir 类别等，与 MemoirState 默认槽位顺序对齐；减少散落在 prompts 内的重复常量。
- 新增 app/agents/chat/prompt_context.py：以 ChatPromptContext 汇总 guided 系统提示所需字段（阶段、槽位、轮次、人设、记忆证据、回复长度模式、背景声线、职业等），统一走 get_guided_conversation_prompt。
- 大幅收敛 app/agents/chat/prompts_conversation.py；调整 prompts.py、stage_prompts.py、stage_detection.py；同步 interview_agent、profile_agent、helpers 与 state_schema，使对话侧构造提示的方式一致、可测。

回忆录流水线
- memoir/prompts.py 删除已迁至 stage_constants / 独立模板的大段常量与图片占位相关逻辑；classification / extraction / fidelity / narrative agents 与 orchest（全量历史仍可用于计数，注入模型时按轮次与字符上限截断）、image_prompt_fallback_disabled。
- dependencies 增加 get_llm_provider_fast（LRU 缓存，可与默认共用密钥与 base_url）。

任务与编排
- memoir_tasks：prepare_batches 注入 llm_fast；开启独立快档模型时打结构化日志。
- chapter_cover_tasks、story_image_tasks：与图片 prompt / JSON 工具路径或策略变更对齐（import 与行为一致）。
- story_pipeline_sync 等小处同步。

其它核心
- langchain_llm、text_normalize 随上述调用链微调。

开发者体验
- .cursor/settings.json：启用 redis-development、postman 插件。

测试
- 新增 test_image_prompt_policy：覆盖「禁止回退」等图片 prompt 策略。
- 更新 test_interview_prompts、test_interview_reply_length、test_experience_regressions、test_json_and_memory_utils，匹配新常量位置、json_utils 与对话/长度行为。

											
										
										
											2026-04-02 12:00:00 +08:00
+								    """传记作家改写要点（用于写入 chapter 的 story 正文）。"""
-												feat(memory,conversation): 记忆富化/证据包、时间线幂等字段与对话分段全链路

数据库
- 新增迁移 0003：timeline_events.memory_source_id 外键 → memory_sources，便于按 ingest 源做时间线幂等

后端 - 记忆
- 新增 ingest 后 LLM 富化（摘要/事实/时间线），可配置开关与最大字符数
- 新增证据包组装：合并 chunk、摘要、事实、时间线、故事等检索结果；支持空 query 时是否仍带 rolling 等开关
- repo/retriever/service/router/schemas/summarizer/timeline/extractor 等扩展；文档 memory-retrieval.md 更新

后端 - 对话 WS
- 增加 PING/PONG；分段 ASR 日志与空音频处理；转写失败与「无助手回复」错误提示更明确
- 助手多段回复持久化使用统一分隔符，与分段逻辑一致

后端 - Agent
- reply_limits：按 [SPLIT] 与段落拆段，并保证非空 fallback，供 WS 与 TTS 多段下发

后端 - 回忆录任务
- transcript ingest 记录 source_id；任务成功结?

											
										
										
											2026-03-27 16:01:28 +08:00
+								    return """## 传记作家文体（须同时遵守上文「事实边界」）
-												feat(api): 访谈人格/回复长度策略、口述归一、背景语气与输入净稿全链路

Chat 访谈
- 新增 persona 系统（default / warm_listener / curious_guide）与 background_voice 语气层
- 回复长度由 compute_reply_plan 统一决策（brief / standard / expanded），融合信息密度启发式
- 输入净稿（input_normalize）：编排层可选 rules/llm 归一用户口语后再喂模型与记忆检索
- 记忆证据注入：按用户话检索 memory evidence 并注入 prompt

Memoir 回忆录
- 口述归一（oral_normalize）：segment 原文保留，story 管线取派生净稿作叙事输入
- segment 入队批次门闸：累计字数 + 最长等待秒数，减少零碎提交
- fidelity_check / prompts / narrative_agent 微调
- Alembic 0005：清理跨章节 story 外键

Infra
- Dockerfile 加入 ffmpeg
- pyproject.toml 新增依赖并同步 uv.lock
- .env.example / .env.production 补全新配置项

Tests
- 新增 test_background_voice、test_chat_input_normalize、test_experience_regressions
- 扩展 test_interview_prompts、test_interview_reply_length、test_story_route_oral_invariant

Made-with: Cursor

											
										
										
											2026-03-31 23:55:26 +08:00
+								你是一位专业的传记作家和文字编辑，擅长将口语化的对话内容整理成优雅、有温度的书面语回忆录章节。
-												feat(memory,conversation): 记忆富化/证据包、时间线幂等字段与对话分段全链路

数据库
- 新增迁移 0003：timeline_events.memory_source_id 外键 → memory_sources，便于按 ingest 源做时间线幂等

后端 - 记忆
- 新增 ingest 后 LLM 富化（摘要/事实/时间线），可配置开关与最大字符数
- 新增证据包组装：合并 chunk、摘要、事实、时间线、故事等检索结果；支持空 query 时是否仍带 rolling 等开关
- repo/retriever/service/router/schemas/summarizer/timeline/extractor 等扩展；文档 memory-retrieval.md 更新

后端 - 对话 WS
- 增加 PING/PONG；分段 ASR 日志与空音频处理；转写失败与「无助手回复」错误提示更明确
- 助手多段回复持久化使用统一分隔符，与分段逻辑一致

后端 - Agent
- reply_limits：按 [SPLIT] 与段落拆段，并保证非空 fallback，供 WS 与 TTS 多段下发

后端 - 回忆录任务
- transcript ingest 记录 source_id；任务成功结?

											
										
										
											2026-03-27 16:01:28 +08:00
 								### 提炼与筛选
 								对话中往往夹杂噪音，须严格筛选：保留具体事件、人物关系、时地、情感与信念、用户已提及的细节；过滤语气词、寒暄、与 AI 的交互、无关闲聊、重复冗余。
 								### 改写原则
-												feat(api): 访谈人格/回复长度策略、口述归一、背景语气与输入净稿全链路

Chat 访谈
- 新增 persona 系统（default / warm_listener / curious_guide）与 background_voice 语气层
- 回复长度由 compute_reply_plan 统一决策（brief / standard / expanded），融合信息密度启发式
- 输入净稿（input_normalize）：编排层可选 rules/llm 归一用户口语后再喂模型与记忆检索
- 记忆证据注入：按用户话检索 memory evidence 并注入 prompt

Memoir 回忆录
- 口述归一（oral_normalize）：segment 原文保留，story 管线取派生净稿作叙事输入
- segment 入队批次门闸：累计字数 + 最长等待秒数，减少零碎提交
- fidelity_check / prompts / narrative_agent 微调
- Alembic 0005：清理跨章节 story 外键

Infra
- Dockerfile 加入 ffmpeg
- pyproject.toml 新增依赖并同步 uv.lock
- .env.example / .env.production 补全新配置项

Tests
- 新增 test_background_voice、test_chat_input_normalize、test_experience_regressions
- 扩展 test_interview_prompts、test_interview_reply_length、test_story_route_oral_invariant

Made-with: Cursor

											
										
										
											2026-03-31 23:55:26 +08:00
+								- 保持用户的真实情感，让读者能感受到讲述者的心情
 								- 使用优雅但不失亲切的书面语，不直接引用对话原话
 								- 适当添加过渡句，使段落连贯流畅
 								- 保留生动的细节，将口语表达改写为有画面感的书面叙述
-												feat(memory,conversation): 记忆富化/证据包、时间线幂等字段与对话分段全链路

数据库
- 新增迁移 0003：timeline_events.memory_source_id 外键 → memory_sources，便于按 ingest 源做时间线幂等

后端 - 记忆
- 新增 ingest 后 LLM 富化（摘要/事实/时间线），可配置开关与最大字符数
- 新增证据包组装：合并 chunk、摘要、事实、时间线、故事等检索结果；支持空 query 时是否仍带 rolling 等开关
- repo/retriever/service/router/schemas/summarizer/timeline/extractor 等扩展；文档 memory-retrieval.md 更新

后端 - 对话 WS
- 增加 PING/PONG；分段 ASR 日志与空音频处理；转写失败与「无助手回复」错误提示更明确
- 助手多段回复持久化使用统一分隔符，与分段逻辑一致

后端 - Agent
- reply_limits：按 [SPLIT] 与段落拆段，并保证非空 fallback，供 WS 与 TTS 多段下发

后端 - 回忆录任务
- transcript ingest 记录 source_id；任务成功结?

											
										
										
											2026-03-27 16:01:28 +08:00
+								- 去除口语中的填充词和无意义重复
 								- 保持时间顺序和逻辑清晰
-												refactor(agents): 抽取阶段常量与对话上下文；快档 LLM；图片 prompt 可禁止回退

访谈与阶段
- 新增 app/agents/stage_constants.py：集中 CHAT_STAGES、章节分类/顺序、阶段到默认 memoir 类别等，与 MemoirState 默认槽位顺序对齐；减少散落在 prompts 内的重复常量。
- 新增 app/agents/chat/prompt_context.py：以 ChatPromptContext 汇总 guided 系统提示所需字段（阶段、槽位、轮次、人设、记忆证据、回复长度模式、背景声线、职业等），统一走 get_guided_conversation_prompt。
- 大幅收敛 app/agents/chat/prompts_conversation.py；调整 prompts.py、stage_prompts.py、stage_detection.py；同步 interview_agent、profile_agent、helpers 与 state_schema，使对话侧构造提示的方式一致、可测。

回忆录流水线
- memoir/prompts.py 删除已迁至 stage_constants / 独立模板的大段常量与图片占位相关逻辑；classification / extraction / fidelity / narrative agents 与 orchest（全量历史仍可用于计数，注入模型时按轮次与字符上限截断）、image_prompt_fallback_disabled。
- dependencies 增加 get_llm_provider_fast（LRU 缓存，可与默认共用密钥与 base_url）。

任务与编排
- memoir_tasks：prepare_batches 注入 llm_fast；开启独立快档模型时打结构化日志。
- chapter_cover_tasks、story_image_tasks：与图片 prompt / JSON 工具路径或策略变更对齐（import 与行为一致）。
- story_pipeline_sync 等小处同步。

其它核心
- langchain_llm、text_normalize 随上述调用链微调。

开发者体验
- .cursor/settings.json：启用 redis-development、postman 插件。

测试
- 新增 test_image_prompt_policy：覆盖「禁止回退」等图片 prompt 策略。
- 更新 test_interview_prompts、test_interview_reply_length、test_experience_regressions、test_json_and_memory_utils，匹配新常量位置、json_utils 与对话/长度行为。

											
										
										
											2026-04-02 12:00:00 +08:00
+								- **在事实边界内，鼓励使用有温度的传记笔法**，让读者感受到讲述者当时的心情；可有文学性的表达与恰当的情感渲染；**须同时遵守上文「事实边界」规则 1–4**
-												feat(api): 叙事 prompt、职业上下文、读路径章节、WS 解耦与错误脱敏

- 回忆录：事实边界补充允许清单；传记文体示例与 JSON 叙事要求对齐
- default 职业提示 occupation_context；cadre/military 退休语境
- GET 章节读路径零写入，prepare_chapter_read_view + markdown_for_response
- 文本归一抽到 core/text_normalize；移除弃用 reply 策略与 recompose_chapters_for_story
- ConversationService：WS 连接/用户段落/结束对话；对外错误固定文案
- 测试：HTTP 脱敏契约、章节读视图、occupation 与 background_voice

											
										
										
											2026-04-01 11:49:33 +08:00
 								### 示例（仅供参考允许的改写程度；只改语气、不加新事实）
 								- 原文：「那时候穷啊，一家人挤一间房。」
 								  → 改写：「那时家里拮据，一家人挤在一间屋里过日子。」
 								- 原文：「后来他走了，我挺难受的。」
 								  → 改写：「他走后的那段日子，心里一直不是滋味。」
-												feat(memory,conversation): 记忆富化/证据包、时间线幂等字段与对话分段全链路

数据库
- 新增迁移 0003：timeline_events.memory_source_id 外键 → memory_sources，便于按 ingest 源做时间线幂等

后端 - 记忆
- 新增 ingest 后 LLM 富化（摘要/事实/时间线），可配置开关与最大字符数
- 新增证据包组装：合并 chunk、摘要、事实、时间线、故事等检索结果；支持空 query 时是否仍带 rolling 等开关
- repo/retriever/service/router/schemas/summarizer/timeline/extractor 等扩展；文档 memory-retrieval.md 更新

后端 - 对话 WS
- 增加 PING/PONG；分段 ASR 日志与空音频处理；转写失败与「无助手回复」错误提示更明确
- 助手多段回复持久化使用统一分隔符，与分段逻辑一致

后端 - Agent
- reply_limits：按 [SPLIT] 与段落拆段，并保证非空 fallback，供 WS 与 TTS 多段下发

后端 - 回忆录任务
- transcript ingest 记录 source_id；任务成功结?

											
										
										
											2026-03-27 16:01:28 +08:00
 								### 输出格式约束
 								- 使用第一人称
 								- 不使用 Markdown 标题（#、##）、不使用表格
 								- 如有「衔接上下文」，仅保持语气与时间线连贯，不重复已有段落全文"""
-												feat(api): 叙事 prompt、职业上下文、读路径章节、WS 解耦与错误脱敏

- 回忆录：事实边界补充允许清单；传记文体示例与 JSON 叙事要求对齐
- default 职业提示 occupation_context；cadre/military 退休语境
- GET 章节读路径零写入，prepare_chapter_read_view + markdown_for_response
- 文本归一抽到 core/text_normalize；移除弃用 reply 策略与 recompose_chapters_for_story
- ConversationService：WS 连接/用户段落/结束对话；对外错误固定文案
- 测试：HTTP 脱敏契约、章节读视图、occupation 与 background_voice

											
										
										
											2026-04-01 11:49:33 +08:00
+								def get_narrative_editor_system_prompt(
 								    background_voice: str = "default", occupation: str = ""
 								) -> str:
-												feat(memory,conversation): 记忆富化/证据包、时间线幂等字段与对话分段全链路

数据库
- 新增迁移 0003：timeline_events.memory_source_id 外键 → memory_sources，便于按 ingest 源做时间线幂等

后端 - 记忆
- 新增 ingest 后 LLM 富化（摘要/事实/时间线），可配置开关与最大字符数
- 新增证据包组装：合并 chunk、摘要、事实、时间线、故事等检索结果；支持空 query 时是否仍带 rolling 等开关
- repo/retriever/service/router/schemas/summarizer/timeline/extractor 等扩展；文档 memory-retrieval.md 更新

后端 - 对话 WS
- 增加 PING/PONG；分段 ASR 日志与空音频处理；转写失败与「无助手回复」错误提示更明确
- 助手多段回复持久化使用统一分隔符，与分段逻辑一致

后端 - Agent
- reply_limits：按 [SPLIT] 与段落拆段，并保证非空 fallback，供 WS 与 TTS 多段下发

后端 - 回忆录任务
- transcript ingest 记录 source_id；任务成功结?

											
										
										
											2026-03-27 16:01:28 +08:00
+								    """故事/章节叙事：传记作家式书面语 + 事实边界（chapter 直接展示 story 时使用）。"""
-												feat(api): 叙事 prompt、职业上下文、读路径章节、WS 解耦与错误脱敏

- 回忆录：事实边界补充允许清单；传记文体示例与 JSON 叙事要求对齐
- default 职业提示 occupation_context；cadre/military 退休语境
- GET 章节读路径零写入，prepare_chapter_read_view + markdown_for_response
- 文本归一抽到 core/text_normalize；移除弃用 reply 策略与 recompose_chapters_for_story
- ConversationService：WS 连接/用户段落/结束对话；对外错误固定文案
- 测试：HTTP 脱敏契约、章节读视图、occupation 与 background_voice

											
										
										
											2026-04-01 11:49:33 +08:00
+								    occ_hint = get_occupation_narrative_hint(occupation, background_voice)
-												feat(api): 访谈人格/回复长度策略、口述归一、背景语气与输入净稿全链路

Chat 访谈
- 新增 persona 系统（default / warm_listener / curious_guide）与 background_voice 语气层
- 回复长度由 compute_reply_plan 统一决策（brief / standard / expanded），融合信息密度启发式
- 输入净稿（input_normalize）：编排层可选 rules/llm 归一用户口语后再喂模型与记忆检索
- 记忆证据注入：按用户话检索 memory evidence 并注入 prompt

Memoir 回忆录
- 口述归一（oral_normalize）：segment 原文保留，story 管线取派生净稿作叙事输入
- segment 入队批次门闸：累计字数 + 最长等待秒数，减少零碎提交
- fidelity_check / prompts / narrative_agent 微调
- Alembic 0005：清理跨章节 story 外键

Infra
- Dockerfile 加入 ffmpeg
- pyproject.toml 新增依赖并同步 uv.lock
- .env.example / .env.production 补全新配置项

Tests
- 新增 test_background_voice、test_chat_input_normalize、test_experience_regressions
- 扩展 test_interview_prompts、test_interview_reply_length、test_story_route_oral_invariant

Made-with: Cursor

											
										
										
											2026-03-31 23:55:26 +08:00
+								    tail = get_background_voice_narrative_block(background_voice)
 								    base = f"""{get_memoir_fidelity_facts_only_prompt()}
-												修复环境变量，UI问题

											
										
										
											2026-03-23 13:54:41 +08:00
-												feat(memory,conversation): 记忆富化/证据包、时间线幂等字段与对话分段全链路

数据库
- 新增迁移 0003：timeline_events.memory_source_id 外键 → memory_sources，便于按 ingest 源做时间线幂等

后端 - 记忆
- 新增 ingest 后 LLM 富化（摘要/事实/时间线），可配置开关与最大字符数
- 新增证据包组装：合并 chunk、摘要、事实、时间线、故事等检索结果；支持空 query 时是否仍带 rolling 等开关
- repo/retriever/service/router/schemas/summarizer/timeline/extractor 等扩展；文档 memory-retrieval.md 更新

后端 - 对话 WS
- 增加 PING/PONG；分段 ASR 日志与空音频处理；转写失败与「无助手回复」错误提示更明确
- 助手多段回复持久化使用统一分隔符，与分段逻辑一致

后端 - Agent
- reply_limits：按 [SPLIT] 与段落拆段，并保证非空 fallback，供 WS 与 TTS 多段下发

后端 - 回忆录任务
- transcript ingest 记录 source_id；任务成功结?

											
										
										
											2026-03-27 16:01:28 +08:00
+								{_memoir_editor_narrative_style_block()}"""
-												feat(api): 叙事 prompt、职业上下文、读路径章节、WS 解耦与错误脱敏

- 回忆录：事实边界补充允许清单；传记文体示例与 JSON 叙事要求对齐
- default 职业提示 occupation_context；cadre/military 退休语境
- GET 章节读路径零写入，prepare_chapter_read_view + markdown_for_response
- 文本归一抽到 core/text_normalize；移除弃用 reply 策略与 recompose_chapters_for_story
- ConversationService：WS 连接/用户段落/结束对话；对外错误固定文案
- 测试：HTTP 脱敏契约、章节读视图、occupation 与 background_voice

											
										
										
											2026-04-01 11:49:33 +08:00
+								    if occ_hint:
 								        base = f"{base}\n\n{occ_hint}"
-												feat(api): 访谈人格/回复长度策略、口述归一、背景语气与输入净稿全链路

Chat 访谈
- 新增 persona 系统（default / warm_listener / curious_guide）与 background_voice 语气层
- 回复长度由 compute_reply_plan 统一决策（brief / standard / expanded），融合信息密度启发式
- 输入净稿（input_normalize）：编排层可选 rules/llm 归一用户口语后再喂模型与记忆检索
- 记忆证据注入：按用户话检索 memory evidence 并注入 prompt

Memoir 回忆录
- 口述归一（oral_normalize）：segment 原文保留，story 管线取派生净稿作叙事输入
- segment 入队批次门闸：累计字数 + 最长等待秒数，减少零碎提交
- fidelity_check / prompts / narrative_agent 微调
- Alembic 0005：清理跨章节 story 外键

Infra
- Dockerfile 加入 ffmpeg
- pyproject.toml 新增依赖并同步 uv.lock
- .env.example / .env.production 补全新配置项

Tests
- 新增 test_background_voice、test_chat_input_normalize、test_experience_regressions
- 扩展 test_interview_prompts、test_interview_reply_length、test_story_route_oral_invariant

Made-with: Cursor

											
										
										
											2026-03-31 23:55:26 +08:00
+								    if not tail:
 								        return base
 								    return f"{base}\n\n{tail}"
-												修复环境变量，UI问题

											
										
										
											2026-03-23 13:54:41 +08:00
-												feat(api+app): 对话阶段化、回忆录流水线与客户端会话体验
- DB: segments 用户输入文本（Alembic 0002）
- Chat: 阶段检测/阶段提示/回复限制，编排与访谈/画像 prompts 调整
- Memoir: 忠实度检查 agent，叙事与分类等链路更新
- Core: agent 日志、Alembic 启动、LangChain/日志/配置等
- Story: time_hints；Memory 检索与相关测试
- Expo: 助手头像、会话页与消息拆分、实时会话与文案/i18n
- Docs/scripts/tests: 迁移脚本、LLM JSON/记忆检索文档、新增单测

											
										
										
											2026-03-26 12:13:36 +08:00
+								def _short_classification_edit_prefix() -> str:
-												refactor(agents): 抽取阶段常量与对话上下文；快档 LLM；图片 prompt 可禁止回退

访谈与阶段
- 新增 app/agents/stage_constants.py：集中 CHAT_STAGES、章节分类/顺序、阶段到默认 memoir 类别等，与 MemoirState 默认槽位顺序对齐；减少散落在 prompts 内的重复常量。
- 新增 app/agents/chat/prompt_context.py：以 ChatPromptContext 汇总 guided 系统提示所需字段（阶段、槽位、轮次、人设、记忆证据、回复长度模式、背景声线、职业等），统一走 get_guided_conversation_prompt。
- 大幅收敛 app/agents/chat/prompts_conversation.py；调整 prompts.py、stage_prompts.py、stage_detection.py；同步 interview_agent、profile_agent、helpers 与 state_schema，使对话侧构造提示的方式一致、可测。

回忆录流水线
- memoir/prompts.py 删除已迁至 stage_constants / 独立模板的大段常量与图片占位相关逻辑；classification / extraction / fidelity / narrative agents 与 orchest（全量历史仍可用于计数，注入模型时按轮次与字符上限截断）、image_prompt_fallback_disabled。
- dependencies 增加 get_llm_provider_fast（LRU 缓存，可与默认共用密钥与 base_url）。

任务与编排
- memoir_tasks：prepare_batches 注入 llm_fast；开启独立快档模型时打结构化日志。
- chapter_cover_tasks、story_image_tasks：与图片 prompt / JSON 工具路径或策略变更对齐（import 与行为一致）。
- story_pipeline_sync 等小处同步。

其它核心
- langchain_llm、text_normalize 随上述调用链微调。

开发者体验
- .cursor/settings.json：启用 redis-development、postman 插件。

测试
- 新增 test_image_prompt_policy：覆盖「禁止回退」等图片 prompt 策略。
- 更新 test_interview_prompts、test_interview_reply_length、test_experience_regressions、test_json_and_memory_utils，匹配新常量位置、json_utils 与对话/长度行为。

											
										
										
											2026-04-02 12:00:00 +08:00
+								    """章节分类专用短系统前缀。"""
-												feat(api+app): 对话阶段化、回忆录流水线与客户端会话体验
- DB: segments 用户输入文本（Alembic 0002）
- Chat: 阶段检测/阶段提示/回复限制，编排与访谈/画像 prompts 调整
- Memoir: 忠实度检查 agent，叙事与分类等链路更新
- Core: agent 日志、Alembic 启动、LangChain/日志/配置等
- Story: time_hints；Memory 检索与相关测试
- Expo: 助手头像、会话页与消息拆分、实时会话与文案/i18n
- Docs/scripts/tests: 迁移脚本、LLM JSON/记忆检索文档、新增单测

											
										
										
											2026-03-26 12:13:36 +08:00
+								    return """你是回忆录编辑。先忽略语气词与寒暄，只根据**与人生经历有关的实质内容**判断归类。
 								保留：事件、人物关系、地点时间、情感与信念。过滤：纯寒暄、与 AI 的交互、无关闲聊。"""
-												修复环境变量，UI问题

											
										
										
											2026-03-23 13:54:41 +08:00
-												添加AI代理模块

											
										
										
											2026-01-07 11:56:53 +08:00
-												feat(api+app): 对话阶段化、回忆录流水线与客户端会话体验
- DB: segments 用户输入文本（Alembic 0002）
- Chat: 阶段检测/阶段提示/回复限制，编排与访谈/画像 prompts 调整
- Memoir: 忠实度检查 agent，叙事与分类等链路更新
- Core: agent 日志、Alembic 启动、LangChain/日志/配置等
- Story: time_hints；Memory 检索与相关测试
- Expo: 助手头像、会话页与消息拆分、实时会话与文案/i18n
- Docs/scripts/tests: 迁移脚本、LLM JSON/记忆检索文档、新增单测

											
										
										
											2026-03-26 12:13:36 +08:00
+								def get_chapter_classification_json_prompt(segments_text: str) -> str:
 								    """章节分类：JSON 输出（与 invoke_json_object 配合）。"""
 								    return f"""{_short_classification_edit_prefix()}
 								## 章节 key（英文）
 								childhood, education, career_early, career_achievement, career_challenge, family, beliefs, summary；不足以成篇则 **none**。
-												添加AI代理模块

											
										
										
											2026-01-07 11:56:53 +08:00
-												refactor(agents): 抽取阶段常量与对话上下文；快档 LLM；图片 prompt 可禁止回退

访谈与阶段
- 新增 app/agents/stage_constants.py：集中 CHAT_STAGES、章节分类/顺序、阶段到默认 memoir 类别等，与 MemoirState 默认槽位顺序对齐；减少散落在 prompts 内的重复常量。
- 新增 app/agents/chat/prompt_context.py：以 ChatPromptContext 汇总 guided 系统提示所需字段（阶段、槽位、轮次、人设、记忆证据、回复长度模式、背景声线、职业等），统一走 get_guided_conversation_prompt。
- 大幅收敛 app/agents/chat/prompts_conversation.py；调整 prompts.py、stage_prompts.py、stage_detection.py；同步 interview_agent、profile_agent、helpers 与 state_schema，使对话侧构造提示的方式一致、可测。

回忆录流水线
- memoir/prompts.py 删除已迁至 stage_constants / 独立模板的大段常量与图片占位相关逻辑；classification / extraction / fidelity / narrative agents 与 orchest（全量历史仍可用于计数，注入模型时按轮次与字符上限截断）、image_prompt_fallback_disabled。
- dependencies 增加 get_llm_provider_fast（LRU 缓存，可与默认共用密钥与 base_url）。

任务与编排
- memoir_tasks：prepare_batches 注入 llm_fast；开启独立快档模型时打结构化日志。
- chapter_cover_tasks、story_image_tasks：与图片 prompt / JSON 工具路径或策略变更对齐（import 与行为一致）。
- story_pipeline_sync 等小处同步。

其它核心
- langchain_llm、text_normalize 随上述调用链微调。

开发者体验
- .cursor/settings.json：启用 redis-development、postman 插件。

测试
- 新增 test_image_prompt_policy：覆盖「禁止回退」等图片 prompt 策略。
- 更新 test_interview_prompts、test_interview_reply_length、test_experience_regressions、test_json_and_memory_utils，匹配新常量位置、json_utils 与对话/长度行为。

											
										
										
											2026-04-02 12:00:00 +08:00
+								当去掉寒暄后仅为档案式点状信息、无可讲述叙事骨架（无事件/场景/过程/互动/情绪展开）→ **none**；短但有画面的微型故事应归入最贴类别。
-												添加AI代理模块

											
										
										
											2026-01-07 11:56:53 +08:00
 								对话内容：
 								{segments_text}
-												feat(api): 统一 LLM JSON 调用层 llm_json_call，按域 Schema 迁移 chat/memoir agents

											
										
										
											2026-04-03 13:34:27 +08:00
+								输出形状（仅此对象）：
-												feat(api+app): 对话阶段化、回忆录流水线与客户端会话体验
- DB: segments 用户输入文本（Alembic 0002）
- Chat: 阶段检测/阶段提示/回复限制，编排与访谈/画像 prompts 调整
- Memoir: 忠实度检查 agent，叙事与分类等链路更新
- Core: agent 日志、Alembic 启动、LangChain/日志/配置等
- Story: time_hints；Memory 检索与相关测试
- Expo: 助手头像、会话页与消息拆分、实时会话与文案/i18n
- Docs/scripts/tests: 迁移脚本、LLM JSON/记忆检索文档、新增单测

											
										
										
											2026-03-26 12:13:36 +08:00
+								{{"category": "childhood|education|career_early|career_achievement|career_challenge|family|beliefs|summary|none"}}
-												feat(memory,conversation): 记忆富化/证据包、时间线幂等字段与对话分段全链路

数据库
- 新增迁移 0003：timeline_events.memory_source_id 外键 → memory_sources，便于按 ingest 源做时间线幂等

后端 - 记忆
- 新增 ingest 后 LLM 富化（摘要/事实/时间线），可配置开关与最大字符数
- 新增证据包组装：合并 chunk、摘要、事实、时间线、故事等检索结果；支持空 query 时是否仍带 rolling 等开关
- repo/retriever/service/router/schemas/summarizer/timeline/extractor 等扩展；文档 memory-retrieval.md 更新

后端 - 对话 WS
- 增加 PING/PONG；分段 ASR 日志与空音频处理；转写失败与「无助手回复」错误提示更明确
- 助手多段回复持久化使用统一分隔符，与分段逻辑一致

后端 - Agent
- reply_limits：按 [SPLIT] 与段落拆段，并保证非空 fallback，供 WS 与 TTS 多段下发

后端 - 回忆录任务
- transcript ingest 记录 source_id；任务成功结?

											
										
										
											2026-03-27 16:01:28 +08:00
 								若你返回 **none**，服务端会将本段映射到 **summary** 章节并仍写入回忆录正文（不落库丢弃）。"""
-												agent init

											
										
										
											2026-01-21 22:31:03 +01:00
-												chore/ 删除无用文件

											
										
										
											2026-03-19 14:36:14 +08:00
+								def get_state_extraction_prompt(
 								    user_message: str, current_stage: str, stage_slots: dict
 								) -> str:
-												agent init

											
										
										
											2026-01-21 22:31:03 +01:00
+								    """抽取结构化信息并判断阶段"""
 								    slot_keys = list(stage_slots.keys())
-												feat(api): 统一 LLM JSON 调用层 llm_json_call，按域 Schema 迁移 chat/memoir agents

											
										
										
											2026-04-03 13:34:27 +08:00
+								    all_stage_slots = {k: list(v) for k, v in STAGE_SLOT_KEYS.items()}
-												feat: 增强对话代理以检测用户阶段并更新章节排序

- 在 api/agents/conversation_agent.py 中添加 _detect_user_stage 方法，以通过关键词检测用户谈论的人生阶段。
- 在 api/agents/memory_agent.py 中更新章节排序逻辑，使用 STAGE_TO_ORDER 替代 CHAPTER_ORDER。
- 在 api/agents/state_schema.py 中添加方法以获取各阶段的填充情况。
- 在 api/agents/prompts/conversation_prompts.py 中更新对话提示，包含用户阶段检测和整体进度信息。
- 在 api/migrations/fix_chapter_order_index.sql 中添加 SQL 脚本以修复章节 order_index 的问题。
- 更新相关文档和提示以反映新功能。

											
										
										
											2026-02-13 21:45:56 +01:00
-												refactor(agents): 抽取阶段常量与对话上下文；快档 LLM；图片 prompt 可禁止回退

访谈与阶段
- 新增 app/agents/stage_constants.py：集中 CHAT_STAGES、章节分类/顺序、阶段到默认 memoir 类别等，与 MemoirState 默认槽位顺序对齐；减少散落在 prompts 内的重复常量。
- 新增 app/agents/chat/prompt_context.py：以 ChatPromptContext 汇总 guided 系统提示所需字段（阶段、槽位、轮次、人设、记忆证据、回复长度模式、背景声线、职业等），统一走 get_guided_conversation_prompt。
- 大幅收敛 app/agents/chat/prompts_conversation.py；调整 prompts.py、stage_prompts.py、stage_detection.py；同步 interview_agent、profile_agent、helpers 与 state_schema，使对话侧构造提示的方式一致、可测。

回忆录流水线
- memoir/prompts.py 删除已迁至 stage_constants / 独立模板的大段常量与图片占位相关逻辑；classification / extraction / fidelity / narrative agents 与 orchest（全量历史仍可用于计数，注入模型时按轮次与字符上限截断）、image_prompt_fallback_disabled。
- dependencies 增加 get_llm_provider_fast（LRU 缓存，可与默认共用密钥与 base_url）。

任务与编排
- memoir_tasks：prepare_batches 注入 llm_fast；开启独立快档模型时打结构化日志。
- chapter_cover_tasks、story_image_tasks：与图片 prompt / JSON 工具路径或策略变更对齐（import 与行为一致）。
- story_pipeline_sync 等小处同步。

其它核心
- langchain_llm、text_normalize 随上述调用链微调。

开发者体验
- .cursor/settings.json：启用 redis-development、postman 插件。

测试
- 新增 test_image_prompt_policy：覆盖「禁止回退」等图片 prompt 策略。
- 更新 test_interview_prompts、test_interview_reply_length、test_experience_regressions、test_json_and_memory_utils，匹配新常量位置、json_utils 与对话/长度行为。

											
										
										
											2026-04-02 12:00:00 +08:00
+								    return f"""你是回忆录访谈信息抽取助手。从用户话语中提取结构化信息，判断用户实际在谈论哪个人生阶段。
 								只提取口述中确有依据的片段，不得编造或推测。
-												feat(api+app): 对话阶段化、回忆录流水线与客户端会话体验
- DB: segments 用户输入文本（Alembic 0002）
- Chat: 阶段检测/阶段提示/回复限制，编排与访谈/画像 prompts 调整
- Memoir: 忠实度检查 agent，叙事与分类等链路更新
- Core: agent 日志、Alembic 启动、LangChain/日志/配置等
- Story: time_hints；Memory 检索与相关测试
- Expo: 助手头像、会话页与消息拆分、实时会话与文案/i18n
- Docs/scripts/tests: 迁移脚本、LLM JSON/记忆检索文档、新增单测

											
										
										
											2026-03-26 12:13:36 +08:00
-												refactor(agents): 抽取阶段常量与对话上下文；快档 LLM；图片 prompt 可禁止回退

访谈与阶段
- 新增 app/agents/stage_constants.py：集中 CHAT_STAGES、章节分类/顺序、阶段到默认 memoir 类别等，与 MemoirState 默认槽位顺序对齐；减少散落在 prompts 内的重复常量。
- 新增 app/agents/chat/prompt_context.py：以 ChatPromptContext 汇总 guided 系统提示所需字段（阶段、槽位、轮次、人设、记忆证据、回复长度模式、背景声线、职业等），统一走 get_guided_conversation_prompt。
- 大幅收敛 app/agents/chat/prompts_conversation.py；调整 prompts.py、stage_prompts.py、stage_detection.py；同步 interview_agent、profile_agent、helpers 与 state_schema，使对话侧构造提示的方式一致、可测。

回忆录流水线
- memoir/prompts.py 删除已迁至 stage_constants / 独立模板的大段常量与图片占位相关逻辑；classification / extraction / fidelity / narrative agents 与 orchest（全量历史仍可用于计数，注入模型时按轮次与字符上限截断）、image_prompt_fallback_disabled。
- dependencies 增加 get_llm_provider_fast（LRU 缓存，可与默认共用密钥与 base_url）。

任务与编排
- memoir_tasks：prepare_batches 注入 llm_fast；开启独立快档模型时打结构化日志。
- chapter_cover_tasks、story_image_tasks：与图片 prompt / JSON 工具路径或策略变更对齐（import 与行为一致）。
- story_pipeline_sync 等小处同步。

其它核心
- langchain_llm、text_normalize 随上述调用链微调。

开发者体验
- .cursor/settings.json：启用 redis-development、postman 插件。

测试
- 新增 test_image_prompt_policy：覆盖「禁止回退」等图片 prompt 策略。
- 更新 test_interview_prompts、test_interview_reply_length、test_experience_regressions、test_json_and_memory_utils，匹配新常量位置、json_utils 与对话/长度行为。

											
										
										
											2026-04-02 12:00:00 +08:00
+								你需要从用户话语中**先提炼与人生经历相关的核心内容**，然后抽取结构化信息（slots 仅填口述中确有依据的片段）。
-												agent init

											
										
										
											2026-01-21 22:31:03 +01:00
-												feat: 增强对话代理以检测用户阶段并更新章节排序

- 在 api/agents/conversation_agent.py 中添加 _detect_user_stage 方法，以通过关键词检测用户谈论的人生阶段。
- 在 api/agents/memory_agent.py 中更新章节排序逻辑，使用 STAGE_TO_ORDER 替代 CHAPTER_ORDER。
- 在 api/agents/state_schema.py 中添加方法以获取各阶段的填充情况。
- 在 api/agents/prompts/conversation_prompts.py 中更新对话提示，包含用户阶段检测和整体进度信息。
- 在 api/migrations/fix_chapter_order_index.sql 中添加 SQL 脚本以修复章节 order_index 的问题。
- 更新相关文档和提示以反映新功能。

											
										
										
											2026-02-13 21:45:56 +01:00
+								系统当前跟踪的阶段：{current_stage}
 								该阶段可填 slots：{slot_keys}
-												agent init

											
										
										
											2026-01-21 22:31:03 +01:00
-												feat: 增强对话代理以检测用户阶段并更新章节排序

- 在 api/agents/conversation_agent.py 中添加 _detect_user_stage 方法，以通过关键词检测用户谈论的人生阶段。
- 在 api/agents/memory_agent.py 中更新章节排序逻辑，使用 STAGE_TO_ORDER 替代 CHAPTER_ORDER。
- 在 api/agents/state_schema.py 中添加方法以获取各阶段的填充情况。
- 在 api/agents/prompts/conversation_prompts.py 中更新对话提示，包含用户阶段检测和整体进度信息。
- 在 api/migrations/fix_chapter_order_index.sql 中添加 SQL 脚本以修复章节 order_index 的问题。
- 更新相关文档和提示以反映新功能。

											
										
										
											2026-02-13 21:45:56 +01:00
+								所有阶段及其 slots 参考：
 								{json.dumps(all_stage_slots, ensure_ascii=False, indent=2)}
-												agent init

											
										
										
											2026-01-21 22:31:03 +01:00
 								用户话语：
 								{user_message}
 								请只返回 JSON，格式如下：
 								{{
 								  "detected_stage": "childhood|education|career|family|belief",
 								  "slots": {{
 								    "slot_key": "snippet"
 								  }},
 								  "emotion": "neutral|warm|low|highlight",
 								  "is_new_chapter": true
 								}}
 								要求：
-												refactor: 进一步重构agents目录结构 符合多agent架构

											
										
										
											2026-03-19 10:54:48 +08:00
+. **先忽略话语中的语气词、填充词、寒暄、与AI的交互指令等无关内容**，只关注涉及人生经历的实质信息
-												feat(api): 访谈路径轻量门控、Memoir Phase1 批处理与叙事/记忆管线加固

- 新增 utterance_substance：短时/应答/元话语可跳过记忆检索、阶段 LLM 与资料抽取 LLM；可配置
- 输入归一化：LLM 模式默认仅语音/ASR；配置项写入 .env.example
- Memoir Phase1：可选 batch LLM 一次性抽取+分类（失败回退逐段）；Extraction 空槽位时阶段与 current_stage 对齐，prompt 约束收紧
- 叙事与忠实度：narrative_safety、证据重叠/场合锚点、标题 slots 与履历短语 grounded；fidelity 解析失败 fail-open 可配置
- 章节管线：锁 TTL 上调、锁竞争 Celery 重试、Phase2 immediate singleflight 等；story_pipeline_sync / chapter_compose / memoir_tasks 联动
- Memory：compaction / repo / summarizer / evidence 小修；事实 FTS 未命中是否回退最近事实可配置
- 新增 memoir_pipeline_trace；补充 memoir_reliability 文档与多项回归/门控测试

											
										
										
											2026-04-03 10:12:59 +08:00
+. **仅当 slots 非空时**：detected_stage 必须根据用户话语的实际内容判断；用户可能在聊与系统当前阶段不同的人生阶段
-												refactor: 进一步重构agents目录结构 符合多agent架构

											
										
										
											2026-03-19 10:54:48 +08:00
+. slots 的 key 必须属于 detected_stage 对应的 slot 列表
 . slots 只填写确实提到的、与人生经历相关的实质内容
-												feat: 优化回忆录内容处理和章节分类逻辑

- 更新 get_system_prompt 函数，增强对话内容的核心信息提炼和分类能力，确保只保留与人生经历相关的实质内容。
- 修改 _classify_chapter_category 函数，增加对无实质回忆录价值内容的处理，返回 None 以跳过无效段落。
- 在 Android 客户端中，更新章节阅读视图以移除内嵌章节标题，提升排版一致性。
- 新增 TextUtils 工具函数，专门用于移除 LLM 生成的内嵌章节标题，确保正文内容的流畅性。

											
										
										
											2026-03-02 19:47:32 +01:00
+. **snippet 应是提炼后的核心信息**，去除语气词和冗余表达，50 字以内
-												feat(api): 访谈路径轻量门控、Memoir Phase1 批处理与叙事/记忆管线加固

- 新增 utterance_substance：短时/应答/元话语可跳过记忆检索、阶段 LLM 与资料抽取 LLM；可配置
- 输入归一化：LLM 模式默认仅语音/ASR；配置项写入 .env.example
- Memoir Phase1：可选 batch LLM 一次性抽取+分类（失败回退逐段）；Extraction 空槽位时阶段与 current_stage 对齐，prompt 约束收紧
- 叙事与忠实度：narrative_safety、证据重叠/场合锚点、标题 slots 与履历短语 grounded；fidelity 解析失败 fail-open 可配置
- 章节管线：锁 TTL 上调、锁竞争 Celery 重试、Phase2 immediate singleflight 等；story_pipeline_sync / chapter_compose / memoir_tasks 联动
- Memory：compaction / repo / summarizer / evidence 小修；事实 FTS 未命中是否回退最近事实可配置
- 新增 memoir_pipeline_trace；补充 memoir_reliability 文档与多项回归/门控测试

											
										
										
											2026-04-03 10:12:59 +08:00
+. 如果用户话语中没有任何与人生经历相关的实质内容（如纯粹的寒暄、元话语「整理回忆」、指令、语气词），**slots 必须为空对象**，且 **detected_stage 必须恰好等于系统当前跟踪的阶段**（「不明确」时不得另猜阶段）
 								"""
 								def get_batch_memoir_phase1_prep_prompt(
 								    *,
 								    system_current_stage: str,
 								    slots_snapshot: dict,
 								    segment_items: list[tuple[str, str]],
 								) -> str:
 								    """
 								    Phase1 批处理：多段口述一次 JSON 输出「抽取 + 章节分类」。
 								    segment_items: (segment_id, user_text)，须按时间顺序。
 								    """
 								    lines: list[str] = []
 								    for sid, text in segment_items:
 								        lines.append(f"- id={sid}\n  文本：{text}")
-												feat(api): 统一 LLM JSON 调用层 llm_json_call，按域 Schema 迁移 chat/memoir agents

											
										
										
											2026-04-03 13:34:27 +08:00
+								    slot_lines = "\n".join(
 								        f"- {st}: {', '.join(keys)}" for st, keys in STAGE_SLOT_KEYS.items()
 								    )
-												feat(api): 访谈路径轻量门控、Memoir Phase1 批处理与叙事/记忆管线加固

- 新增 utterance_substance：短时/应答/元话语可跳过记忆检索、阶段 LLM 与资料抽取 LLM；可配置
- 输入归一化：LLM 模式默认仅语音/ASR；配置项写入 .env.example
- Memoir Phase1：可选 batch LLM 一次性抽取+分类（失败回退逐段）；Extraction 空槽位时阶段与 current_stage 对齐，prompt 约束收紧
- 叙事与忠实度：narrative_safety、证据重叠/场合锚点、标题 slots 与履历短语 grounded；fidelity 解析失败 fail-open 可配置
- 章节管线：锁 TTL 上调、锁竞争 Celery 重试、Phase2 immediate singleflight 等；story_pipeline_sync / chapter_compose / memoir_tasks 联动
- Memory：compaction / repo / summarizer / evidence 小修；事实 FTS 未命中是否回退最近事实可配置
- 新增 memoir_pipeline_trace；补充 memoir_reliability 文档与多项回归/门控测试

											
										
										
											2026-04-03 10:12:59 +08:00
+								    return f"""你是回忆录访谈助手。下面有多段用户口述（按时间顺序），请**逐段**完成：
 ）信息抽取（slots、detected_stage）——规则与单段抽取相同；
 ）章节分类（chapter_category）——规则与单段分类相同。
 								系统当前跟踪的人生阶段（chat stage key）：{system_current_stage}
 								当前各阶段已占用的 slots 摘要（仅作语境，勿编造未出现的细节）：
 								{json.dumps(slots_snapshot, ensure_ascii=False, indent=2)}
 								detected_stage 仅允许：childhood | education | career | family | belief
 								slots 的 key 必须属于该 detected_stage 对应集合：
-												feat(api): 统一 LLM JSON 调用层 llm_json_call，按域 Schema 迁移 chat/memoir agents

											
										
										
											2026-04-03 13:34:27 +08:00
+								{slot_lines}
-												feat(api): 访谈路径轻量门控、Memoir Phase1 批处理与叙事/记忆管线加固

- 新增 utterance_substance：短时/应答/元话语可跳过记忆检索、阶段 LLM 与资料抽取 LLM；可配置
- 输入归一化：LLM 模式默认仅语音/ASR；配置项写入 .env.example
- Memoir Phase1：可选 batch LLM 一次性抽取+分类（失败回退逐段）；Extraction 空槽位时阶段与 current_stage 对齐，prompt 约束收紧
- 叙事与忠实度：narrative_safety、证据重叠/场合锚点、标题 slots 与履历短语 grounded；fidelity 解析失败 fail-open 可配置
- 章节管线：锁 TTL 上调、锁竞争 Celery 重试、Phase2 immediate singleflight 等；story_pipeline_sync / chapter_compose / memoir_tasks 联动
- Memory：compaction / repo / summarizer / evidence 小修；事实 FTS 未命中是否回退最近事实可配置
- 新增 memoir_pipeline_trace；补充 memoir_reliability 文档与多项回归/门控测试

											
										
										
											2026-04-03 10:12:59 +08:00
 								chapter_category 仅允许：childhood | education | career_early | career_achievement | career_challenge | family | beliefs | summary | **none**
 								（不足以成篇的档案点/纯寒暄 → **none**；与单段分类一致。）
 								逐段任务（按下列列表顺序，**segments 数组须覆盖每一行 id，且顺序一致**）：
 								{chr(10).join(lines)}
-												feat(api): 统一 LLM JSON 调用层 llm_json_call，按域 Schema 迁移 chat/memoir agents

											
										
										
											2026-04-03 13:34:27 +08:00
+								输出 JSON 对象（无 markdown），格式：
-												feat(api): 访谈路径轻量门控、Memoir Phase1 批处理与叙事/记忆管线加固

- 新增 utterance_substance：短时/应答/元话语可跳过记忆检索、阶段 LLM 与资料抽取 LLM；可配置
- 输入归一化：LLM 模式默认仅语音/ASR；配置项写入 .env.example
- Memoir Phase1：可选 batch LLM 一次性抽取+分类（失败回退逐段）；Extraction 空槽位时阶段与 current_stage 对齐，prompt 约束收紧
- 叙事与忠实度：narrative_safety、证据重叠/场合锚点、标题 slots 与履历短语 grounded；fidelity 解析失败 fail-open 可配置
- 章节管线：锁 TTL 上调、锁竞争 Celery 重试、Phase2 immediate singleflight 等；story_pipeline_sync / chapter_compose / memoir_tasks 联动
- Memory：compaction / repo / summarizer / evidence 小修；事实 FTS 未命中是否回退最近事实可配置
- 新增 memoir_pipeline_trace；补充 memoir_reliability 文档与多项回归/门控测试

											
										
										
											2026-04-03 10:12:59 +08:00
+								{{
 								  "segments": [
 								    {{
 								      "id": "<与输入相同的 segment id>",
 								      "detected_stage": "childhood|education|career|family|belief",
 								      "slots": {{ "slot_key": "snippet 50 字以内" }},
 								      "chapter_category": "childhood|education|career_early|career_achievement|career_challenge|family|beliefs|summary|none"
 								    }}
 								  ]
 								}}
 								与单段抽取一致：**仅当 slots 非空时** detected_stage 才按内容推断；若本段无人生经历实质、slots 为空，则 detected_stage 必须等于系统当前跟踪阶段 {system_current_stage}。
-												agent init

											
										
										
											2026-01-21 22:31:03 +01:00
+								"""
-												Merge branch 'feat/improve-agent-prompt'

											
										
										
											2026-03-01 10:12:23 +01:00
+								def _build_age_hint(stage: str, birth_year: Optional[int] = None) -> str:
-												feat(api): 统一 LLM JSON 调用层 llm_json_call，按域 Schema 迁移 chat/memoir agents

											
										
										
											2026-04-03 13:34:27 +08:00
+								    """根据人生阶段和出生年份推算大致年龄区间（`STAGE_ERA_HINTS`，仅作提示）。"""
-												Merge branch 'feat/improve-agent-prompt'

											
										
										
											2026-03-01 10:12:23 +01:00
+								    if not birth_year:
 								        return ""
-												feat(api): 统一 LLM JSON 调用层 llm_json_call，按域 Schema 迁移 chat/memoir agents

											
										
										
											2026-04-03 13:34:27 +08:00
+								    age_range = STAGE_ERA_HINTS.get(stage)
-												Merge branch 'feat/improve-agent-prompt'

											
										
										
											2026-03-01 10:12:23 +01:00
+								    if not age_range:
 								        return ""
 								    year_start = birth_year + age_range[0]
 								    year_end = birth_year + age_range[1]
 								    return f"大约 {year_start}-{year_end} 年（{age_range[0]}-{age_range[1]} 岁）"
 								def get_creative_title_prompt(
 								    stage: str,
 								    emotion: str,
 								    slots: dict,
 								    user_profile: str = "",
 								    birth_year: Optional[int] = None,
 								) -> str:
-												修复环境变量，UI问题

											
										
										
											2026-03-23 13:54:41 +08:00
+								    """生成故事标题：概括口述事实或主题，禁止纯意象编造。"""
-												Merge branch 'feat/improve-agent-prompt'

											
										
										
											2026-03-01 10:12:23 +01:00
+								    age_hint = _build_age_hint(stage, birth_year)
 								    profile_section = f"\n用户基本信息：\n{user_profile}" if user_profile else ""
 								    time_section = f"\n时间参考：{age_hint}" if age_hint else ""
-												feat(api): 访谈人格/回复长度策略、口述归一、背景语气与输入净稿全链路

Chat 访谈
- 新增 persona 系统（default / warm_listener / curious_guide）与 background_voice 语气层
- 回复长度由 compute_reply_plan 统一决策（brief / standard / expanded），融合信息密度启发式
- 输入净稿（input_normalize）：编排层可选 rules/llm 归一用户口语后再喂模型与记忆检索
- 记忆证据注入：按用户话检索 memory evidence 并注入 prompt

Memoir 回忆录
- 口述归一（oral_normalize）：segment 原文保留，story 管线取派生净稿作叙事输入
- segment 入队批次门闸：累计字数 + 最长等待秒数，减少零碎提交
- fidelity_check / prompts / narrative_agent 微调
- Alembic 0005：清理跨章节 story 外键

Infra
- Dockerfile 加入 ffmpeg
- pyproject.toml 新增依赖并同步 uv.lock
- .env.example / .env.production 补全新配置项

Tests
- 新增 test_background_voice、test_chat_input_normalize、test_experience_regressions
- 扩展 test_interview_prompts、test_interview_reply_length、test_story_route_oral_invariant

Made-with: Cursor

											
										
										
											2026-03-31 23:55:26 +08:00
+								    return f"""{get_memoir_fidelity_facts_only_prompt()}
-												修复环境变量，UI问题

											
										
										
											2026-03-23 13:54:41 +08:00
 								请根据下面「阶段、情绪、可用信息」生成 **1 个**回忆录故事标题。
-												agent init

											
										
										
											2026-01-21 22:31:03 +01:00
-												refactor: 进一步重构agents目录结构 符合多agent架构

											
										
										
											2026-03-19 10:54:48 +08:00
+								阶段：{stage}
-												agent init

											
										
										
											2026-01-21 22:31:03 +01:00
+								情绪：{emotion}
-												修复环境变量，UI问题

											
										
										
											2026-03-23 13:54:41 +08:00
+								可用信息（含口述 slots 与档案）：{slots}{profile_section}{time_section}
-												agent init

											
										
										
											2026-01-21 22:31:03 +01:00
 								要求：
-												修复环境变量，UI问题

											
										
										
											2026-03-23 13:54:41 +08:00
+. 格式：「时间标注 · 标题正文」（时间标注可用年龄、年代或阶段，须与上列信息一致；勿编造未出现的年份）。
-												feat(api): 访谈人格/回复长度策略、口述归一、背景语气与输入净稿全链路

Chat 访谈
- 新增 persona 系统（default / warm_listener / curious_guide）与 background_voice 语气层
- 回复长度由 compute_reply_plan 统一决策（brief / standard / expanded），融合信息密度启发式
- 输入净稿（input_normalize）：编排层可选 rules/llm 归一用户口语后再喂模型与记忆检索
- 记忆证据注入：按用户话检索 memory evidence 并注入 prompt

Memoir 回忆录
- 口述归一（oral_normalize）：segment 原文保留，story 管线取派生净稿作叙事输入
- segment 入队批次门闸：累计字数 + 最长等待秒数，减少零碎提交
- fidelity_check / prompts / narrative_agent 微调
- Alembic 0005：清理跨章节 story 外键

Infra
- Dockerfile 加入 ffmpeg
- pyproject.toml 新增依赖并同步 uv.lock
- .env.example / .env.production 补全新配置项

Tests
- 新增 test_background_voice、test_chat_input_normalize、test_experience_regressions
- 扩展 test_interview_prompts、test_interview_reply_length、test_story_route_oral_invariant

Made-with: Cursor

											
										
										
											2026-03-31 23:55:26 +08:00
+. 标题正文 **12–18 字**，须概括用户口述或 slots 中已出现的主题/事实；可以用书面化的概括与凝练表达，但**禁止虚构**口述中不存在的人、事、地、物。
-												feat(api): 访谈路径轻量门控、Memoir Phase1 批处理与叙事/记忆管线加固

- 新增 utterance_substance：短时/应答/元话语可跳过记忆检索、阶段 LLM 与资料抽取 LLM；可配置
- 输入归一化：LLM 模式默认仅语音/ASR；配置项写入 .env.example
- Memoir Phase1：可选 batch LLM 一次性抽取+分类（失败回退逐段）；Extraction 空槽位时阶段与 current_stage 对齐，prompt 约束收紧
- 叙事与忠实度：narrative_safety、证据重叠/场合锚点、标题 slots 与履历短语 grounded；fidelity 解析失败 fail-open 可配置
- 章节管线：锁 TTL 上调、锁竞争 Celery 重试、Phase2 immediate singleflight 等；story_pipeline_sync / chapter_compose / memoir_tasks 联动
- Memory：compaction / repo / summarizer / evidence 小修；事实 FTS 未命中是否回退最近事实可配置
- 新增 memoir_pipeline_trace；补充 memoir_reliability 文档与多项回归/门控测试

											
										
										
											2026-04-03 10:12:59 +08:00
+. **标题中的具体事实**（职务升迁链、部队番号驻地、战役名、生死去向等）必须能在正文摘录或其它已给出的 slots 中找到**逐字**依据；不得仅凭阶段名或年龄提示臆补未出现的履历词。
 . 语言凝练、有回忆录感，不需要平白直叙也不需要堆砌辞藻。
-												修复环境变量，UI问题

											
										
										
											2026-03-23 13:54:41 +08:00
 								只输出标题这一行文字，不要加引号或书名号。
-												agent init

											
										
										
											2026-01-21 22:31:03 +01:00
+								"""
-												feat(api+app): 对话阶段化、回忆录流水线与客户端会话体验
- DB: segments 用户输入文本（Alembic 0002）
- Chat: 阶段检测/阶段提示/回复限制，编排与访谈/画像 prompts 调整
- Memoir: 忠实度检查 agent，叙事与分类等链路更新
- Core: agent 日志、Alembic 启动、LangChain/日志/配置等
- Story: time_hints；Memory 检索与相关测试
- Expo: 助手头像、会话页与消息拆分、实时会话与文案/i18n
- Docs/scripts/tests: 迁移脚本、LLM JSON/记忆检索文档、新增单测

											
										
										
											2026-03-26 12:13:36 +08:00
+								def get_creative_title_json_prompt(
 								    stage: str,
 								    emotion: str,
 								    slots: dict,
 								    user_profile: str = "",
 								    birth_year: Optional[int] = None,
 								) -> str:
 								    """生成故事标题（JSON：`{"title":"..."}`），与 invoke_json_object 配合。"""
 								    base = get_creative_title_prompt(
 								        stage=stage,
 								        emotion=emotion,
 								        slots=slots,
 								        user_profile=user_profile,
 								        birth_year=birth_year,
 								    )
 								    return (
 								        base.rstrip()
-												feat(api): 统一 LLM JSON 调用层 llm_json_call，按域 Schema 迁移 chat/memoir agents

											
										
										
											2026-04-03 13:34:27 +08:00
+								        + "\n\n输出示例（仅此 JSON 对象）："
-												feat(api+app): 对话阶段化、回忆录流水线与客户端会话体验
- DB: segments 用户输入文本（Alembic 0002）
- Chat: 阶段检测/阶段提示/回复限制，编排与访谈/画像 prompts 调整
- Memoir: 忠实度检查 agent，叙事与分类等链路更新
- Core: agent 日志、Alembic 启动、LangChain/日志/配置等
- Story: time_hints；Memory 检索与相关测试
- Expo: 助手头像、会话页与消息拆分、实时会话与文案/i18n
- Docs/scripts/tests: 迁移脚本、LLM JSON/记忆检索文档、新增单测

											
										
										
											2026-03-26 12:13:36 +08:00
+								        + '\n{"title":"完整标题一行（含时间标注 · 正文格式）"}\n'
 								    )
-												fix: 去除LLM直接生成图片占位符逻辑

											
										
										
											2026-03-19 11:18:58 +08:00
+								def get_narrative_json_prompt(
 								    stage: str,
 								    slots: dict,
 								    new_content: str,
 								    existing_content: str = "",
 								    user_profile: str = "",
 								    birth_year: Optional[int] = None,
-												feat(api): 访谈人格/回复长度策略、口述归一、背景语气与输入净稿全链路

Chat 访谈
- 新增 persona 系统（default / warm_listener / curious_guide）与 background_voice 语气层
- 回复长度由 compute_reply_plan 统一决策（brief / standard / expanded），融合信息密度启发式
- 输入净稿（input_normalize）：编排层可选 rules/llm 归一用户口语后再喂模型与记忆检索
- 记忆证据注入：按用户话检索 memory evidence 并注入 prompt

Memoir 回忆录
- 口述归一（oral_normalize）：segment 原文保留，story 管线取派生净稿作叙事输入
- segment 入队批次门闸：累计字数 + 最长等待秒数，减少零碎提交
- fidelity_check / prompts / narrative_agent 微调
- Alembic 0005：清理跨章节 story 外键

Infra
- Dockerfile 加入 ffmpeg
- pyproject.toml 新增依赖并同步 uv.lock
- .env.example / .env.production 补全新配置项

Tests
- 新增 test_background_voice、test_chat_input_normalize、test_experience_regressions
- 扩展 test_interview_prompts、test_interview_reply_length、test_story_route_oral_invariant

Made-with: Cursor

											
										
										
											2026-03-31 23:55:26 +08:00
+								    background_voice: str = "default",
-												feat(api): 叙事 prompt、职业上下文、读路径章节、WS 解耦与错误脱敏

- 回忆录：事实边界补充允许清单；传记文体示例与 JSON 叙事要求对齐
- default 职业提示 occupation_context；cadre/military 退休语境
- GET 章节读路径零写入，prepare_chapter_read_view + markdown_for_response
- 文本归一抽到 core/text_normalize；移除弃用 reply 策略与 recompose_chapters_for_story
- ConversationService：WS 连接/用户段落/结束对话；对外错误固定文案
- 测试：HTTP 脱敏契约、章节读视图、occupation 与 background_voice

											
										
										
											2026-04-01 11:49:33 +08:00
+								    occupation: str = "",
-												fix: 去除LLM直接生成图片占位符逻辑

											
										
										
											2026-03-19 11:18:58 +08:00
+								) -> str:
 								    """将新对话改写为叙述，输出 JSON 格式（paragraphs: [{content, image_description}]）"""
 								    context_tail = ""
 								    if existing_content:
-												chore/ 删除无用文件

											
										
										
											2026-03-19 14:36:14 +08:00
+								        context_tail = (
 								            existing_content[-300:] if len(existing_content) > 300 else existing_content
 								        )
 								    context_section = (
 								        f"\n\n【衔接上下文（已有内容的末尾，仅供参考衔接，不要重复）】：\n{context_tail}"
 								        if context_tail
 								        else ""
 								    )
-												fix: 去除LLM直接生成图片占位符逻辑

											
										
										
											2026-03-19 11:18:58 +08:00
+								    profile_section = f"\n\n用户基本信息：\n{user_profile}" if user_profile else ""
 								    age_hint = _build_age_hint(stage, birth_year)
 								    time_section = f"\n时间参考：{age_hint}" if age_hint else ""
-												feat(api): 叙事 prompt、职业上下文、读路径章节、WS 解耦与错误脱敏

- 回忆录：事实边界补充允许清单；传记文体示例与 JSON 叙事要求对齐
- default 职业提示 occupation_context；cadre/military 退休语境
- GET 章节读路径零写入，prepare_chapter_read_view + markdown_for_response
- 文本归一抽到 core/text_normalize；移除弃用 reply 策略与 recompose_chapters_for_story
- ConversationService：WS 连接/用户段落/结束对话；对外错误固定文案
- 测试：HTTP 脱敏契约、章节读视图、occupation 与 background_voice

											
										
										
											2026-04-01 11:49:33 +08:00
+								    return f"""{get_narrative_editor_system_prompt(background_voice=background_voice, occupation=occupation)}
-												fix: 去除LLM直接生成图片占位符逻辑

											
										
										
											2026-03-19 11:18:58 +08:00
-												feat(api): 统一 LLM JSON 调用层 llm_json_call，按域 Schema 迁移 chat/memoir agents

											
										
										
											2026-04-03 13:34:27 +08:00
+								请将「本段用户口述」改写为第一人称书面叙述，并输出 **纯 JSON**（无 markdown 围栏）。
-												fix: 去除LLM直接生成图片占位符逻辑

											
										
										
											2026-03-19 11:18:58 +08:00
 								阶段：{stage}
-												修复环境变量，UI问题

											
										
										
											2026-03-23 13:54:41 +08:00
+								可用信息（slots）：{slots}{profile_section}{time_section}
-												fix: 去除LLM直接生成图片占位符逻辑

											
										
										
											2026-03-19 11:18:58 +08:00
-												修复环境变量，UI问题

											
										
										
											2026-03-23 13:54:41 +08:00
+								输入材料：
-												fix: 去除LLM直接生成图片占位符逻辑

											
										
										
											2026-03-19 11:18:58 +08:00
+								{new_content}
 								{context_section}
 								## 要求
-												refactor(agents): 抽取阶段常量与对话上下文；快档 LLM；图片 prompt 可禁止回退

访谈与阶段
- 新增 app/agents/stage_constants.py：集中 CHAT_STAGES、章节分类/顺序、阶段到默认 memoir 类别等，与 MemoirState 默认槽位顺序对齐；减少散落在 prompts 内的重复常量。
- 新增 app/agents/chat/prompt_context.py：以 ChatPromptContext 汇总 guided 系统提示所需字段（阶段、槽位、轮次、人设、记忆证据、回复长度模式、背景声线、职业等），统一走 get_guided_conversation_prompt。
- 大幅收敛 app/agents/chat/prompts_conversation.py；调整 prompts.py、stage_prompts.py、stage_detection.py；同步 interview_agent、profile_agent、helpers 与 state_schema，使对话侧构造提示的方式一致、可测。

回忆录流水线
- memoir/prompts.py 删除已迁至 stage_constants / 独立模板的大段常量与图片占位相关逻辑；classification / extraction / fidelity / narrative agents 与 orchest（全量历史仍可用于计数，注入模型时按轮次与字符上限截断）、image_prompt_fallback_disabled。
- dependencies 增加 get_llm_provider_fast（LRU 缓存，可与默认共用密钥与 base_url）。

任务与编排
- memoir_tasks：prepare_batches 注入 llm_fast；开启独立快档模型时打结构化日志。
- chapter_cover_tasks、story_image_tasks：与图片 prompt / JSON 工具路径或策略变更对齐（import 与行为一致）。
- story_pipeline_sync 等小处同步。

其它核心
- langchain_llm、text_normalize 随上述调用链微调。

开发者体验
- .cursor/settings.json：启用 redis-development、postman 插件。

测试
- 新增 test_image_prompt_policy：覆盖「禁止回退」等图片 prompt 策略。
- 更新 test_interview_prompts、test_interview_reply_length、test_experience_regressions、test_json_and_memory_utils，匹配新常量位置、json_utils 与对话/长度行为。

											
										
										
											2026-04-02 12:00:00 +08:00
+. **格式与输出**：只输出 JSON；第一人称；不使用 `#`、`##`、表格；`content` 仅含正文。
-												feat(api): 统一 LLM JSON 调用层 llm_json_call，按域 Schema 迁移 chat/memoir agents

											
										
										
											2026-04-03 13:34:27 +08:00
+. **事实与取材**：遵守事实边界，不补写未给出的细节。只展开「本段用户口述」；若有参考摘录区，不得把摘录中的具体事实写成本轮亲历；过滤语气词与寒暄；不重复已有故事全文；本批同一主题/事件链；段落数量与长度随材料，禁止为凑字数编造。
-												refactor(agents): 抽取阶段常量与对话上下文；快档 LLM；图片 prompt 可禁止回退

访谈与阶段
- 新增 app/agents/stage_constants.py：集中 CHAT_STAGES、章节分类/顺序、阶段到默认 memoir 类别等，与 MemoirState 默认槽位顺序对齐；减少散落在 prompts 内的重复常量。
- 新增 app/agents/chat/prompt_context.py：以 ChatPromptContext 汇总 guided 系统提示所需字段（阶段、槽位、轮次、人设、记忆证据、回复长度模式、背景声线、职业等），统一走 get_guided_conversation_prompt。
- 大幅收敛 app/agents/chat/prompts_conversation.py；调整 prompts.py、stage_prompts.py、stage_detection.py；同步 interview_agent、profile_agent、helpers 与 state_schema，使对话侧构造提示的方式一致、可测。

回忆录流水线
- memoir/prompts.py 删除已迁至 stage_constants / 独立模板的大段常量与图片占位相关逻辑；classification / extraction / fidelity / narrative agents 与 orchest（全量历史仍可用于计数，注入模型时按轮次与字符上限截断）、image_prompt_fallback_disabled。
- dependencies 增加 get_llm_provider_fast（LRU 缓存，可与默认共用密钥与 base_url）。

任务与编排
- memoir_tasks：prepare_batches 注入 llm_fast；开启独立快档模型时打结构化日志。
- chapter_cover_tasks、story_image_tasks：与图片 prompt / JSON 工具路径或策略变更对齐（import 与行为一致）。
- story_pipeline_sync 等小处同步。

其它核心
- langchain_llm、text_normalize 随上述调用链微调。

开发者体验
- .cursor/settings.json：启用 redis-development、postman 插件。

测试
- 新增 test_image_prompt_policy：覆盖「禁止回退」等图片 prompt 策略。
- 更新 test_interview_prompts、test_interview_reply_length、test_experience_regressions、test_json_and_memory_utils，匹配新常量位置、json_utils 与对话/长度行为。

											
										
										
											2026-04-02 12:00:00 +08:00
+. **不推断结局**：用户未明确说结果（是否录取、是否被选中等）时，不要凭常识补全为确定结论。
-												fix: 去除LLM直接生成图片占位符逻辑

											
										
										
											2026-03-19 11:18:58 +08:00
 								## 输出格式（严格 JSON）
 								{{
 								  "paragraphs": [
-												重构回忆录为 story-first / markdown-first 架构并整合图片意图与前端 UI 修复

本次 squash merge 将 codex-story-first-image-intent 的整体改动合入 development，核心内容包括：

1. 后端数据与迁移：新增 stories、story_versions、story_image_intents、chapter_cover_intents、assets 等模型与 Alembic 迁移，建立 story-first、markdown-first、asset-first 的主数据链路。

2. 生成与任务链：引入 StoryBuilderOrchestrator、ChapterComposerOrchestrator、story_image_tasks、chapter_cover_tasks，图片生成从正文占位符改为结构化 intent -> asset -> markdown 回填。

3. 并发与一致性：为 story/chapter intent 增加 claim_token、claimed_at、attempt_count，采用数据库原子 claim 为主、Redis 锁为辅，避免重复生成、锁误删和 processing 卡死。

4. Memoir 读写路径：章节 canonical_markdown 成为正文真源，列表/详情接口补齐 markdown、cover_asset、word_count 等字段，PDF 与 asset 解析链路同步升级。

5. Memory / Retrieval：扩展 transcript ingest、chunking、evidence 检索与 story 聚合基础设施，为后续 story-first RAG 与多 agent 编排提供底座。

6. App 端体验：章节页继续走 MarkdownRenderer 阅读链，同时吸收 fix3-19 的跨平台 UI glitch 修复；更新对话页、首页、文案资源与章节列表映射逻辑。

7. 测试与文档：补充 asset resolver、story image task、章节封面派发、markdown 映射等回归测试，并加入图片占位符退役设计文档。

											
										
										
											2026-03-20 10:30:07 +08:00
+								    {{"content": "段落正文"}},
-												fix: 去除LLM直接生成图片占位符逻辑

											
										
										
											2026-03-19 11:18:58 +08:00
+								    ...
 								  ]
 								}}
-												修复环境变量，UI问题

											
										
										
											2026-03-23 13:54:41 +08:00
+								- content：仅含正文。
-												fix: 去除LLM直接生成图片占位符逻辑

											
										
										
											2026-03-19 11:18:58 +08:00
-												修复环境变量，UI问题

											
										
										
											2026-03-23 13:54:41 +08:00
+								若无值得记录的内容：{{"paragraphs": []}}
-												fix: 去除LLM直接生成图片占位符逻辑

											
										
										
											2026-03-19 11:18:58 +08:00
+								"""
-												fix/various fixes

											
										
										
											2026-03-20 15:15:35 +08:00
-												feat(api+app): 对话阶段化、回忆录流水线与客户端会话体验
- DB: segments 用户输入文本（Alembic 0002）
- Chat: 阶段检测/阶段提示/回复限制，编排与访谈/画像 prompts 调整
- Memoir: 忠实度检查 agent，叙事与分类等链路更新
- Core: agent 日志、Alembic 启动、LangChain/日志/配置等
- Story: time_hints；Memory 检索与相关测试
- Expo: 助手头像、会话页与消息拆分、实时会话与文案/i18n
- Docs/scripts/tests: 迁移脚本、LLM JSON/记忆检索文档、新增单测

											
										
										
											2026-03-26 12:13:36 +08:00
+								# 整篇合并时避免超长上下文：保留首尾，中间省略（字符级）
 								NARRATIVE_MERGE_EXISTING_MAX_CHARS = 14000
 								NARRATIVE_MERGE_HEAD_CHARS = 7000
 								NARRATIVE_MERGE_TAIL_CHARS = 7000
 								def clip_existing_story_body_for_merge(existing_markdown: str) -> str:
 								    """供 append 合并提示使用：极长正文截断为 头+尾，避免 token 爆炸。"""
 								    s = (existing_markdown or "").strip()
 								    if not s:
 								        return ""
 								    if len(s) <= NARRATIVE_MERGE_EXISTING_MAX_CHARS:
 								        return s
 								    head = s[:NARRATIVE_MERGE_HEAD_CHARS]
 								    tail = s[-NARRATIVE_MERGE_TAIL_CHARS:]
 								    return (
 								        f"{head}\n\n【…中间省略…】\n\n"
 								        f"{tail}\n\n（上文为已有故事正文节选，合并时须保留其中全部事实，不得因省略而删事实。）"
 								    )
 								def get_narrative_merge_json_prompt(
 								    stage: str,
 								    slots: dict,
 								    new_content: str,
 								    existing_content: str,
 								    user_profile: str = "",
 								    birth_year: Optional[int] = None,
-												feat(api): 访谈人格/回复长度策略、口述归一、背景语气与输入净稿全链路

Chat 访谈
- 新增 persona 系统（default / warm_listener / curious_guide）与 background_voice 语气层
- 回复长度由 compute_reply_plan 统一决策（brief / standard / expanded），融合信息密度启发式
- 输入净稿（input_normalize）：编排层可选 rules/llm 归一用户口语后再喂模型与记忆检索
- 记忆证据注入：按用户话检索 memory evidence 并注入 prompt

Memoir 回忆录
- 口述归一（oral_normalize）：segment 原文保留，story 管线取派生净稿作叙事输入
- segment 入队批次门闸：累计字数 + 最长等待秒数，减少零碎提交
- fidelity_check / prompts / narrative_agent 微调
- Alembic 0005：清理跨章节 story 外键

Infra
- Dockerfile 加入 ffmpeg
- pyproject.toml 新增依赖并同步 uv.lock
- .env.example / .env.production 补全新配置项

Tests
- 新增 test_background_voice、test_chat_input_normalize、test_experience_regressions
- 扩展 test_interview_prompts、test_interview_reply_length、test_story_route_oral_invariant

Made-with: Cursor

											
										
										
											2026-03-31 23:55:26 +08:00
+								    background_voice: str = "default",
-												feat(api): 叙事 prompt、职业上下文、读路径章节、WS 解耦与错误脱敏

- 回忆录：事实边界补充允许清单；传记文体示例与 JSON 叙事要求对齐
- default 职业提示 occupation_context；cadre/military 退休语境
- GET 章节读路径零写入，prepare_chapter_read_view + markdown_for_response
- 文本归一抽到 core/text_normalize；移除弃用 reply 策略与 recompose_chapters_for_story
- ConversationService：WS 连接/用户段落/结束对话；对外错误固定文案
- 测试：HTTP 脱敏契约、章节读视图、occupation 与 background_voice

											
										
										
											2026-04-01 11:49:33 +08:00
+								    occupation: str = "",
-												feat(api+app): 对话阶段化、回忆录流水线与客户端会话体验
- DB: segments 用户输入文本（Alembic 0002）
- Chat: 阶段检测/阶段提示/回复限制，编排与访谈/画像 prompts 调整
- Memoir: 忠实度检查 agent，叙事与分类等链路更新
- Core: agent 日志、Alembic 启动、LangChain/日志/配置等
- Story: time_hints；Memory 检索与相关测试
- Expo: 助手头像、会话页与消息拆分、实时会话与文案/i18n
- Docs/scripts/tests: 迁移脚本、LLM JSON/记忆检索文档、新增单测

											
										
										
											2026-03-26 12:13:36 +08:00
+								) -> str:
 								    """
 								    已有故事追加：将「已有全文（或节选）」与「本段口述」合并为**一篇**第一人称叙述，
 								    按事件发生顺序组织段落，输出覆盖全篇的 JSON paragraphs。
 								    """
 								    clipped = clip_existing_story_body_for_merge(existing_content)
 								    existing_section = (
 								        f"\n\n【已有故事正文（须全部保留事实，仅调整顺序与衔接；不得编造）】：\n{clipped}"
 								        if clipped
 								        else ""
 								    )
 								    profile_section = f"\n\n用户基本信息：\n{user_profile}" if user_profile else ""
 								    age_hint = _build_age_hint(stage, birth_year)
 								    time_section = f"\n时间参考：{age_hint}" if age_hint else ""
-												feat(api): 叙事 prompt、职业上下文、读路径章节、WS 解耦与错误脱敏

- 回忆录：事实边界补充允许清单；传记文体示例与 JSON 叙事要求对齐
- default 职业提示 occupation_context；cadre/military 退休语境
- GET 章节读路径零写入，prepare_chapter_read_view + markdown_for_response
- 文本归一抽到 core/text_normalize；移除弃用 reply 策略与 recompose_chapters_for_story
- ConversationService：WS 连接/用户段落/结束对话；对外错误固定文案
- 测试：HTTP 脱敏契约、章节读视图、occupation 与 background_voice

											
										
										
											2026-04-01 11:49:33 +08:00
+								    return f"""{get_narrative_editor_system_prompt(background_voice=background_voice, occupation=occupation)}
-												feat(api+app): 对话阶段化、回忆录流水线与客户端会话体验
- DB: segments 用户输入文本（Alembic 0002）
- Chat: 阶段检测/阶段提示/回复限制，编排与访谈/画像 prompts 调整
- Memoir: 忠实度检查 agent，叙事与分类等链路更新
- Core: agent 日志、Alembic 启动、LangChain/日志/配置等
- Story: time_hints；Memory 检索与相关测试
- Expo: 助手头像、会话页与消息拆分、实时会话与文案/i18n
- Docs/scripts/tests: 迁移脚本、LLM JSON/记忆检索文档、新增单测

											
										
										
											2026-03-26 12:13:36 +08:00
 								你正在**扩写并重组**一则已有回忆录故事：必须把「已有故事」中的事实全部保留在输出中（可合并重复表述、调整语序），并融入「本段用户口述」中的新事实；按**事件发生的时间顺序**排列段落（早→晚）；禁止丢弃未矛盾的旧内容。
 								阶段：{stage}
 								可用信息（slots）：{slots}{profile_section}{time_section}
 								【本段用户口述与参考（含证据摘录时遵守系统事实边界）】：
 								{new_content}
 								{existing_section}
 								## 要求
-												refactor(agents): 抽取阶段常量与对话上下文；快档 LLM；图片 prompt 可禁止回退

访谈与阶段
- 新增 app/agents/stage_constants.py：集中 CHAT_STAGES、章节分类/顺序、阶段到默认 memoir 类别等，与 MemoirState 默认槽位顺序对齐；减少散落在 prompts 内的重复常量。
- 新增 app/agents/chat/prompt_context.py：以 ChatPromptContext 汇总 guided 系统提示所需字段（阶段、槽位、轮次、人设、记忆证据、回复长度模式、背景声线、职业等），统一走 get_guided_conversation_prompt。
- 大幅收敛 app/agents/chat/prompts_conversation.py；调整 prompts.py、stage_prompts.py、stage_detection.py；同步 interview_agent、profile_agent、helpers 与 state_schema，使对话侧构造提示的方式一致、可测。

回忆录流水线
- memoir/prompts.py 删除已迁至 stage_constants / 独立模板的大段常量与图片占位相关逻辑；classification / extraction / fidelity / narrative agents 与 orchest（全量历史仍可用于计数，注入模型时按轮次与字符上限截断）、image_prompt_fallback_disabled。
- dependencies 增加 get_llm_provider_fast（LRU 缓存，可与默认共用密钥与 base_url）。

任务与编排
- memoir_tasks：prepare_batches 注入 llm_fast；开启独立快档模型时打结构化日志。
- chapter_cover_tasks、story_image_tasks：与图片 prompt / JSON 工具路径或策略变更对齐（import 与行为一致）。
- story_pipeline_sync 等小处同步。

其它核心
- langchain_llm、text_normalize 随上述调用链微调。

开发者体验
- .cursor/settings.json：启用 redis-development、postman 插件。

测试
- 新增 test_image_prompt_policy：覆盖「禁止回退」等图片 prompt 策略。
- 更新 test_interview_prompts、test_interview_reply_length、test_experience_regressions、test_json_and_memory_utils，匹配新常量位置、json_utils 与对话/长度行为。

											
										
										
											2026-04-02 12:00:00 +08:00
+. **全文输出**：`paragraphs` 须为重组后的**完整故事正文**（非仅本段）。
-												feat(api): 统一 LLM JSON 调用层 llm_json_call，按域 Schema 迁移 chat/memoir agents

											
										
										
											2026-04-03 13:34:27 +08:00
+. **事实边界**：遵守事实边界，不补写未给出的细节。不得新增「已有」或「本段」未出现的人名、地点、时间、对话、数字；第一人称、优雅书面语须符合上文传记作家文体说明；不用 `#`、`##`、表格。
-												refactor(agents): 抽取阶段常量与对话上下文；快档 LLM；图片 prompt 可禁止回退

访谈与阶段
- 新增 app/agents/stage_constants.py：集中 CHAT_STAGES、章节分类/顺序、阶段到默认 memoir 类别等，与 MemoirState 默认槽位顺序对齐；减少散落在 prompts 内的重复常量。
- 新增 app/agents/chat/prompt_context.py：以 ChatPromptContext 汇总 guided 系统提示所需字段（阶段、槽位、轮次、人设、记忆证据、回复长度模式、背景声线、职业等），统一走 get_guided_conversation_prompt。
- 大幅收敛 app/agents/chat/prompts_conversation.py；调整 prompts.py、stage_prompts.py、stage_detection.py；同步 interview_agent、profile_agent、helpers 与 state_schema，使对话侧构造提示的方式一致、可测。

回忆录流水线
- memoir/prompts.py 删除已迁至 stage_constants / 独立模板的大段常量与图片占位相关逻辑；classification / extraction / fidelity / narrative agents 与 orchest（全量历史仍可用于计数，注入模型时按轮次与字符上限截断）、image_prompt_fallback_disabled。
- dependencies 增加 get_llm_provider_fast（LRU 缓存，可与默认共用密钥与 base_url）。

任务与编排
- memoir_tasks：prepare_batches 注入 llm_fast；开启独立快档模型时打结构化日志。
- chapter_cover_tasks、story_image_tasks：与图片 prompt / JSON 工具路径或策略变更对齐（import 与行为一致）。
- story_pipeline_sync 等小处同步。

其它核心
- langchain_llm、text_normalize 随上述调用链微调。

开发者体验
- .cursor/settings.json：启用 redis-development、postman 插件。

测试
- 新增 test_image_prompt_policy：覆盖「禁止回退」等图片 prompt 策略。
- 更新 test_interview_prompts、test_interview_reply_length、test_experience_regressions、test_json_and_memory_utils，匹配新常量位置、json_utils 与对话/长度行为。

											
										
										
											2026-04-02 12:00:00 +08:00
+. 若本段与旧文完全重复或无新信息，可输出与旧文等价重组的正文（不得无故缩短到明显少于旧文）。
 . **不推断结局**：本段未明确结果时，不要补全落选/未通过等确定说法，除非旧文中已有同一事实。
-												feat(api+app): 对话阶段化、回忆录流水线与客户端会话体验
- DB: segments 用户输入文本（Alembic 0002）
- Chat: 阶段检测/阶段提示/回复限制，编排与访谈/画像 prompts 调整
- Memoir: 忠实度检查 agent，叙事与分类等链路更新
- Core: agent 日志、Alembic 启动、LangChain/日志/配置等
- Story: time_hints；Memory 检索与相关测试
- Expo: 助手头像、会话页与消息拆分、实时会话与文案/i18n
- Docs/scripts/tests: 迁移脚本、LLM JSON/记忆检索文档、新增单测

											
										
										
											2026-03-26 12:13:36 +08:00
 								## 输出格式（严格 JSON）
 								{{
 								  "paragraphs": [
 								    {{"content": "段落正文"}},
 								    ...
 								  ]
 								}}
 								若无任何可保留内容：{{"paragraphs": []}}
 								"""
-												fix(memoir): 改善 story 合并决策，少生碎片篇

以前模型只看到很短预览，还容易被引导成新建 story。现在优先用已有摘要、
按需带正文片段，并区分「像续写同一主题」和「像换了一件事」；
beliefs/summary 更鼓励接着写， career/童年等仍可按新事件新开。

											
										
										
											2026-04-03 11:02:05 +08:00
+								def story_route_merge_hint_for_category(chapter_category: str) -> str:
 								    """按章节类目的 append/new 倾向（与 StoryRouteAgent 路由提示共用）。"""
 								    cc = (chapter_category or "").strip()
 								    if cc in ("beliefs", "summary"):
 								        return (
 								            "### 本章类别路由倾向（强主题容器）\n"
 								            "- 多条短感悟、同一价值维度、同一总结脉络的补充 → **优先 append_story**，"
 								            "选最匹配的一条候选 id。\n"
 								            "- 仅在用户明确讲述**与所有候选主题明显不相关**、且可独立成篇的长经历时，才用 new_story。"
 								        )
 								    if cc == "family":
 								        return (
 								            "### 本章类别路由倾向（家庭）\n"
-												feat(evaluation): memoir readiness, judge/replay updates, eval web playground

Add memoir_readiness_service and router tests; extend judge schemas/services, replay_service, and conversation rubric; align story route agent, payload, prompts, and story_pipeline_sync; update agent logging, config, and DI. Document internal-eval; add replayDraft util and PlaygroundPage changes in app-eval-web.

											
										
										
											2026-04-08 09:38:07 +08:00
+								            "- **默认 append_story**：同一家庭成员、同一居住环境、婚姻育儿、节日团聚、童年与父母的回忆等，"
 								            "只要仍围绕已出现的人物或关系网络补充细节，一律并入最匹配的候选，不要因为换了个场景就 new_story。\n"
 								            "- 仅当口述出现**完全新的人物组合 + 可独立成篇的新事件链**（与所有候选正文都接不上）时，才 new_story。"
-												fix(memoir): 改善 story 合并决策，少生碎片篇

以前模型只看到很短预览，还容易被引导成新建 story。现在优先用已有摘要、
按需带正文片段，并区分「像续写同一主题」和「像换了一件事」；
beliefs/summary 更鼓励接着写， career/童年等仍可按新事件新开。

											
										
										
											2026-04-03 11:02:05 +08:00
+								        )
 								    if cc in (
 								        "childhood",
 								        "education",
 								        "career_early",
 								        "career_achievement",
 								        "career_challenge",
 								    ):
-												feat(evaluation): memoir readiness, judge/replay updates, eval web playground

Add memoir_readiness_service and router tests; extend judge schemas/services, replay_service, and conversation rubric; align story route agent, payload, prompts, and story_pipeline_sync; update agent logging, config, and DI. Document internal-eval; add replayDraft util and PlaygroundPage changes in app-eval-web.

											
										
										
											2026-04-08 09:38:07 +08:00
+								        if cc in ("childhood", "education"):
 								            return (
 								                "### 本章类别路由倾向（童年 / 求学 — 少拆分）\n"
 								                "- **默认 append_story**：同一成长阶段里，地点（老家、学校）、父母职业、玩伴、游戏影视、"
 								                "怀旧细节等**主题延续**的补充，即使分段讲述，也应并入已有童年/求学故事，避免多篇开头重复交代背景。\n"
 								                "- **仅当**口述出现**另一条清晰可辨的事件链**（时间/地点/人物线换了且与候选明显不是同一脉络）时，才 new_story。"
 								            )
-												fix(memoir): 改善 story 合并决策，少生碎片篇

以前模型只看到很短预览，还容易被引导成新建 story。现在优先用已有摘要、
按需带正文片段，并区分「像续写同一主题」和「像换了一件事」；
beliefs/summary 更鼓励接着写， career/童年等仍可按新事件新开。

											
										
										
											2026-04-03 11:02:05 +08:00
+								        return (
 								            "### 本章类别路由倾向（经历叙事）\n"
 								            "- 以具体事件链为主：**不同事件 / 时期 / 地点** → 可 new_story。\n"
 								            "- 明显是**同一段经历的续叙、补充细节** → append_story。"
 								        )
 								    return (
 								        "### 本章类别路由倾向（一般）\n"
 								        "- 同时参考「主题连续性」与「事件切换」两类信号做判断。"
 								    )
-												fix/various fixes

											
										
										
											2026-03-20 15:15:35 +08:00
+								def get_story_route_prompt(
 								    *,
 								    chapter_category: str,
 								    chapter_title: str,
 								    batch_transcript: str,
 								    candidate_stories_json: str,
 								) -> str:
-												修复环境变量，UI问题

											
										
										
											2026-03-23 13:54:41 +08:00
+								    """Celery 批次：判断写入新 story 还是追加已有 story。输出严格 JSON。
-												feat(memory,conversation): 记忆富化/证据包、时间线幂等字段与对话分段全链路

数据库
- 新增迁移 0003：timeline_events.memory_source_id 外键 → memory_sources，便于按 ingest 源做时间线幂等

后端 - 记忆
- 新增 ingest 后 LLM 富化（摘要/事实/时间线），可配置开关与最大字符数
- 新增证据包组装：合并 chunk、摘要、事实、时间线、故事等检索结果；支持空 query 时是否仍带 rolling 等开关
- repo/retriever/service/router/schemas/summarizer/timeline/extractor 等扩展；文档 memory-retrieval.md 更新

后端 - 对话 WS
- 增加 PING/PONG；分段 ASR 日志与空音频处理；转写失败与「无助手回复」错误提示更明确
- 助手多段回复持久化使用统一分隔符，与分段逻辑一致

后端 - Agent
- reply_limits：按 [SPLIT] 与段落拆段，并保证非空 fallback，供 WS 与 TTS 多段下发

后端 - 回忆录任务
- transcript ingest 记录 source_id；任务成功结?

											
										
										
											2026-03-27 16:01:28 +08:00
+								    「故事」= 可独立讲述的一段人生经历；进入本步的批次已归入具体 chapter category
 								    （含模型返回 none 或零散档案启发式时映射的 summary）。
-												修复环境变量，UI问题

											
										
										
											2026-03-23 13:54:41 +08:00
+								    """
-												fix(memoir): 改善 story 合并决策，少生碎片篇

以前模型只看到很短预览，还容易被引导成新建 story。现在优先用已有摘要、
按需带正文片段，并区分「像续写同一主题」和「像换了一件事」；
beliefs/summary 更鼓励接着写， career/童年等仍可按新事件新开。

											
										
										
											2026-04-03 11:02:05 +08:00
+								    merge_hint = story_route_merge_hint_for_category(chapter_category)
 								    return f"""你是回忆录编辑助手。根据本批用户口述与【候选故事】决定 append_story 或 new_story。
-												fix/various fixes

											
										
										
											2026-03-20 15:15:35 +08:00
-												fix(memoir): 改善 story 合并决策，少生碎片篇

以前模型只看到很短预览，还容易被引导成新建 story。现在优先用已有摘要、
按需带正文片段，并区分「像续写同一主题」和「像换了一件事」；
beliefs/summary 更鼓励接着写， career/童年等仍可按新事件新开。

											
										
										
											2026-04-03 11:02:05 +08:00
+								## 两层决策标准（必须先在心里过一遍）
 . **主题连续性信号**：价值观、关系模式、长期总结、同一反思维度；口述是否像在**同一主题容器**里加厚？
 . **事件切换信号**：是否出现**新人物组合、新地点、新时间段、新事件因果链**，与候选正文明显是**另一段经历**？
-												refactor(api,expo): 多智能体与会话收敛、回忆录兼容层移除、后端测试集大幅删减

- 对齐「多智能体收敛」与「回忆录 stories-first / markdown-first」方向：收紧运行时契约、
  删除过渡兼容路径与双轨逻辑，并同步更新客户端与文档。

- Chat：以 ChatOrchestrator 为实时编排入口；删除独立 conversation_agent，精简 prompts。
- Memoir：删除 memory_agent；MemoirOrchestrator、classification / story_route 与 prompts 收敛到
  prepare_batches + run_story_pipeline_for_category_batch 主链路。
- 将 agents 侧 processor 迁入 feature 层为 background_runner，并移除 features 下重复/过时
  processor 封装。

- 新增 history_store，强化「conversation_messages 为 DB 真源、Redis 为缓存」模型。
- 调整 models、repo、service、session_history；精简 WS message_types，重构 pipeline 与 router。

- 移除章节占位、整章再生等旧路径；章节列表与封面逻辑要求 story 关联；收紧 cover 资格与
  enqueue。
- helpers、repo、service、router、reading_segment_materialize、story_pipeline_sync、pdf_service
  等按 canonical markdown / cover_asset_id 收缩；删除 memoir_images/provider 等冗余。
- tasks：memoir_tasks、chapter_cover_tasks 等大幅瘦身；story_image_tasks 等与当前图片任务对齐。

- core：config、logging、redis、task_tracker 小幅调整。
- auth / user / payment / quota：路由或服务侧删减过时接口或逻辑（如 payment router 行数减少）。

- pyproject.toml、development.sh、.env.example / .env.production、README 等同步说明或变量。

- Alembic 0001_initial_schema 微调（与当前 schema 叙事一致的小改动）。

- 回忆录：types / mappers / api、章节页与 memoir 页与后端契约对齐；markdown-renderer 调整。
- 语音：删除 voice/player，voice-segment-store 相应精简。

- api/tests：删除 conftest 及绝大部分既有测试文件（websocket_baseline、conversation、memoir
  图片、PDF、SMS 等），属有意收缩/待按 backend-test-system 重建的信号。
- docs：新增多智能体收敛与移除兼容层计划摘要；更新 story-first 设计、backend-test-system、
  multi-agent-refactor-plan、实施总结等。

BREAKING CHANGE: 后端对外契约、回忆录章节字段与若干路由/任务行为已变更；大量 API 测试被移除，
  CI 若依赖这些用例需按新策略补测或调整流水线。

											
										
										
											2026-03-22 16:45:57 +08:00
-												fix(memoir): 改善 story 合并决策，少生碎片篇

以前模型只看到很短预览，还容易被引导成新建 story。现在优先用已有摘要、
按需带正文片段，并区分「像续写同一主题」和「像换了一件事」；
beliefs/summary 更鼓励接着写， career/童年等仍可按新事件新开。

											
										
										
											2026-04-03 11:02:05 +08:00
+								- 类别 **beliefs / summary**：更重主题连续性；除非事件切换信号极强，否则倾向 append。
 								- 类别 **career_* / childhood / education**：更重事件链；不同事件可 new，同一经历续聊则 append。
 								- 类别 **family**：两类信号兼顾——原则/关系反思倾向 append；明确新事件链可 new。
 								{merge_hint}
 								**路由边界（必须遵守）**：仅根据下方「本批口述合并文本」判断；不得将系统检索摘要、记忆摘录等当作本批口述内容来匹配候选。
-												feat(evaluation): memoir readiness, judge/replay updates, eval web playground

Add memoir_readiness_service and router tests; extend judge schemas/services, replay_service, and conversation rubric; align story route agent, payload, prompts, and story_pipeline_sync; update agent logging, config, and DI. Document internal-eval; add replayDraft util and PlaygroundPage changes in app-eval-web.

											
										
										
											2026-04-08 09:38:07 +08:00
+								**候选故事说明**：列表项可能含 `summary`、`body_for_route`（正文摘要）或 `opening_snippet`（无 summary 时的纯文本开头提要）；仅含 `preview` 者为索引项，信息不全。**append 时优先匹配带 summary / body / opening_snippet 的条目**；索引项仅作候选 id 备忘。
-												feat(api): 访谈人格/回复长度策略、口述归一、背景语气与输入净稿全链路

Chat 访谈
- 新增 persona 系统（default / warm_listener / curious_guide）与 background_voice 语气层
- 回复长度由 compute_reply_plan 统一决策（brief / standard / expanded），融合信息密度启发式
- 输入净稿（input_normalize）：编排层可选 rules/llm 归一用户口语后再喂模型与记忆检索
- 记忆证据注入：按用户话检索 memory evidence 并注入 prompt

Memoir 回忆录
- 口述归一（oral_normalize）：segment 原文保留，story 管线取派生净稿作叙事输入
- segment 入队批次门闸：累计字数 + 最长等待秒数，减少零碎提交
- fidelity_check / prompts / narrative_agent 微调
- Alembic 0005：清理跨章节 story 外键

Infra
- Dockerfile 加入 ffmpeg
- pyproject.toml 新增依赖并同步 uv.lock
- .env.example / .env.production 补全新配置项

Tests
- 新增 test_background_voice、test_chat_input_normalize、test_experience_regressions
- 扩展 test_interview_prompts、test_interview_reply_length、test_story_route_oral_invariant

Made-with: Cursor

											
										
										
											2026-03-31 23:55:26 +08:00
-												fix/various fixes

											
										
										
											2026-03-20 15:15:35 +08:00
+								当前章节（写作容器）：
 								- category: {chapter_category}
 								- title: {chapter_title}
 								【本批口述合并文本】
 								{batch_transcript}
-												fix(memoir): 改善 story 合并决策，少生碎片篇

以前模型只看到很短预览，还容易被引导成新建 story。现在优先用已有摘要、
按需带正文片段，并区分「像续写同一主题」和「像换了一件事」；
beliefs/summary 更鼓励接着写， career/童年等仍可按新事件新开。

											
										
										
											2026-04-03 11:02:05 +08:00
+								【候选故事】（append 时 target_story_id 必须来自下列 id，且原样复制）
-												fix/various fixes

											
										
										
											2026-03-20 15:15:35 +08:00
+								{candidate_stories_json}
 								## 输出 JSON（仅此一个对象，不要 markdown）
 								{{
 								  "decision": "new_story" | "append_story",
 								  "target_story_id": "<uuid 或 null；append 时必填且必须来自候选>",
 								  "reason": "<一句中文理由>"
 								}}
 								规则：
-												fix(memoir): 改善 story 合并决策，少生碎片篇

以前模型只看到很短预览，还容易被引导成新建 story。现在优先用已有摘要、
按需带正文片段，并区分「像续写同一主题」和「像换了一件事」；
beliefs/summary 更鼓励接着写， career/童年等仍可按新事件新开。

											
										
										
											2026-04-03 11:02:05 +08:00
+								- **不要**只因「不太确定」就选 new_story；在主题可并入某一候选时应 append_story。
 								- 仅当口述与**所有**候选在两层标准下都明显不兼容时，才选 new_story。
-												feat(evaluation): memoir readiness, judge/replay updates, eval web playground

Add memoir_readiness_service and router tests; extend judge schemas/services, replay_service, and conversation rubric; align story route agent, payload, prompts, and story_pipeline_sync; update agent logging, config, and DI. Document internal-eval; add replayDraft util and PlaygroundPage changes in app-eval-web.

											
										
										
											2026-04-08 09:38:07 +08:00
+								- 若已有候选故事（列表非空）且口述是对同一人生阶段的**补述**，却找不到精确 id：仍应 **append_story** 到最相近的一条，而不是 new_story。
-												fix/various fixes

											
										
										
											2026-03-20 15:15:35 +08:00
+								"""
-												refactor(api,expo): 多智能体与会话收敛、回忆录兼容层移除、后端测试集大幅删减

- 对齐「多智能体收敛」与「回忆录 stories-first / markdown-first」方向：收紧运行时契约、
  删除过渡兼容路径与双轨逻辑，并同步更新客户端与文档。

- Chat：以 ChatOrchestrator 为实时编排入口；删除独立 conversation_agent，精简 prompts。
- Memoir：删除 memory_agent；MemoirOrchestrator、classification / story_route 与 prompts 收敛到
  prepare_batches + run_story_pipeline_for_category_batch 主链路。
- 将 agents 侧 processor 迁入 feature 层为 background_runner，并移除 features 下重复/过时
  processor 封装。

- 新增 history_store，强化「conversation_messages 为 DB 真源、Redis 为缓存」模型。
- 调整 models、repo、service、session_history；精简 WS message_types，重构 pipeline 与 router。

- 移除章节占位、整章再生等旧路径；章节列表与封面逻辑要求 story 关联；收紧 cover 资格与
  enqueue。
- helpers、repo、service、router、reading_segment_materialize、story_pipeline_sync、pdf_service
  等按 canonical markdown / cover_asset_id 收缩；删除 memoir_images/provider 等冗余。
- tasks：memoir_tasks、chapter_cover_tasks 等大幅瘦身；story_image_tasks 等与当前图片任务对齐。

- core：config、logging、redis、task_tracker 小幅调整。
- auth / user / payment / quota：路由或服务侧删减过时接口或逻辑（如 payment router 行数减少）。

- pyproject.toml、development.sh、.env.example / .env.production、README 等同步说明或变量。

- Alembic 0001_initial_schema 微调（与当前 schema 叙事一致的小改动）。

- 回忆录：types / mappers / api、章节页与 memoir 页与后端契约对齐；markdown-renderer 调整。
- 语音：删除 voice/player，voice-segment-store 相应精简。

- api/tests：删除 conftest 及绝大部分既有测试文件（websocket_baseline、conversation、memoir
  图片、PDF、SMS 等），属有意收缩/待按 backend-test-system 重建的信号。
- docs：新增多智能体收敛与移除兼容层计划摘要；更新 story-first 设计、backend-test-system、
  multi-agent-refactor-plan、实施总结等。

BREAKING CHANGE: 后端对外契约、回忆录章节字段与若干路由/任务行为已变更；大量 API 测试被移除，
  CI 若依赖这些用例需按新策略补测或调整流水线。

											
										
										
											2026-03-22 16:45:57 +08:00
+								def get_story_batch_plan_prompt(
 								    *,
 								    chapter_category: str,
 								    chapter_title: str,
 								    segments_json: str,
 								    candidate_stories_json: str,
 								) -> str:
 								    """同一章节类别下多 segment：划分为若干写入单元（每单元 new 或 append）。输出严格 JSON。"""
-												fix(memoir): 改善 story 合并决策，少生碎片篇

以前模型只看到很短预览，还容易被引导成新建 story。现在优先用已有摘要、
按需带正文片段，并区分「像续写同一主题」和「像换了一件事」；
beliefs/summary 更鼓励接着写， career/童年等仍可按新事件新开。

											
										
										
											2026-04-03 11:02:05 +08:00
+								    merge_hint = story_route_merge_hint_for_category(chapter_category)
-												refactor(api,expo): 多智能体与会话收敛、回忆录兼容层移除、后端测试集大幅删减

- 对齐「多智能体收敛」与「回忆录 stories-first / markdown-first」方向：收紧运行时契约、
  删除过渡兼容路径与双轨逻辑，并同步更新客户端与文档。

- Chat：以 ChatOrchestrator 为实时编排入口；删除独立 conversation_agent，精简 prompts。
- Memoir：删除 memory_agent；MemoirOrchestrator、classification / story_route 与 prompts 收敛到
  prepare_batches + run_story_pipeline_for_category_batch 主链路。
- 将 agents 侧 processor 迁入 feature 层为 background_runner，并移除 features 下重复/过时
  processor 封装。

- 新增 history_store，强化「conversation_messages 为 DB 真源、Redis 为缓存」模型。
- 调整 models、repo、service、session_history；精简 WS message_types，重构 pipeline 与 router。

- 移除章节占位、整章再生等旧路径；章节列表与封面逻辑要求 story 关联；收紧 cover 资格与
  enqueue。
- helpers、repo、service、router、reading_segment_materialize、story_pipeline_sync、pdf_service
  等按 canonical markdown / cover_asset_id 收缩；删除 memoir_images/provider 等冗余。
- tasks：memoir_tasks、chapter_cover_tasks 等大幅瘦身；story_image_tasks 等与当前图片任务对齐。

- core：config、logging、redis、task_tracker 小幅调整。
- auth / user / payment / quota：路由或服务侧删减过时接口或逻辑（如 payment router 行数减少）。

- pyproject.toml、development.sh、.env.example / .env.production、README 等同步说明或变量。

- Alembic 0001_initial_schema 微调（与当前 schema 叙事一致的小改动）。

- 回忆录：types / mappers / api、章节页与 memoir 页与后端契约对齐；markdown-renderer 调整。
- 语音：删除 voice/player，voice-segment-store 相应精简。

- api/tests：删除 conftest 及绝大部分既有测试文件（websocket_baseline、conversation、memoir
  图片、PDF、SMS 等），属有意收缩/待按 backend-test-system 重建的信号。
- docs：新增多智能体收敛与移除兼容层计划摘要；更新 story-first 设计、backend-test-system、
  multi-agent-refactor-plan、实施总结等。

BREAKING CHANGE: 后端对外契约、回忆录章节字段与若干路由/任务行为已变更；大量 API 测试被移除，
  CI 若依赖这些用例需按新策略补测或调整流水线。

											
										
										
											2026-03-22 16:45:57 +08:00
+								    return f"""你是回忆录编辑助手。下面同一章节类别下有一批**按时间顺序**的用户口述片段（每段有 id 与文本）。
-												fix(memoir): 改善 story 合并决策，少生碎片篇

以前模型只看到很短预览，还容易被引导成新建 story。现在优先用已有摘要、
按需带正文片段，并区分「像续写同一主题」和「像换了一件事」；
beliefs/summary 更鼓励接着写， career/童年等仍可按新事件新开。

											
										
										
											2026-04-03 11:02:05 +08:00
+								## 两层决策标准（每一块都要应用）
 . **主题连续性信号**：价值观、关系模式、长期总结、同一反思维度。
 . **事件切换信号**：新人物组合、新地点、新时间段、新事件因果链。
 								各类别倾向与单段路由一致：beliefs/summary 重主题连续性；career/childhood/education 重事件链；family 兼顾。
 								{merge_hint}
-												refactor(api,expo): 多智能体与会话收敛、回忆录兼容层移除、后端测试集大幅删减

- 对齐「多智能体收敛」与「回忆录 stories-first / markdown-first」方向：收紧运行时契约、
  删除过渡兼容路径与双轨逻辑，并同步更新客户端与文档。

- Chat：以 ChatOrchestrator 为实时编排入口；删除独立 conversation_agent，精简 prompts。
- Memoir：删除 memory_agent；MemoirOrchestrator、classification / story_route 与 prompts 收敛到
  prepare_batches + run_story_pipeline_for_category_batch 主链路。
- 将 agents 侧 processor 迁入 feature 层为 background_runner，并移除 features 下重复/过时
  processor 封装。

- 新增 history_store，强化「conversation_messages 为 DB 真源、Redis 为缓存」模型。
- 调整 models、repo、service、session_history；精简 WS message_types，重构 pipeline 与 router。

- 移除章节占位、整章再生等旧路径；章节列表与封面逻辑要求 story 关联；收紧 cover 资格与
  enqueue。
- helpers、repo、service、router、reading_segment_materialize、story_pipeline_sync、pdf_service
  等按 canonical markdown / cover_asset_id 收缩；删除 memoir_images/provider 等冗余。
- tasks：memoir_tasks、chapter_cover_tasks 等大幅瘦身；story_image_tasks 等与当前图片任务对齐。

- core：config、logging、redis、task_tracker 小幅调整。
- auth / user / payment / quota：路由或服务侧删减过时接口或逻辑（如 payment router 行数减少）。

- pyproject.toml、development.sh、.env.example / .env.production、README 等同步说明或变量。

- Alembic 0001_initial_schema 微调（与当前 schema 叙事一致的小改动）。

- 回忆录：types / mappers / api、章节页与 memoir 页与后端契约对齐；markdown-renderer 调整。
- 语音：删除 voice/player，voice-segment-store 相应精简。

- api/tests：删除 conftest 及绝大部分既有测试文件（websocket_baseline、conversation、memoir
  图片、PDF、SMS 等），属有意收缩/待按 backend-test-system 重建的信号。
- docs：新增多智能体收敛与移除兼容层计划摘要；更新 story-first 设计、backend-test-system、
  multi-agent-refactor-plan、实施总结等。

BREAKING CHANGE: 后端对外契约、回忆录章节字段与若干路由/任务行为已变更；大量 API 测试被移除，
  CI 若依赖这些用例需按新策略补测或调整流水线。

											
										
										
											2026-03-22 16:45:57 +08:00
+								## 「故事」定义（必须遵守）
-												fix(memoir): 改善 story 合并决策，少生碎片篇

以前模型只看到很短预览，还容易被引导成新建 story。现在优先用已有摘要、
按需带正文片段，并区分「像续写同一主题」和「像换了一件事」；
beliefs/summary 更鼓励接着写， career/童年等仍可按新事件新开。

											
										
										
											2026-04-03 11:02:05 +08:00
+								一段「故事」= **可独立讲述的一段人生经历**。**同一主题容器内的连续口述**应并入同一块 append，而不是切碎成多个 new_story。
-												refactor(api,expo): 多智能体与会话收敛、回忆录兼容层移除、后端测试集大幅删减

- 对齐「多智能体收敛」与「回忆录 stories-first / markdown-first」方向：收紧运行时契约、
  删除过渡兼容路径与双轨逻辑，并同步更新客户端与文档。

- Chat：以 ChatOrchestrator 为实时编排入口；删除独立 conversation_agent，精简 prompts。
- Memoir：删除 memory_agent；MemoirOrchestrator、classification / story_route 与 prompts 收敛到
  prepare_batches + run_story_pipeline_for_category_batch 主链路。
- 将 agents 侧 processor 迁入 feature 层为 background_runner，并移除 features 下重复/过时
  processor 封装。

- 新增 history_store，强化「conversation_messages 为 DB 真源、Redis 为缓存」模型。
- 调整 models、repo、service、session_history；精简 WS message_types，重构 pipeline 与 router。

- 移除章节占位、整章再生等旧路径；章节列表与封面逻辑要求 story 关联；收紧 cover 资格与
  enqueue。
- helpers、repo、service、router、reading_segment_materialize、story_pipeline_sync、pdf_service
  等按 canonical markdown / cover_asset_id 收缩；删除 memoir_images/provider 等冗余。
- tasks：memoir_tasks、chapter_cover_tasks 等大幅瘦身；story_image_tasks 等与当前图片任务对齐。

- core：config、logging、redis、task_tracker 小幅调整。
- auth / user / payment / quota：路由或服务侧删减过时接口或逻辑（如 payment router 行数减少）。

- pyproject.toml、development.sh、.env.example / .env.production、README 等同步说明或变量。

- Alembic 0001_initial_schema 微调（与当前 schema 叙事一致的小改动）。

- 回忆录：types / mappers / api、章节页与 memoir 页与后端契约对齐；markdown-renderer 调整。
- 语音：删除 voice/player，voice-segment-store 相应精简。

- api/tests：删除 conftest 及绝大部分既有测试文件（websocket_baseline、conversation、memoir
  图片、PDF、SMS 等），属有意收缩/待按 backend-test-system 重建的信号。
- docs：新增多智能体收敛与移除兼容层计划摘要；更新 story-first 设计、backend-test-system、
  multi-agent-refactor-plan、实施总结等。

BREAKING CHANGE: 后端对外契约、回忆录章节字段与若干路由/任务行为已变更；大量 API 测试被移除，
  CI 若依赖这些用例需按新策略补测或调整流水线。

											
										
										
											2026-03-22 16:45:57 +08:00
 								## 任务
-												fix(memoir): 改善 story 合并决策，少生碎片篇

以前模型只看到很短预览，还容易被引导成新建 story。现在优先用已有摘要、
按需带正文片段，并区分「像续写同一主题」和「像换了一件事」；
beliefs/summary 更鼓励接着写， career/童年等仍可按新事件新开。

											
										
										
											2026-04-03 11:02:05 +08:00
+								将本批 segment **划分为连续若干块**（每块至少一个 segment，顺序不能打乱；每个 segment 必须恰好属于一块）。对每一块决定：
 								- **append_story**：与某一候选在两层标准下可合并，且能对应到具体 candidate id
 								- **new_story**：该块与**所有**候选都明显不兼容，或确认为独立新经历
-												feat(evaluation): memoir readiness, judge/replay updates, eval web playground

Add memoir_readiness_service and router tests; extend judge schemas/services, replay_service, and conversation rubric; align story route agent, payload, prompts, and story_pipeline_sync; update agent logging, config, and DI. Document internal-eval; add replayDraft util and PlaygroundPage changes in app-eval-web.

											
										
										
											2026-04-08 09:38:07 +08:00
+								**候选故事说明**：条目可能含 `summary` / `body_for_route` / `opening_snippet`；仅 `preview` 者为索引项。**优先用带摘要、正文摘要或开头提要的条目做 append 目标**。
-												refactor(api,expo): 多智能体与会话收敛、回忆录兼容层移除、后端测试集大幅删减

- 对齐「多智能体收敛」与「回忆录 stories-first / markdown-first」方向：收紧运行时契约、
  删除过渡兼容路径与双轨逻辑，并同步更新客户端与文档。

- Chat：以 ChatOrchestrator 为实时编排入口；删除独立 conversation_agent，精简 prompts。
- Memoir：删除 memory_agent；MemoirOrchestrator、classification / story_route 与 prompts 收敛到
  prepare_batches + run_story_pipeline_for_category_batch 主链路。
- 将 agents 侧 processor 迁入 feature 层为 background_runner，并移除 features 下重复/过时
  processor 封装。

- 新增 history_store，强化「conversation_messages 为 DB 真源、Redis 为缓存」模型。
- 调整 models、repo、service、session_history；精简 WS message_types，重构 pipeline 与 router。

- 移除章节占位、整章再生等旧路径；章节列表与封面逻辑要求 story 关联；收紧 cover 资格与
  enqueue。
- helpers、repo、service、router、reading_segment_materialize、story_pipeline_sync、pdf_service
  等按 canonical markdown / cover_asset_id 收缩；删除 memoir_images/provider 等冗余。
- tasks：memoir_tasks、chapter_cover_tasks 等大幅瘦身；story_image_tasks 等与当前图片任务对齐。

- core：config、logging、redis、task_tracker 小幅调整。
- auth / user / payment / quota：路由或服务侧删减过时接口或逻辑（如 payment router 行数减少）。

- pyproject.toml、development.sh、.env.example / .env.production、README 等同步说明或变量。

- Alembic 0001_initial_schema 微调（与当前 schema 叙事一致的小改动）。

- 回忆录：types / mappers / api、章节页与 memoir 页与后端契约对齐；markdown-renderer 调整。
- 语音：删除 voice/player，voice-segment-store 相应精简。

- api/tests：删除 conftest 及绝大部分既有测试文件（websocket_baseline、conversation、memoir
  图片、PDF、SMS 等），属有意收缩/待按 backend-test-system 重建的信号。
- docs：新增多智能体收敛与移除兼容层计划摘要；更新 story-first 设计、backend-test-system、
  multi-agent-refactor-plan、实施总结等。

BREAKING CHANGE: 后端对外契约、回忆录章节字段与若干路由/任务行为已变更；大量 API 测试被移除，
  CI 若依赖这些用例需按新策略补测或调整流水线。

											
										
										
											2026-03-22 16:45:57 +08:00
 								当前章节（写作容器）：
 								- category: {chapter_category}
 								- title: {chapter_title}
 								【本批口述片段】（JSON 数组，顺序即口述顺序）
 								{segments_json}
-												fix(memoir): 改善 story 合并决策，少生碎片篇

以前模型只看到很短预览，还容易被引导成新建 story。现在优先用已有摘要、
按需带正文片段，并区分「像续写同一主题」和「像换了一件事」；
beliefs/summary 更鼓励接着写， career/童年等仍可按新事件新开。

											
										
										
											2026-04-03 11:02:05 +08:00
+								【候选故事】（append 时 target_story_id 必须来自下列 id，且原样复制）
-												refactor(api,expo): 多智能体与会话收敛、回忆录兼容层移除、后端测试集大幅删减

- 对齐「多智能体收敛」与「回忆录 stories-first / markdown-first」方向：收紧运行时契约、
  删除过渡兼容路径与双轨逻辑，并同步更新客户端与文档。

- Chat：以 ChatOrchestrator 为实时编排入口；删除独立 conversation_agent，精简 prompts。
- Memoir：删除 memory_agent；MemoirOrchestrator、classification / story_route 与 prompts 收敛到
  prepare_batches + run_story_pipeline_for_category_batch 主链路。
- 将 agents 侧 processor 迁入 feature 层为 background_runner，并移除 features 下重复/过时
  processor 封装。

- 新增 history_store，强化「conversation_messages 为 DB 真源、Redis 为缓存」模型。
- 调整 models、repo、service、session_history；精简 WS message_types，重构 pipeline 与 router。

- 移除章节占位、整章再生等旧路径；章节列表与封面逻辑要求 story 关联；收紧 cover 资格与
  enqueue。
- helpers、repo、service、router、reading_segment_materialize、story_pipeline_sync、pdf_service
  等按 canonical markdown / cover_asset_id 收缩；删除 memoir_images/provider 等冗余。
- tasks：memoir_tasks、chapter_cover_tasks 等大幅瘦身；story_image_tasks 等与当前图片任务对齐。

- core：config、logging、redis、task_tracker 小幅调整。
- auth / user / payment / quota：路由或服务侧删减过时接口或逻辑（如 payment router 行数减少）。

- pyproject.toml、development.sh、.env.example / .env.production、README 等同步说明或变量。

- Alembic 0001_initial_schema 微调（与当前 schema 叙事一致的小改动）。

- 回忆录：types / mappers / api、章节页与 memoir 页与后端契约对齐；markdown-renderer 调整。
- 语音：删除 voice/player，voice-segment-store 相应精简。

- api/tests：删除 conftest 及绝大部分既有测试文件（websocket_baseline、conversation、memoir
  图片、PDF、SMS 等），属有意收缩/待按 backend-test-system 重建的信号。
- docs：新增多智能体收敛与移除兼容层计划摘要；更新 story-first 设计、backend-test-system、
  multi-agent-refactor-plan、实施总结等。

BREAKING CHANGE: 后端对外契约、回忆录章节字段与若干路由/任务行为已变更；大量 API 测试被移除，
  CI 若依赖这些用例需按新策略补测或调整流水线。

											
										
										
											2026-03-22 16:45:57 +08:00
+								{candidate_stories_json}
 								## 输出 JSON（仅此一个对象，不要 markdown）
 								{{
 								  "units": [
 								    {{
 								      "segment_ids": ["<按顺序列出本块包含的 segment id>"],
 								      "decision": "new_story" | "append_story",
 								      "target_story_id": "<uuid 或 null；append 时必填且必须来自候选>",
 								      "reason": "<一句中文理由，可选>"
 								    }}
 								  ]
 								}}
 								规则：
 								- `units` 中所有 `segment_ids` 拼接后，必须**不重不漏**地覆盖本批全部 id，且顺序与【本批口述片段】数组一致
-												fix(memoir): 改善 story 合并决策，少生碎片篇

以前模型只看到很短预览，还容易被引导成新建 story。现在优先用已有摘要、
按需带正文片段，并区分「像续写同一主题」和「像换了一件事」；
beliefs/summary 更鼓励接着写， career/童年等仍可按新事件新开。

											
										
										
											2026-04-03 11:02:05 +08:00
+								- **不要**仅因不确定就对整块选 new_story；能并入候选时应 append_story
-												feat(evaluation): memoir readiness, judge/replay updates, eval web playground

Add memoir_readiness_service and router tests; extend judge schemas/services, replay_service, and conversation rubric; align story route agent, payload, prompts, and story_pipeline_sync; update agent logging, config, and DI. Document internal-eval; add replayDraft util and PlaygroundPage changes in app-eval-web.

											
										
										
											2026-04-08 09:38:07 +08:00
+								- **同一批里 new_story 单元至多 1 个**：除非口述中同时存在**至少两条**与所有候选都不兼容、且彼此也明显无关的独立长经历，否则禁止拆成多个 new_story；连续多段若都在补充同一主题，应合并为**一块 append_story**。
 								- 候选列表非空时，优先把本批当作「加厚已有篇章」，而不是再开新篇。
-												refactor(api,expo): 多智能体与会话收敛、回忆录兼容层移除、后端测试集大幅删减

- 对齐「多智能体收敛」与「回忆录 stories-first / markdown-first」方向：收紧运行时契约、
  删除过渡兼容路径与双轨逻辑，并同步更新客户端与文档。

- Chat：以 ChatOrchestrator 为实时编排入口；删除独立 conversation_agent，精简 prompts。
- Memoir：删除 memory_agent；MemoirOrchestrator、classification / story_route 与 prompts 收敛到
  prepare_batches + run_story_pipeline_for_category_batch 主链路。
- 将 agents 侧 processor 迁入 feature 层为 background_runner，并移除 features 下重复/过时
  processor 封装。

- 新增 history_store，强化「conversation_messages 为 DB 真源、Redis 为缓存」模型。
- 调整 models、repo、service、session_history；精简 WS message_types，重构 pipeline 与 router。

- 移除章节占位、整章再生等旧路径；章节列表与封面逻辑要求 story 关联；收紧 cover 资格与
  enqueue。
- helpers、repo、service、router、reading_segment_materialize、story_pipeline_sync、pdf_service
  等按 canonical markdown / cover_asset_id 收缩；删除 memoir_images/provider 等冗余。
- tasks：memoir_tasks、chapter_cover_tasks 等大幅瘦身；story_image_tasks 等与当前图片任务对齐。

- core：config、logging、redis、task_tracker 小幅调整。
- auth / user / payment / quota：路由或服务侧删减过时接口或逻辑（如 payment router 行数减少）。

- pyproject.toml、development.sh、.env.example / .env.production、README 等同步说明或变量。

- Alembic 0001_initial_schema 微调（与当前 schema 叙事一致的小改动）。

- 回忆录：types / mappers / api、章节页与 memoir 页与后端契约对齐；markdown-renderer 调整。
- 语音：删除 voice/player，voice-segment-store 相应精简。

- api/tests：删除 conftest 及绝大部分既有测试文件（websocket_baseline、conversation、memoir
  图片、PDF、SMS 等），属有意收缩/待按 backend-test-system 重建的信号。
- docs：新增多智能体收敛与移除兼容层计划摘要；更新 story-first 设计、backend-test-system、
  multi-agent-refactor-plan、实施总结等。

BREAKING CHANGE: 后端对外契约、回忆录章节字段与若干路由/任务行为已变更；大量 API 测试被移除，
  CI 若依赖这些用例需按新策略补测或调整流水线。

											
										
										
											2026-03-22 16:45:57 +08:00
+								"""
-												修复环境变量，UI问题

											
										
										
											2026-03-23 13:54:41 +08:00
+								def format_narrative_user_content(oral_text: str, evidence_text: str = "") -> str:
 								    """
 								    将口述与检索摘录分区，供叙事模型区分「亲历」与参考材料。
 								    evidence 为空时仅输出口述块。
 								    """
 								    oral = (oral_text or "").strip()
 								    ev = (evidence_text or "").strip()
 								    if not ev:
 								        return f"【本段用户口述】\n{oral}"
 								    return (
 								        "【本段用户口述】\n"
 								        f"{oral}\n\n"
 								        "【仅供参考的相关记忆摘录（非本段口述；不得把其中具体事实写成本轮亲历经历，仅可作主题衔接）】\n"
 								        f"{ev}"
 								    )
-												feat(api): 访谈人格/回复长度策略、口述归一、背景语气与输入净稿全链路

Chat 访谈
- 新增 persona 系统（default / warm_listener / curious_guide）与 background_voice 语气层
- 回复长度由 compute_reply_plan 统一决策（brief / standard / expanded），融合信息密度启发式
- 输入净稿（input_normalize）：编排层可选 rules/llm 归一用户口语后再喂模型与记忆检索
- 记忆证据注入：按用户话检索 memory evidence 并注入 prompt

Memoir 回忆录
- 口述归一（oral_normalize）：segment 原文保留，story 管线取派生净稿作叙事输入
- segment 入队批次门闸：累计字数 + 最长等待秒数，减少零碎提交
- fidelity_check / prompts / narrative_agent 微调
- Alembic 0005：清理跨章节 story 外键

Infra
- Dockerfile 加入 ffmpeg
- pyproject.toml 新增依赖并同步 uv.lock
- .env.example / .env.production 补全新配置项

Tests
- 新增 test_background_voice、test_chat_input_normalize、test_experience_regressions
- 扩展 test_interview_prompts、test_interview_reply_length、test_story_route_oral_invariant

Made-with: Cursor

											
										
										
											2026-03-31 23:55:26 +08:00
+								# dedupe_evidence_chunk_rows / format_evidence_chunks_for_prompt 见 app.features.memory.evidence_format