api/app/agents/memoir/classification_agent.py

"""
ClassificationAgent：将内容分类到 8 个章节类别之一。

原「LLM 返回 none / 零散档案启发式」不再跳过 Story：统一映射为 ``summary`` 章节，
仍走叙事流水线落库；与 StoryRoute 仍兼容（批次内 new/append 规划不变）。
Memory ingest 由 Celery 任务在批次级先行完成，与分类结果独立。
"""

from __future__ import annotations

import json
import re
from dataclasses import dataclass
from typing import Any

from pydantic import ValidationError

from app.agents.memoir.prompts import get_chapter_classification_json_prompt
from app.agents.memoir.schemas import ClassificationOutput
from app.agents.stage_constants import (
    CHAPTER_CATEGORIES,
    STAGE_KEYWORD_WEIGHTS,
    STAGE_TO_DEFAULT_CATEGORY,
)
from app.core.config import settings
from app.core.json_utils import extract_json_payload
from app.core.llm_call import LLMCallError, llm_json_call
from app.core.logging import get_logger
from app.features.memoir.constants import memoir

logger = get_logger(__name__)

# 模型判定 none 或启发式命中零散档案时，仍写入回忆录正文所用的兜底章节
_SUMMARY_FALLBACK_CATEGORY = "summary"

# 与「仅档案句式」组合使用；过短但明显为叙事句的仍交 LLM 判断
_FRAGMENT_SHORT_MAX_LEN = 48

# 整段仅为出生年份/年份声明（零散档案，不成故事）
_BIRTH_YEAR_LINE = re.compile(
    r"^[\s\u200b]*(?:我)?\d{4}\s*年\s*(出生|生的|生)?\s*[。.!！]?[\s\u200b]*$",
    re.UNICODE,
)

# 极短且为「我是某地人」式籍贯标签，无过程描写
_SHORT_HUKOU_STYLE = re.compile(
    r"^[\s\u200b]*(?:我)?是[\u4e00-\u9fff]{1,10}(人|籍)\s*[。.!！]?[\s\u200b]*$",
    re.UNICODE,
)


def _detect_stage(text: str, fallback_stage: str) -> str:
    """根据关键词检测消息所属的 5-stage 阶段（与 stage_constants.STAGE_KEYWORD_WEIGHTS 同源；匹配方式为子串，非加权）。"""
    message = (text or "").lower()
    for stage, pairs in STAGE_KEYWORD_WEIGHTS.items():
        if any(word in message for word, _w in pairs):
            return stage
    return fallback_stage


def _looks_like_fragment_only(text: str) -> bool:
    """
    保守启发式：明显为档案点/标签句。
    命中时仍进回忆录正文，章节映射为 ``summary``（与 LLM 返回 none 一致）。
    """
    s = (text or "").strip()
    if not s:
        return True
    if _BIRTH_YEAR_LINE.match(s):
        return True
    if len(s) <= _FRAGMENT_SHORT_MAX_LEN and _SHORT_HUKOU_STYLE.match(s):
        return True
    return False


def _normalize_llm_category(raw: str) -> str:
    """去掉模型偶发的引号、反引号包裹。"""
    s = (raw or "").strip().lower()
    if s.startswith("`"):
        s = s.strip("`").strip()
    if (s.startswith('"') and s.endswith('"')) or (
        s.startswith("'") and s.endswith("'")
    ):
        s = s[1:-1].strip()
    return s


@dataclass(frozen=True)
class ChapterClassifyResult:
    """章节分类结果；``llm_said_none`` 仅当走 LLM 且解析为 none 时为 True（fragment 启发式不为 True）。"""

    category: str
    llm_said_none: bool = False


def _parse_category_from_llm_response(raw: str) -> str:
    """优先解析 JSON ``{"category": "..."}``，失败则按纯文本 key 处理。"""
    s = (raw or "").strip()
    if not s:
        return ""
    try:
        data = json.loads(extract_json_payload(s))
        if isinstance(data, dict) and "category" in data:
            return _normalize_llm_category(str(data["category"]))
    except (json.JSONDecodeError, TypeError, ValueError):
        pass
    return _normalize_llm_category(s)


class ClassificationAgent:
    """将内容分类到 8 个章节类别之一；none/零散档案映射为 ``summary`` 仍进 Story。"""

    def classify(
        self,
        text: str,
        fallback_stage: str,
        llm: Any,
        *,
        segment_id: str | None = None,
        language: str = "zh",
    ) -> ChapterClassifyResult:
        """
        分类到 8 个章节类别之一。
        LLM 返回 none 或启发式为零散档案时，``category`` 为 ``summary``（仍可走回忆录流水线；
        ``llm_said_none`` 仅在 LLM 明确返回 none 时为 True，供空转抑制判断）。
        llm 需支持 .invoke(prompt) 同步调用。
        """
        if _looks_like_fragment_only(text):
            logger.info(
                "event=chapter_classification_summary_fallback reason=fragment_heuristic "
                "segment_id={} text_len={} category={}",
                segment_id or "",
                len(text or ""),
                _SUMMARY_FALLBACK_CATEGORY,
            )
            return ChapterClassifyResult(
                category=_SUMMARY_FALLBACK_CATEGORY,
                llm_said_none=False,
            )

        if llm:
            try:
                prompt = get_chapter_classification_json_prompt(text, language=language)
                out = llm_json_call(
                    llm,
                    prompt,
                    ClassificationOutput,
                    max_tokens=memoir.classification_max_tokens,
                    agent="ClassificationAgent.classify",
                )
                category = _normalize_llm_category(out.category)
                if category == "none":
                    logger.info(
                        "event=chapter_classification_summary_fallback reason=llm_none "
                        "segment_id={} text_len={} category={}",
                        segment_id or "",
                        len(text or ""),
                        _SUMMARY_FALLBACK_CATEGORY,
                    )
                    return ChapterClassifyResult(
                        category=_SUMMARY_FALLBACK_CATEGORY,
                        llm_said_none=True,
                    )
                if category in CHAPTER_CATEGORIES:
                    return ChapterClassifyResult(category=category, llm_said_none=False)
            except (LLMCallError, ValidationError, ValueError, KeyError) as e:
                logger.warning("ClassificationAgent LLM 章节分类失败: {}", e)

        stage = _detect_stage(text, fallback_stage)
        cat = STAGE_TO_DEFAULT_CATEGORY.get(
            stage,
            STAGE_TO_DEFAULT_CATEGORY.get(fallback_stage, "childhood"),
        )
        return ChapterClassifyResult(category=cat, llm_said_none=False)
-												feat: 生成回忆录agent结构封装

											
										
										
											2026-03-19 10:38:11 +08:00
+								"""
-												feat(memory,conversation): 记忆富化/证据包、时间线幂等字段与对话分段全链路

数据库
- 新增迁移 0003：timeline_events.memory_source_id 外键 → memory_sources，便于按 ingest 源做时间线幂等

后端 - 记忆
- 新增 ingest 后 LLM 富化（摘要/事实/时间线），可配置开关与最大字符数
- 新增证据包组装：合并 chunk、摘要、事实、时间线、故事等检索结果；支持空 query 时是否仍带 rolling 等开关
- repo/retriever/service/router/schemas/summarizer/timeline/extractor 等扩展；文档 memory-retrieval.md 更新

后端 - 对话 WS
- 增加 PING/PONG；分段 ASR 日志与空音频处理；转写失败与「无助手回复」错误提示更明确
- 助手多段回复持久化使用统一分隔符，与分段逻辑一致

后端 - Agent
- reply_limits：按 [SPLIT] 与段落拆段，并保证非空 fallback，供 WS 与 TTS 多段下发

后端 - 回忆录任务
- transcript ingest 记录 source_id；任务成功结?

											
										
										
											2026-03-27 16:01:28 +08:00
+								ClassificationAgent：将内容分类到 8 个章节类别之一。
-												修复环境变量，UI问题

											
										
										
											2026-03-23 13:54:41 +08:00
-												feat(memory,conversation): 记忆富化/证据包、时间线幂等字段与对话分段全链路

数据库
- 新增迁移 0003：timeline_events.memory_source_id 外键 → memory_sources，便于按 ingest 源做时间线幂等

后端 - 记忆
- 新增 ingest 后 LLM 富化（摘要/事实/时间线），可配置开关与最大字符数
- 新增证据包组装：合并 chunk、摘要、事实、时间线、故事等检索结果；支持空 query 时是否仍带 rolling 等开关
- repo/retriever/service/router/schemas/summarizer/timeline/extractor 等扩展；文档 memory-retrieval.md 更新

后端 - 对话 WS
- 增加 PING/PONG；分段 ASR 日志与空音频处理；转写失败与「无助手回复」错误提示更明确
- 助手多段回复持久化使用统一分隔符，与分段逻辑一致

后端 - Agent
- reply_limits：按 [SPLIT] 与段落拆段，并保证非空 fallback，供 WS 与 TTS 多段下发

后端 - 回忆录任务
- transcript ingest 记录 source_id；任务成功结?

											
										
										
											2026-03-27 16:01:28 +08:00
+								原「LLM 返回 none / 零散档案启发式」不再跳过 Story：统一映射为 ``summary`` 章节，
 								仍走叙事流水线落库；与 StoryRoute 仍兼容（批次内 new/append 规划不变）。
 								Memory ingest 由 Celery 任务在批次级先行完成，与分类结果独立。
-												feat: 生成回忆录agent结构封装

											
										
										
											2026-03-19 10:38:11 +08:00
+								"""
-												chore/ 删除无用文件

											
										
										
											2026-03-19 14:36:14 +08:00
-												feat: 生成回忆录agent结构封装

											
										
										
											2026-03-19 10:38:11 +08:00
+								from __future__ import annotations
-												feat(api+app): 对话阶段化、回忆录流水线与客户端会话体验
- DB: segments 用户输入文本（Alembic 0002）
- Chat: 阶段检测/阶段提示/回复限制，编排与访谈/画像 prompts 调整
- Memoir: 忠实度检查 agent，叙事与分类等链路更新
- Core: agent 日志、Alembic 启动、LangChain/日志/配置等
- Story: time_hints；Memory 检索与相关测试
- Expo: 助手头像、会话页与消息拆分、实时会话与文案/i18n
- Docs/scripts/tests: 迁移脚本、LLM JSON/记忆检索文档、新增单测

											
										
										
											2026-03-26 12:13:36 +08:00
+								import json
-												修复环境变量，UI问题

											
										
										
											2026-03-23 13:54:41 +08:00
+								import re
-												feat(api): 访谈人格/回复长度策略、口述归一、背景语气与输入净稿全链路

Chat 访谈
- 新增 persona 系统（default / warm_listener / curious_guide）与 background_voice 语气层
- 回复长度由 compute_reply_plan 统一决策（brief / standard / expanded），融合信息密度启发式
- 输入净稿（input_normalize）：编排层可选 rules/llm 归一用户口语后再喂模型与记忆检索
- 记忆证据注入：按用户话检索 memory evidence 并注入 prompt

Memoir 回忆录
- 口述归一（oral_normalize）：segment 原文保留，story 管线取派生净稿作叙事输入
- segment 入队批次门闸：累计字数 + 最长等待秒数，减少零碎提交
- fidelity_check / prompts / narrative_agent 微调
- Alembic 0005：清理跨章节 story 外键

Infra
- Dockerfile 加入 ffmpeg
- pyproject.toml 新增依赖并同步 uv.lock
- .env.example / .env.production 补全新配置项

Tests
- 新增 test_background_voice、test_chat_input_normalize、test_experience_regressions
- 扩展 test_interview_prompts、test_interview_reply_length、test_story_route_oral_invariant

Made-with: Cursor

											
										
										
											2026-03-31 23:55:26 +08:00
+								from dataclasses import dataclass
-												feat(memory,conversation): 记忆富化/证据包、时间线幂等字段与对话分段全链路

数据库
- 新增迁移 0003：timeline_events.memory_source_id 外键 → memory_sources，便于按 ingest 源做时间线幂等

后端 - 记忆
- 新增 ingest 后 LLM 富化（摘要/事实/时间线），可配置开关与最大字符数
- 新增证据包组装：合并 chunk、摘要、事实、时间线、故事等检索结果；支持空 query 时是否仍带 rolling 等开关
- repo/retriever/service/router/schemas/summarizer/timeline/extractor 等扩展；文档 memory-retrieval.md 更新

后端 - 对话 WS
- 增加 PING/PONG；分段 ASR 日志与空音频处理；转写失败与「无助手回复」错误提示更明确
- 助手多段回复持久化使用统一分隔符，与分段逻辑一致

后端 - Agent
- reply_limits：按 [SPLIT] 与段落拆段，并保证非空 fallback，供 WS 与 TTS 多段下发

后端 - 回忆录任务
- transcript ingest 记录 source_id；任务成功结?

											
										
										
											2026-03-27 16:01:28 +08:00
+								from typing import Any
-												feat: 生成回忆录agent结构封装

											
										
										
											2026-03-19 10:38:11 +08:00
-												feat: 回忆录证据血缘与内部评测可追溯，顺带对齐本地评测台与 CI

数据库与模型：新增多版迁移（章节证据快照、对话血缘、记忆事实/时间线 lineage 等），把「成稿 ↔ 对话/记忆」的溯源信息落到表结构里。
业务链路：会话与 WS、回忆录/故事流水线、记忆写入与 enrichment 等跟着接上线索与快照；新增章节证据快照与评测侧 EvalTraceService 等模块，方便组评审用的证据包。
内部评测：自动化 run 与手工 memoir 评审共用可追溯证据；rubric/ judge 相关脚本与文档有配套调整。
app-eval-web：Memoir/实验详情里能展开看证据摘要与 evidence_trace（含对话轮次 id）；Vite 代理与 development.sh 注入的 API 端口与当前默认内部评测端口一致，避免改端口后页面连错服务。
工程杂项：GitHub Actions / 仓库说明有更新；各适配器与支付/配额/plan 等多处为小改动或跟随主改动的收尾；新增/扩充了?

											
										
										
											2026-04-08 15:37:09 +08:00
+								from pydantic import ValidationError
-												refactor(agents): 抽取阶段常量与对话上下文；快档 LLM；图片 prompt 可禁止回退

访谈与阶段
- 新增 app/agents/stage_constants.py：集中 CHAT_STAGES、章节分类/顺序、阶段到默认 memoir 类别等，与 MemoirState 默认槽位顺序对齐；减少散落在 prompts 内的重复常量。
- 新增 app/agents/chat/prompt_context.py：以 ChatPromptContext 汇总 guided 系统提示所需字段（阶段、槽位、轮次、人设、记忆证据、回复长度模式、背景声线、职业等），统一走 get_guided_conversation_prompt。
- 大幅收敛 app/agents/chat/prompts_conversation.py；调整 prompts.py、stage_prompts.py、stage_detection.py；同步 interview_agent、profile_agent、helpers 与 state_schema，使对话侧构造提示的方式一致、可测。

回忆录流水线
- memoir/prompts.py 删除已迁至 stage_constants / 独立模板的大段常量与图片占位相关逻辑；classification / extraction / fidelity / narrative agents 与 orchest（全量历史仍可用于计数，注入模型时按轮次与字符上限截断）、image_prompt_fallback_disabled。
- dependencies 增加 get_llm_provider_fast（LRU 缓存，可与默认共用密钥与 base_url）。

任务与编排
- memoir_tasks：prepare_batches 注入 llm_fast；开启独立快档模型时打结构化日志。
- chapter_cover_tasks、story_image_tasks：与图片 prompt / JSON 工具路径或策略变更对齐（import 与行为一致）。
- story_pipeline_sync 等小处同步。

其它核心
- langchain_llm、text_normalize 随上述调用链微调。

开发者体验
- .cursor/settings.json：启用 redis-development、postman 插件。

测试
- 新增 test_image_prompt_policy：覆盖「禁止回退」等图片 prompt 策略。
- 更新 test_interview_prompts、test_interview_reply_length、test_experience_regressions、test_json_and_memory_utils，匹配新常量位置、json_utils 与对话/长度行为。

											
										
										
											2026-04-02 12:00:00 +08:00
+								from app.agents.memoir.prompts import get_chapter_classification_json_prompt
-												feat(api): 统一 LLM JSON 调用层 llm_json_call，按域 Schema 迁移 chat/memoir agents

											
										
										
											2026-04-03 13:34:27 +08:00
+								from app.agents.memoir.schemas import ClassificationOutput
-												feat(memoir): 回忆录分段两阶段管线（Phase1 分类 / Phase2 叙事）与配置、测试

											
										
										
											2026-04-02 16:37:14 +08:00
+								from app.agents.stage_constants import (
 								    CHAPTER_CATEGORIES,
 								    STAGE_KEYWORD_WEIGHTS,
 								    STAGE_TO_DEFAULT_CATEGORY,
 								)
-												feat(api): 统一 LLM JSON 调用层 llm_json_call，按域 Schema 迁移 chat/memoir agents

											
										
										
											2026-04-03 13:34:27 +08:00
+								from app.core.config import settings
-												refactor(agents): 抽取阶段常量与对话上下文；快档 LLM；图片 prompt 可禁止回退

访谈与阶段
- 新增 app/agents/stage_constants.py：集中 CHAT_STAGES、章节分类/顺序、阶段到默认 memoir 类别等，与 MemoirState 默认槽位顺序对齐；减少散落在 prompts 内的重复常量。
- 新增 app/agents/chat/prompt_context.py：以 ChatPromptContext 汇总 guided 系统提示所需字段（阶段、槽位、轮次、人设、记忆证据、回复长度模式、背景声线、职业等），统一走 get_guided_conversation_prompt。
- 大幅收敛 app/agents/chat/prompts_conversation.py；调整 prompts.py、stage_prompts.py、stage_detection.py；同步 interview_agent、profile_agent、helpers 与 state_schema，使对话侧构造提示的方式一致、可测。

回忆录流水线
- memoir/prompts.py 删除已迁至 stage_constants / 独立模板的大段常量与图片占位相关逻辑；classification / extraction / fidelity / narrative agents 与 orchest（全量历史仍可用于计数，注入模型时按轮次与字符上限截断）、image_prompt_fallback_disabled。
- dependencies 增加 get_llm_provider_fast（LRU 缓存，可与默认共用密钥与 base_url）。

任务与编排
- memoir_tasks：prepare_batches 注入 llm_fast；开启独立快档模型时打结构化日志。
- chapter_cover_tasks、story_image_tasks：与图片 prompt / JSON 工具路径或策略变更对齐（import 与行为一致）。
- story_pipeline_sync 等小处同步。

其它核心
- langchain_llm、text_normalize 随上述调用链微调。

开发者体验
- .cursor/settings.json：启用 redis-development、postman 插件。

测试
- 新增 test_image_prompt_policy：覆盖「禁止回退」等图片 prompt 策略。
- 更新 test_interview_prompts、test_interview_reply_length、test_experience_regressions、test_json_and_memory_utils，匹配新常量位置、json_utils 与对话/长度行为。

											
										
										
											2026-04-02 12:00:00 +08:00
+								from app.core.json_utils import extract_json_payload
-												feat: 回忆录证据血缘与内部评测可追溯，顺带对齐本地评测台与 CI

数据库与模型：新增多版迁移（章节证据快照、对话血缘、记忆事实/时间线 lineage 等），把「成稿 ↔ 对话/记忆」的溯源信息落到表结构里。
业务链路：会话与 WS、回忆录/故事流水线、记忆写入与 enrichment 等跟着接上线索与快照；新增章节证据快照与评测侧 EvalTraceService 等模块，方便组评审用的证据包。
内部评测：自动化 run 与手工 memoir 评审共用可追溯证据；rubric/ judge 相关脚本与文档有配套调整。
app-eval-web：Memoir/实验详情里能展开看证据摘要与 evidence_trace（含对话轮次 id）；Vite 代理与 development.sh 注入的 API 端口与当前默认内部评测端口一致，避免改端口后页面连错服务。
工程杂项：GitHub Actions / 仓库说明有更新；各适配器与支付/配额/plan 等多处为小改动或跟随主改动的收尾；新增/扩充了?

											
										
										
											2026-04-08 15:37:09 +08:00
+								from app.core.llm_call import LLMCallError, llm_json_call
-												refactor(api,expo): 多智能体与会话收敛、回忆录兼容层移除、后端测试集大幅删减

- 对齐「多智能体收敛」与「回忆录 stories-first / markdown-first」方向：收紧运行时契约、
  删除过渡兼容路径与双轨逻辑，并同步更新客户端与文档。

- Chat：以 ChatOrchestrator 为实时编排入口；删除独立 conversation_agent，精简 prompts。
- Memoir：删除 memory_agent；MemoirOrchestrator、classification / story_route 与 prompts 收敛到
  prepare_batches + run_story_pipeline_for_category_batch 主链路。
- 将 agents 侧 processor 迁入 feature 层为 background_runner，并移除 features 下重复/过时
  processor 封装。

- 新增 history_store，强化「conversation_messages 为 DB 真源、Redis 为缓存」模型。
- 调整 models、repo、service、session_history；精简 WS message_types，重构 pipeline 与 router。

- 移除章节占位、整章再生等旧路径；章节列表与封面逻辑要求 story 关联；收紧 cover 资格与
  enqueue。
- helpers、repo、service、router、reading_segment_materialize、story_pipeline_sync、pdf_service
  等按 canonical markdown / cover_asset_id 收缩；删除 memoir_images/provider 等冗余。
- tasks：memoir_tasks、chapter_cover_tasks 等大幅瘦身；story_image_tasks 等与当前图片任务对齐。

- core：config、logging、redis、task_tracker 小幅调整。
- auth / user / payment / quota：路由或服务侧删减过时接口或逻辑（如 payment router 行数减少）。

- pyproject.toml、development.sh、.env.example / .env.production、README 等同步说明或变量。

- Alembic 0001_initial_schema 微调（与当前 schema 叙事一致的小改动）。

- 回忆录：types / mappers / api、章节页与 memoir 页与后端契约对齐；markdown-renderer 调整。
- 语音：删除 voice/player，voice-segment-store 相应精简。

- api/tests：删除 conftest 及绝大部分既有测试文件（websocket_baseline、conversation、memoir
  图片、PDF、SMS 等），属有意收缩/待按 backend-test-system 重建的信号。
- docs：新增多智能体收敛与移除兼容层计划摘要；更新 story-first 设计、backend-test-system、
  multi-agent-refactor-plan、实施总结等。

BREAKING CHANGE: 后端对外契约、回忆录章节字段与若干路由/任务行为已变更；大量 API 测试被移除，
  CI 若依赖这些用例需按新策略补测或调整流水线。

											
										
										
											2026-03-22 16:45:57 +08:00
+								from app.core.logging import get_logger
-												refactor(api): TOML 配置 SSOT、统一错误契约、Auth/事务加固与可观测性 (#33)

配置 SSOT（TOML + .env）
统一错误契约
Auth 与事务边界
Redis / Celery 可靠性:业务 Redis（DB/0）与 Celery broker/backend（DB/1）显式拆分；连接池、sync client
可观测性（OpenTelemetry + LGTM）
											
										
										
											2026-05-22 13:44:50 +08:00
+								from app.features.memoir.constants import memoir
-												feat: 生成回忆录agent结构封装

											
										
										
											2026-03-19 10:38:11 +08:00
 								logger = get_logger(__name__)
-												feat(memory,conversation): 记忆富化/证据包、时间线幂等字段与对话分段全链路

数据库
- 新增迁移 0003：timeline_events.memory_source_id 外键 → memory_sources，便于按 ingest 源做时间线幂等

后端 - 记忆
- 新增 ingest 后 LLM 富化（摘要/事实/时间线），可配置开关与最大字符数
- 新增证据包组装：合并 chunk、摘要、事实、时间线、故事等检索结果；支持空 query 时是否仍带 rolling 等开关
- repo/retriever/service/router/schemas/summarizer/timeline/extractor 等扩展；文档 memory-retrieval.md 更新

后端 - 对话 WS
- 增加 PING/PONG；分段 ASR 日志与空音频处理；转写失败与「无助手回复」错误提示更明确
- 助手多段回复持久化使用统一分隔符，与分段逻辑一致

后端 - Agent
- reply_limits：按 [SPLIT] 与段落拆段，并保证非空 fallback，供 WS 与 TTS 多段下发

后端 - 回忆录任务
- transcript ingest 记录 source_id；任务成功结?

											
										
										
											2026-03-27 16:01:28 +08:00
+								# 模型判定 none 或启发式命中零散档案时，仍写入回忆录正文所用的兜底章节
 								_SUMMARY_FALLBACK_CATEGORY = "summary"
-												修复环境变量，UI问题

											
										
										
											2026-03-23 13:54:41 +08:00
+								# 与「仅档案句式」组合使用；过短但明显为叙事句的仍交 LLM 判断
 								_FRAGMENT_SHORT_MAX_LEN = 48
 								# 整段仅为出生年份/年份声明（零散档案，不成故事）
 								_BIRTH_YEAR_LINE = re.compile(
 								    r"^[\s\u200b]*(?:我)?\d{4}\s*年\s*(出生|生的|生)?\s*[。.!！]?[\s\u200b]*$",
 								    re.UNICODE,
 								)
 								# 极短且为「我是某地人」式籍贯标签，无过程描写
 								_SHORT_HUKOU_STYLE = re.compile(
 								    r"^[\s\u200b]*(?:我)?是[\u4e00-\u9fff]{1,10}(人|籍)\s*[。.!！]?[\s\u200b]*$",
 								    re.UNICODE,
 								)
-												feat: 生成回忆录agent结构封装

											
										
										
											2026-03-19 10:38:11 +08:00
 								def _detect_stage(text: str, fallback_stage: str) -> str:
-												feat(memoir): 回忆录分段两阶段管线（Phase1 分类 / Phase2 叙事）与配置、测试

											
										
										
											2026-04-02 16:37:14 +08:00
+								    """根据关键词检测消息所属的 5-stage 阶段（与 stage_constants.STAGE_KEYWORD_WEIGHTS 同源；匹配方式为子串，非加权）。"""
-												feat: 生成回忆录agent结构封装

											
										
										
											2026-03-19 10:38:11 +08:00
+								    message = (text or "").lower()
-												feat(memoir): 回忆录分段两阶段管线（Phase1 分类 / Phase2 叙事）与配置、测试

											
										
										
											2026-04-02 16:37:14 +08:00
+								    for stage, pairs in STAGE_KEYWORD_WEIGHTS.items():
 								        if any(word in message for word, _w in pairs):
-												feat: 生成回忆录agent结构封装

											
										
										
											2026-03-19 10:38:11 +08:00
+								            return stage
 								    return fallback_stage
-												修复环境变量，UI问题

											
										
										
											2026-03-23 13:54:41 +08:00
+								def _looks_like_fragment_only(text: str) -> bool:
 								    """
-												feat(memory,conversation): 记忆富化/证据包、时间线幂等字段与对话分段全链路

数据库
- 新增迁移 0003：timeline_events.memory_source_id 外键 → memory_sources，便于按 ingest 源做时间线幂等

后端 - 记忆
- 新增 ingest 后 LLM 富化（摘要/事实/时间线），可配置开关与最大字符数
- 新增证据包组装：合并 chunk、摘要、事实、时间线、故事等检索结果；支持空 query 时是否仍带 rolling 等开关
- repo/retriever/service/router/schemas/summarizer/timeline/extractor 等扩展；文档 memory-retrieval.md 更新

后端 - 对话 WS
- 增加 PING/PONG；分段 ASR 日志与空音频处理；转写失败与「无助手回复」错误提示更明确
- 助手多段回复持久化使用统一分隔符，与分段逻辑一致

后端 - Agent
- reply_limits：按 [SPLIT] 与段落拆段，并保证非空 fallback，供 WS 与 TTS 多段下发

后端 - 回忆录任务
- transcript ingest 记录 source_id；任务成功结?

											
										
										
											2026-03-27 16:01:28 +08:00
+								    保守启发式：明显为档案点/标签句。
 								    命中时仍进回忆录正文，章节映射为 ``summary``（与 LLM 返回 none 一致）。
-												修复环境变量，UI问题

											
										
										
											2026-03-23 13:54:41 +08:00
+								    """
 								    s = (text or "").strip()
 								    if not s:
 								        return True
 								    if _BIRTH_YEAR_LINE.match(s):
 								        return True
 								    if len(s) <= _FRAGMENT_SHORT_MAX_LEN and _SHORT_HUKOU_STYLE.match(s):
 								        return True
 								    return False
 								def _normalize_llm_category(raw: str) -> str:
 								    """去掉模型偶发的引号、反引号包裹。"""
 								    s = (raw or "").strip().lower()
 								    if s.startswith("`"):
 								        s = s.strip("`").strip()
 								    if (s.startswith('"') and s.endswith('"')) or (
 								        s.startswith("'") and s.endswith("'")
 								    ):
 								        s = s[1:-1].strip()
 								    return s
-												feat(api): 访谈人格/回复长度策略、口述归一、背景语气与输入净稿全链路

Chat 访谈
- 新增 persona 系统（default / warm_listener / curious_guide）与 background_voice 语气层
- 回复长度由 compute_reply_plan 统一决策（brief / standard / expanded），融合信息密度启发式
- 输入净稿（input_normalize）：编排层可选 rules/llm 归一用户口语后再喂模型与记忆检索
- 记忆证据注入：按用户话检索 memory evidence 并注入 prompt

Memoir 回忆录
- 口述归一（oral_normalize）：segment 原文保留，story 管线取派生净稿作叙事输入
- segment 入队批次门闸：累计字数 + 最长等待秒数，减少零碎提交
- fidelity_check / prompts / narrative_agent 微调
- Alembic 0005：清理跨章节 story 外键

Infra
- Dockerfile 加入 ffmpeg
- pyproject.toml 新增依赖并同步 uv.lock
- .env.example / .env.production 补全新配置项

Tests
- 新增 test_background_voice、test_chat_input_normalize、test_experience_regressions
- 扩展 test_interview_prompts、test_interview_reply_length、test_story_route_oral_invariant

Made-with: Cursor

											
										
										
											2026-03-31 23:55:26 +08:00
+								@dataclass(frozen=True)
 								class ChapterClassifyResult:
 								    """章节分类结果；``llm_said_none`` 仅当走 LLM 且解析为 none 时为 True（fragment 启发式不为 True）。"""
 								    category: str
 								    llm_said_none: bool = False
-												feat(api+app): 对话阶段化、回忆录流水线与客户端会话体验
- DB: segments 用户输入文本（Alembic 0002）
- Chat: 阶段检测/阶段提示/回复限制，编排与访谈/画像 prompts 调整
- Memoir: 忠实度检查 agent，叙事与分类等链路更新
- Core: agent 日志、Alembic 启动、LangChain/日志/配置等
- Story: time_hints；Memory 检索与相关测试
- Expo: 助手头像、会话页与消息拆分、实时会话与文案/i18n
- Docs/scripts/tests: 迁移脚本、LLM JSON/记忆检索文档、新增单测

											
										
										
											2026-03-26 12:13:36 +08:00
+								def _parse_category_from_llm_response(raw: str) -> str:
 								    """优先解析 JSON ``{"category": "..."}``，失败则按纯文本 key 处理。"""
 								    s = (raw or "").strip()
 								    if not s:
 								        return ""
 								    try:
 								        data = json.loads(extract_json_payload(s))
 								        if isinstance(data, dict) and "category" in data:
 								            return _normalize_llm_category(str(data["category"]))
 								    except (json.JSONDecodeError, TypeError, ValueError):
 								        pass
 								    return _normalize_llm_category(s)
-												feat: 生成回忆录agent结构封装

											
										
										
											2026-03-19 10:38:11 +08:00
+								class ClassificationAgent:
-												feat(memory,conversation): 记忆富化/证据包、时间线幂等字段与对话分段全链路

数据库
- 新增迁移 0003：timeline_events.memory_source_id 外键 → memory_sources，便于按 ingest 源做时间线幂等

后端 - 记忆
- 新增 ingest 后 LLM 富化（摘要/事实/时间线），可配置开关与最大字符数
- 新增证据包组装：合并 chunk、摘要、事实、时间线、故事等检索结果；支持空 query 时是否仍带 rolling 等开关
- repo/retriever/service/router/schemas/summarizer/timeline/extractor 等扩展；文档 memory-retrieval.md 更新

后端 - 对话 WS
- 增加 PING/PONG；分段 ASR 日志与空音频处理；转写失败与「无助手回复」错误提示更明确
- 助手多段回复持久化使用统一分隔符，与分段逻辑一致

后端 - Agent
- reply_limits：按 [SPLIT] 与段落拆段，并保证非空 fallback，供 WS 与 TTS 多段下发

后端 - 回忆录任务
- transcript ingest 记录 source_id；任务成功结?

											
										
										
											2026-03-27 16:01:28 +08:00
+								    """将内容分类到 8 个章节类别之一；none/零散档案映射为 ``summary`` 仍进 Story。"""
-												feat: 生成回忆录agent结构封装

											
										
										
											2026-03-19 10:38:11 +08:00
 								    def classify(
 								        self,
 								        text: str,
 								        fallback_stage: str,
 								        llm: Any,
-												feat(memory,conversation): 记忆富化/证据包、时间线幂等字段与对话分段全链路

数据库
- 新增迁移 0003：timeline_events.memory_source_id 外键 → memory_sources，便于按 ingest 源做时间线幂等

后端 - 记忆
- 新增 ingest 后 LLM 富化（摘要/事实/时间线），可配置开关与最大字符数
- 新增证据包组装：合并 chunk、摘要、事实、时间线、故事等检索结果；支持空 query 时是否仍带 rolling 等开关
- repo/retriever/service/router/schemas/summarizer/timeline/extractor 等扩展；文档 memory-retrieval.md 更新

后端 - 对话 WS
- 增加 PING/PONG；分段 ASR 日志与空音频处理；转写失败与「无助手回复」错误提示更明确
- 助手多段回复持久化使用统一分隔符，与分段逻辑一致

后端 - Agent
- reply_limits：按 [SPLIT] 与段落拆段，并保证非空 fallback，供 WS 与 TTS 多段下发

后端 - 回忆录任务
- transcript ingest 记录 source_id；任务成功结?

											
										
										
											2026-03-27 16:01:28 +08:00
+								        *,
 								        segment_id: str | None = None,
-												feat(i18n): persist language preference and thread through chat, memoir, TTS

- Add users.language_preference (Alembic 0018, default zh); capture at signup/SMS
  only; expose on auth and profile APIs
- Lite English prompts for chat and memoir; localized stage labels and agent
  names (Life Echo / 岁月知己)
- Tencent TTS: language-aware synthesis, ModelType=1 for 501004, English chunking
- WebSocket pipeline: emit all AGENT_RESPONSE segments when TTS cancels; INFO logs
  for tts_this_turn and TTS decisions; on-demand TTS logging
- Expo: device language on auth, i18n tiers/agent name, [SPLIT] streaming UX fixes
- Tests for migration, prompts, pipeline, router tts_this_turn, reply segments

Co-authored-by: Cursor <cursoragent@cursor.com>

											
										
										
											2026-05-11 16:16:49 +08:00
+								        language: str = "zh",
-												feat(api): 访谈人格/回复长度策略、口述归一、背景语气与输入净稿全链路

Chat 访谈
- 新增 persona 系统（default / warm_listener / curious_guide）与 background_voice 语气层
- 回复长度由 compute_reply_plan 统一决策（brief / standard / expanded），融合信息密度启发式
- 输入净稿（input_normalize）：编排层可选 rules/llm 归一用户口语后再喂模型与记忆检索
- 记忆证据注入：按用户话检索 memory evidence 并注入 prompt

Memoir 回忆录
- 口述归一（oral_normalize）：segment 原文保留，story 管线取派生净稿作叙事输入
- segment 入队批次门闸：累计字数 + 最长等待秒数，减少零碎提交
- fidelity_check / prompts / narrative_agent 微调
- Alembic 0005：清理跨章节 story 外键

Infra
- Dockerfile 加入 ffmpeg
- pyproject.toml 新增依赖并同步 uv.lock
- .env.example / .env.production 补全新配置项

Tests
- 新增 test_background_voice、test_chat_input_normalize、test_experience_regressions
- 扩展 test_interview_prompts、test_interview_reply_length、test_story_route_oral_invariant

Made-with: Cursor

											
										
										
											2026-03-31 23:55:26 +08:00
+								    ) -> ChapterClassifyResult:
-												feat: 生成回忆录agent结构封装

											
										
										
											2026-03-19 10:38:11 +08:00
+								        """
 								        分类到 8 个章节类别之一。
-												feat(api): 访谈人格/回复长度策略、口述归一、背景语气与输入净稿全链路

Chat 访谈
- 新增 persona 系统（default / warm_listener / curious_guide）与 background_voice 语气层
- 回复长度由 compute_reply_plan 统一决策（brief / standard / expanded），融合信息密度启发式
- 输入净稿（input_normalize）：编排层可选 rules/llm 归一用户口语后再喂模型与记忆检索
- 记忆证据注入：按用户话检索 memory evidence 并注入 prompt

Memoir 回忆录
- 口述归一（oral_normalize）：segment 原文保留，story 管线取派生净稿作叙事输入
- segment 入队批次门闸：累计字数 + 最长等待秒数，减少零碎提交
- fidelity_check / prompts / narrative_agent 微调
- Alembic 0005：清理跨章节 story 外键

Infra
- Dockerfile 加入 ffmpeg
- pyproject.toml 新增依赖并同步 uv.lock
- .env.example / .env.production 补全新配置项

Tests
- 新增 test_background_voice、test_chat_input_normalize、test_experience_regressions
- 扩展 test_interview_prompts、test_interview_reply_length、test_story_route_oral_invariant

Made-with: Cursor

											
										
										
											2026-03-31 23:55:26 +08:00
+								        LLM 返回 none 或启发式为零散档案时，``category`` 为 ``summary``（仍可走回忆录流水线；
 								        ``llm_said_none`` 仅在 LLM 明确返回 none 时为 True，供空转抑制判断）。
-												feat: 生成回忆录agent结构封装

											
										
										
											2026-03-19 10:38:11 +08:00
+								        llm 需支持 .invoke(prompt) 同步调用。
 								        """
-												修复环境变量，UI问题

											
										
										
											2026-03-23 13:54:41 +08:00
+								        if _looks_like_fragment_only(text):
-												feat(memory,conversation): 记忆富化/证据包、时间线幂等字段与对话分段全链路

数据库
- 新增迁移 0003：timeline_events.memory_source_id 外键 → memory_sources，便于按 ingest 源做时间线幂等

后端 - 记忆
- 新增 ingest 后 LLM 富化（摘要/事实/时间线），可配置开关与最大字符数
- 新增证据包组装：合并 chunk、摘要、事实、时间线、故事等检索结果；支持空 query 时是否仍带 rolling 等开关
- repo/retriever/service/router/schemas/summarizer/timeline/extractor 等扩展；文档 memory-retrieval.md 更新

后端 - 对话 WS
- 增加 PING/PONG；分段 ASR 日志与空音频处理；转写失败与「无助手回复」错误提示更明确
- 助手多段回复持久化使用统一分隔符，与分段逻辑一致

后端 - Agent
- reply_limits：按 [SPLIT] 与段落拆段，并保证非空 fallback，供 WS 与 TTS 多段下发

后端 - 回忆录任务
- transcript ingest 记录 source_id；任务成功结?

											
										
										
											2026-03-27 16:01:28 +08:00
+								            logger.info(
 								                "event=chapter_classification_summary_fallback reason=fragment_heuristic "
 								                "segment_id={} text_len={} category={}",
 								                segment_id or "",
-												修复环境变量，UI问题

											
										
										
											2026-03-23 13:54:41 +08:00
+								                len(text or ""),
-												feat(memory,conversation): 记忆富化/证据包、时间线幂等字段与对话分段全链路

数据库
- 新增迁移 0003：timeline_events.memory_source_id 外键 → memory_sources，便于按 ingest 源做时间线幂等

后端 - 记忆
- 新增 ingest 后 LLM 富化（摘要/事实/时间线），可配置开关与最大字符数
- 新增证据包组装：合并 chunk、摘要、事实、时间线、故事等检索结果；支持空 query 时是否仍带 rolling 等开关
- repo/retriever/service/router/schemas/summarizer/timeline/extractor 等扩展；文档 memory-retrieval.md 更新

后端 - 对话 WS
- 增加 PING/PONG；分段 ASR 日志与空音频处理；转写失败与「无助手回复」错误提示更明确
- 助手多段回复持久化使用统一分隔符，与分段逻辑一致

后端 - Agent
- reply_limits：按 [SPLIT] 与段落拆段，并保证非空 fallback，供 WS 与 TTS 多段下发

后端 - 回忆录任务
- transcript ingest 记录 source_id；任务成功结?

											
										
										
											2026-03-27 16:01:28 +08:00
+								                _SUMMARY_FALLBACK_CATEGORY,
-												修复环境变量，UI问题

											
										
										
											2026-03-23 13:54:41 +08:00
+								            )
-												feat(api): 访谈人格/回复长度策略、口述归一、背景语气与输入净稿全链路

Chat 访谈
- 新增 persona 系统（default / warm_listener / curious_guide）与 background_voice 语气层
- 回复长度由 compute_reply_plan 统一决策（brief / standard / expanded），融合信息密度启发式
- 输入净稿（input_normalize）：编排层可选 rules/llm 归一用户口语后再喂模型与记忆检索
- 记忆证据注入：按用户话检索 memory evidence 并注入 prompt

Memoir 回忆录
- 口述归一（oral_normalize）：segment 原文保留，story 管线取派生净稿作叙事输入
- segment 入队批次门闸：累计字数 + 最长等待秒数，减少零碎提交
- fidelity_check / prompts / narrative_agent 微调
- Alembic 0005：清理跨章节 story 外键

Infra
- Dockerfile 加入 ffmpeg
- pyproject.toml 新增依赖并同步 uv.lock
- .env.example / .env.production 补全新配置项

Tests
- 新增 test_background_voice、test_chat_input_normalize、test_experience_regressions
- 扩展 test_interview_prompts、test_interview_reply_length、test_story_route_oral_invariant

Made-with: Cursor

											
										
										
											2026-03-31 23:55:26 +08:00
+								            return ChapterClassifyResult(
 								                category=_SUMMARY_FALLBACK_CATEGORY,
 								                llm_said_none=False,
 								            )
-												修复环境变量，UI问题

											
										
										
											2026-03-23 13:54:41 +08:00
-												feat: 生成回忆录agent结构封装

											
										
										
											2026-03-19 10:38:11 +08:00
+								        if llm:
 								            try:
-												feat(i18n): persist language preference and thread through chat, memoir, TTS

- Add users.language_preference (Alembic 0018, default zh); capture at signup/SMS
  only; expose on auth and profile APIs
- Lite English prompts for chat and memoir; localized stage labels and agent
  names (Life Echo / 岁月知己)
- Tencent TTS: language-aware synthesis, ModelType=1 for 501004, English chunking
- WebSocket pipeline: emit all AGENT_RESPONSE segments when TTS cancels; INFO logs
  for tts_this_turn and TTS decisions; on-demand TTS logging
- Expo: device language on auth, i18n tiers/agent name, [SPLIT] streaming UX fixes
- Tests for migration, prompts, pipeline, router tts_this_turn, reply segments

Co-authored-by: Cursor <cursoragent@cursor.com>

											
										
										
											2026-05-11 16:16:49 +08:00
+								                prompt = get_chapter_classification_json_prompt(text, language=language)
-												feat(api): 统一 LLM JSON 调用层 llm_json_call，按域 Schema 迁移 chat/memoir agents

											
										
										
											2026-04-03 13:34:27 +08:00
+								                out = llm_json_call(
-												feat(api+app): 对话阶段化、回忆录流水线与客户端会话体验
- DB: segments 用户输入文本（Alembic 0002）
- Chat: 阶段检测/阶段提示/回复限制，编排与访谈/画像 prompts 调整
- Memoir: 忠实度检查 agent，叙事与分类等链路更新
- Core: agent 日志、Alembic 启动、LangChain/日志/配置等
- Story: time_hints；Memory 检索与相关测试
- Expo: 助手头像、会话页与消息拆分、实时会话与文案/i18n
- Docs/scripts/tests: 迁移脚本、LLM JSON/记忆检索文档、新增单测

											
										
										
											2026-03-26 12:13:36 +08:00
+								                    llm,
 								                    prompt,
-												feat(api): 统一 LLM JSON 调用层 llm_json_call，按域 Schema 迁移 chat/memoir agents

											
										
										
											2026-04-03 13:34:27 +08:00
+								                    ClassificationOutput,
-												refactor(api): TOML 配置 SSOT、统一错误契约、Auth/事务加固与可观测性 (#33)

配置 SSOT（TOML + .env）
统一错误契约
Auth 与事务边界
Redis / Celery 可靠性:业务 Redis（DB/0）与 Celery broker/backend（DB/1）显式拆分；连接池、sync client
可观测性（OpenTelemetry + LGTM）
											
										
										
											2026-05-22 13:44:50 +08:00
+								                    max_tokens=memoir.classification_max_tokens,
-												feat(api+app): 对话阶段化、回忆录流水线与客户端会话体验
- DB: segments 用户输入文本（Alembic 0002）
- Chat: 阶段检测/阶段提示/回复限制，编排与访谈/画像 prompts 调整
- Memoir: 忠实度检查 agent，叙事与分类等链路更新
- Core: agent 日志、Alembic 启动、LangChain/日志/配置等
- Story: time_hints；Memory 检索与相关测试
- Expo: 助手头像、会话页与消息拆分、实时会话与文案/i18n
- Docs/scripts/tests: 迁移脚本、LLM JSON/记忆检索文档、新增单测

											
										
										
											2026-03-26 12:13:36 +08:00
+								                    agent="ClassificationAgent.classify",
 								                )
-												feat(api): 统一 LLM JSON 调用层 llm_json_call，按域 Schema 迁移 chat/memoir agents

											
										
										
											2026-04-03 13:34:27 +08:00
+								                category = _normalize_llm_category(out.category)
-												feat: 生成回忆录agent结构封装

											
										
										
											2026-03-19 10:38:11 +08:00
+								                if category == "none":
-												feat(memory,conversation): 记忆富化/证据包、时间线幂等字段与对话分段全链路

数据库
- 新增迁移 0003：timeline_events.memory_source_id 外键 → memory_sources，便于按 ingest 源做时间线幂等

后端 - 记忆
- 新增 ingest 后 LLM 富化（摘要/事实/时间线），可配置开关与最大字符数
- 新增证据包组装：合并 chunk、摘要、事实、时间线、故事等检索结果；支持空 query 时是否仍带 rolling 等开关
- repo/retriever/service/router/schemas/summarizer/timeline/extractor 等扩展；文档 memory-retrieval.md 更新

后端 - 对话 WS
- 增加 PING/PONG；分段 ASR 日志与空音频处理；转写失败与「无助手回复」错误提示更明确
- 助手多段回复持久化使用统一分隔符，与分段逻辑一致

后端 - Agent
- reply_limits：按 [SPLIT] 与段落拆段，并保证非空 fallback，供 WS 与 TTS 多段下发

后端 - 回忆录任务
- transcript ingest 记录 source_id；任务成功结?

											
										
										
											2026-03-27 16:01:28 +08:00
+								                    logger.info(
 								                        "event=chapter_classification_summary_fallback reason=llm_none "
 								                        "segment_id={} text_len={} category={}",
 								                        segment_id or "",
-												refactor(api,expo): 多智能体与会话收敛、回忆录兼容层移除、后端测试集大幅删减

- 对齐「多智能体收敛」与「回忆录 stories-first / markdown-first」方向：收紧运行时契约、
  删除过渡兼容路径与双轨逻辑，并同步更新客户端与文档。

- Chat：以 ChatOrchestrator 为实时编排入口；删除独立 conversation_agent，精简 prompts。
- Memoir：删除 memory_agent；MemoirOrchestrator、classification / story_route 与 prompts 收敛到
  prepare_batches + run_story_pipeline_for_category_batch 主链路。
- 将 agents 侧 processor 迁入 feature 层为 background_runner，并移除 features 下重复/过时
  processor 封装。

- 新增 history_store，强化「conversation_messages 为 DB 真源、Redis 为缓存」模型。
- 调整 models、repo、service、session_history；精简 WS message_types，重构 pipeline 与 router。

- 移除章节占位、整章再生等旧路径；章节列表与封面逻辑要求 story 关联；收紧 cover 资格与
  enqueue。
- helpers、repo、service、router、reading_segment_materialize、story_pipeline_sync、pdf_service
  等按 canonical markdown / cover_asset_id 收缩；删除 memoir_images/provider 等冗余。
- tasks：memoir_tasks、chapter_cover_tasks 等大幅瘦身；story_image_tasks 等与当前图片任务对齐。

- core：config、logging、redis、task_tracker 小幅调整。
- auth / user / payment / quota：路由或服务侧删减过时接口或逻辑（如 payment router 行数减少）。

- pyproject.toml、development.sh、.env.example / .env.production、README 等同步说明或变量。

- Alembic 0001_initial_schema 微调（与当前 schema 叙事一致的小改动）。

- 回忆录：types / mappers / api、章节页与 memoir 页与后端契约对齐；markdown-renderer 调整。
- 语音：删除 voice/player，voice-segment-store 相应精简。

- api/tests：删除 conftest 及绝大部分既有测试文件（websocket_baseline、conversation、memoir
  图片、PDF、SMS 等），属有意收缩/待按 backend-test-system 重建的信号。
- docs：新增多智能体收敛与移除兼容层计划摘要；更新 story-first 设计、backend-test-system、
  multi-agent-refactor-plan、实施总结等。

BREAKING CHANGE: 后端对外契约、回忆录章节字段与若干路由/任务行为已变更；大量 API 测试被移除，
  CI 若依赖这些用例需按新策略补测或调整流水线。

											
										
										
											2026-03-22 16:45:57 +08:00
+								                        len(text or ""),
-												feat(memory,conversation): 记忆富化/证据包、时间线幂等字段与对话分段全链路

数据库
- 新增迁移 0003：timeline_events.memory_source_id 外键 → memory_sources，便于按 ingest 源做时间线幂等

后端 - 记忆
- 新增 ingest 后 LLM 富化（摘要/事实/时间线），可配置开关与最大字符数
- 新增证据包组装：合并 chunk、摘要、事实、时间线、故事等检索结果；支持空 query 时是否仍带 rolling 等开关
- repo/retriever/service/router/schemas/summarizer/timeline/extractor 等扩展；文档 memory-retrieval.md 更新

后端 - 对话 WS
- 增加 PING/PONG；分段 ASR 日志与空音频处理；转写失败与「无助手回复」错误提示更明确
- 助手多段回复持久化使用统一分隔符，与分段逻辑一致

后端 - Agent
- reply_limits：按 [SPLIT] 与段落拆段，并保证非空 fallback，供 WS 与 TTS 多段下发

后端 - 回忆录任务
- transcript ingest 记录 source_id；任务成功结?

											
										
										
											2026-03-27 16:01:28 +08:00
+								                        _SUMMARY_FALLBACK_CATEGORY,
-												chore/ 删除无用文件

											
										
										
											2026-03-19 14:36:14 +08:00
+								                    )
-												feat(api): 访谈人格/回复长度策略、口述归一、背景语气与输入净稿全链路

Chat 访谈
- 新增 persona 系统（default / warm_listener / curious_guide）与 background_voice 语气层
- 回复长度由 compute_reply_plan 统一决策（brief / standard / expanded），融合信息密度启发式
- 输入净稿（input_normalize）：编排层可选 rules/llm 归一用户口语后再喂模型与记忆检索
- 记忆证据注入：按用户话检索 memory evidence 并注入 prompt

Memoir 回忆录
- 口述归一（oral_normalize）：segment 原文保留，story 管线取派生净稿作叙事输入
- segment 入队批次门闸：累计字数 + 最长等待秒数，减少零碎提交
- fidelity_check / prompts / narrative_agent 微调
- Alembic 0005：清理跨章节 story 外键

Infra
- Dockerfile 加入 ffmpeg
- pyproject.toml 新增依赖并同步 uv.lock
- .env.example / .env.production 补全新配置项

Tests
- 新增 test_background_voice、test_chat_input_normalize、test_experience_regressions
- 扩展 test_interview_prompts、test_interview_reply_length、test_story_route_oral_invariant

Made-with: Cursor

											
										
										
											2026-03-31 23:55:26 +08:00
+								                    return ChapterClassifyResult(
 								                        category=_SUMMARY_FALLBACK_CATEGORY,
 								                        llm_said_none=True,
 								                    )
-												feat: 生成回忆录agent结构封装

											
										
										
											2026-03-19 10:38:11 +08:00
+								                if category in CHAPTER_CATEGORIES:
-												feat(api): 访谈人格/回复长度策略、口述归一、背景语气与输入净稿全链路

Chat 访谈
- 新增 persona 系统（default / warm_listener / curious_guide）与 background_voice 语气层
- 回复长度由 compute_reply_plan 统一决策（brief / standard / expanded），融合信息密度启发式
- 输入净稿（input_normalize）：编排层可选 rules/llm 归一用户口语后再喂模型与记忆检索
- 记忆证据注入：按用户话检索 memory evidence 并注入 prompt

Memoir 回忆录
- 口述归一（oral_normalize）：segment 原文保留，story 管线取派生净稿作叙事输入
- segment 入队批次门闸：累计字数 + 最长等待秒数，减少零碎提交
- fidelity_check / prompts / narrative_agent 微调
- Alembic 0005：清理跨章节 story 外键

Infra
- Dockerfile 加入 ffmpeg
- pyproject.toml 新增依赖并同步 uv.lock
- .env.example / .env.production 补全新配置项

Tests
- 新增 test_background_voice、test_chat_input_normalize、test_experience_regressions
- 扩展 test_interview_prompts、test_interview_reply_length、test_story_route_oral_invariant

Made-with: Cursor

											
										
										
											2026-03-31 23:55:26 +08:00
+								                    return ChapterClassifyResult(category=category, llm_said_none=False)
-												feat: 回忆录证据血缘与内部评测可追溯，顺带对齐本地评测台与 CI

数据库与模型：新增多版迁移（章节证据快照、对话血缘、记忆事实/时间线 lineage 等），把「成稿 ↔ 对话/记忆」的溯源信息落到表结构里。
业务链路：会话与 WS、回忆录/故事流水线、记忆写入与 enrichment 等跟着接上线索与快照；新增章节证据快照与评测侧 EvalTraceService 等模块，方便组评审用的证据包。
内部评测：自动化 run 与手工 memoir 评审共用可追溯证据；rubric/ judge 相关脚本与文档有配套调整。
app-eval-web：Memoir/实验详情里能展开看证据摘要与 evidence_trace（含对话轮次 id）；Vite 代理与 development.sh 注入的 API 端口与当前默认内部评测端口一致，避免改端口后页面连错服务。
工程杂项：GitHub Actions / 仓库说明有更新；各适配器与支付/配额/plan 等多处为小改动或跟随主改动的收尾；新增/扩充了?

											
										
										
											2026-04-08 15:37:09 +08:00
+								            except (LLMCallError, ValidationError, ValueError, KeyError) as e:
-												feat(api+app): 对话阶段化、回忆录流水线与客户端会话体验
- DB: segments 用户输入文本（Alembic 0002）
- Chat: 阶段检测/阶段提示/回复限制，编排与访谈/画像 prompts 调整
- Memoir: 忠实度检查 agent，叙事与分类等链路更新
- Core: agent 日志、Alembic 启动、LangChain/日志/配置等
- Story: time_hints；Memory 检索与相关测试
- Expo: 助手头像、会话页与消息拆分、实时会话与文案/i18n
- Docs/scripts/tests: 迁移脚本、LLM JSON/记忆检索文档、新增单测

											
										
										
											2026-03-26 12:13:36 +08:00
+								                logger.warning("ClassificationAgent LLM 章节分类失败: {}", e)
-												feat: 生成回忆录agent结构封装

											
										
										
											2026-03-19 10:38:11 +08:00
 								        stage = _detect_stage(text, fallback_stage)
-												refactor(agents): 抽取阶段常量与对话上下文；快档 LLM；图片 prompt 可禁止回退

访谈与阶段
- 新增 app/agents/stage_constants.py：集中 CHAT_STAGES、章节分类/顺序、阶段到默认 memoir 类别等，与 MemoirState 默认槽位顺序对齐；减少散落在 prompts 内的重复常量。
- 新增 app/agents/chat/prompt_context.py：以 ChatPromptContext 汇总 guided 系统提示所需字段（阶段、槽位、轮次、人设、记忆证据、回复长度模式、背景声线、职业等），统一走 get_guided_conversation_prompt。
- 大幅收敛 app/agents/chat/prompts_conversation.py；调整 prompts.py、stage_prompts.py、stage_detection.py；同步 interview_agent、profile_agent、helpers 与 state_schema，使对话侧构造提示的方式一致、可测。

回忆录流水线
- memoir/prompts.py 删除已迁至 stage_constants / 独立模板的大段常量与图片占位相关逻辑；classification / extraction / fidelity / narrative agents 与 orchest（全量历史仍可用于计数，注入模型时按轮次与字符上限截断）、image_prompt_fallback_disabled。
- dependencies 增加 get_llm_provider_fast（LRU 缓存，可与默认共用密钥与 base_url）。

任务与编排
- memoir_tasks：prepare_batches 注入 llm_fast；开启独立快档模型时打结构化日志。
- chapter_cover_tasks、story_image_tasks：与图片 prompt / JSON 工具路径或策略变更对齐（import 与行为一致）。
- story_pipeline_sync 等小处同步。

其它核心
- langchain_llm、text_normalize 随上述调用链微调。

开发者体验
- .cursor/settings.json：启用 redis-development、postman 插件。

测试
- 新增 test_image_prompt_policy：覆盖「禁止回退」等图片 prompt 策略。
- 更新 test_interview_prompts、test_interview_reply_length、test_experience_regressions、test_json_and_memory_utils，匹配新常量位置、json_utils 与对话/长度行为。

											
										
										
											2026-04-02 12:00:00 +08:00
+								        cat = STAGE_TO_DEFAULT_CATEGORY.get(
-												feat: 生成回忆录agent结构封装

											
										
										
											2026-03-19 10:38:11 +08:00
+								            stage,
-												refactor(agents): 抽取阶段常量与对话上下文；快档 LLM；图片 prompt 可禁止回退

访谈与阶段
- 新增 app/agents/stage_constants.py：集中 CHAT_STAGES、章节分类/顺序、阶段到默认 memoir 类别等，与 MemoirState 默认槽位顺序对齐；减少散落在 prompts 内的重复常量。
- 新增 app/agents/chat/prompt_context.py：以 ChatPromptContext 汇总 guided 系统提示所需字段（阶段、槽位、轮次、人设、记忆证据、回复长度模式、背景声线、职业等），统一走 get_guided_conversation_prompt。
- 大幅收敛 app/agents/chat/prompts_conversation.py；调整 prompts.py、stage_prompts.py、stage_detection.py；同步 interview_agent、profile_agent、helpers 与 state_schema，使对话侧构造提示的方式一致、可测。

回忆录流水线
- memoir/prompts.py 删除已迁至 stage_constants / 独立模板的大段常量与图片占位相关逻辑；classification / extraction / fidelity / narrative agents 与 orchest（全量历史仍可用于计数，注入模型时按轮次与字符上限截断）、image_prompt_fallback_disabled。
- dependencies 增加 get_llm_provider_fast（LRU 缓存，可与默认共用密钥与 base_url）。

任务与编排
- memoir_tasks：prepare_batches 注入 llm_fast；开启独立快档模型时打结构化日志。
- chapter_cover_tasks、story_image_tasks：与图片 prompt / JSON 工具路径或策略变更对齐（import 与行为一致）。
- story_pipeline_sync 等小处同步。

其它核心
- langchain_llm、text_normalize 随上述调用链微调。

开发者体验
- .cursor/settings.json：启用 redis-development、postman 插件。

测试
- 新增 test_image_prompt_policy：覆盖「禁止回退」等图片 prompt 策略。
- 更新 test_interview_prompts、test_interview_reply_length、test_experience_regressions、test_json_and_memory_utils，匹配新常量位置、json_utils 与对话/长度行为。

											
										
										
											2026-04-02 12:00:00 +08:00
+								            STAGE_TO_DEFAULT_CATEGORY.get(fallback_stage, "childhood"),
-												feat: 生成回忆录agent结构封装

											
										
										
											2026-03-19 10:38:11 +08:00
+								        )
-												feat(api): 访谈人格/回复长度策略、口述归一、背景语气与输入净稿全链路

Chat 访谈
- 新增 persona 系统（default / warm_listener / curious_guide）与 background_voice 语气层
- 回复长度由 compute_reply_plan 统一决策（brief / standard / expanded），融合信息密度启发式
- 输入净稿（input_normalize）：编排层可选 rules/llm 归一用户口语后再喂模型与记忆检索
- 记忆证据注入：按用户话检索 memory evidence 并注入 prompt

Memoir 回忆录
- 口述归一（oral_normalize）：segment 原文保留，story 管线取派生净稿作叙事输入
- segment 入队批次门闸：累计字数 + 最长等待秒数，减少零碎提交
- fidelity_check / prompts / narrative_agent 微调
- Alembic 0005：清理跨章节 story 外键

Infra
- Dockerfile 加入 ffmpeg
- pyproject.toml 新增依赖并同步 uv.lock
- .env.example / .env.production 补全新配置项

Tests
- 新增 test_background_voice、test_chat_input_normalize、test_experience_regressions
- 扩展 test_interview_prompts、test_interview_reply_length、test_story_route_oral_invariant

Made-with: Cursor

											
										
										
											2026-03-31 23:55:26 +08:00
+								        return ChapterClassifyResult(category=cat, llm_said_none=False)