api/app/features/conversation/input_normalize.py

"""
聊天输入归一：供访谈 Agent / 编排层对 ASR 与键盘输入做可控预处理（规则 / 可选 LLM）。

不改变 segment 落库原文；仅作为模型侧派生净稿。
与 memoir 共用同一套确定性规则，避免聊天与回忆录对同一句理解割裂。
"""

from __future__ import annotations

from typing import Any

from app.core.config import settings
from app.core.logging import get_logger
from app.core.text_normalize import apply_oral_rules, llm_normalize_text

logger = get_logger(__name__)

apply_conversation_input_rules = apply_oral_rules


def _llm_normalize_chat_input(text: str, llm: Any) -> str | None:
    """仅修正明显错字与同音字，不增事实；失败返回 None。"""
    return llm_normalize_text(
        text,
        llm,
        max_input_chars=int(settings.chat_input_normalize_llm_max_input_chars),
        max_tokens=int(settings.chat_input_normalize_llm_max_tokens),
        agent_name="chat_input_normalize.llm",
    )


def normalize_chat_input_for_agent(
    text: str,
    *,
    llm: Any | None = None,
    is_from_voice: bool = False,
) -> str:
    """
    聊天侧单一出口：编排层与 InterviewAgent 共用。

    - 全局关闭：原文
    - off：原文
    - rules：仅规则
    - llm：先规则，再（可选）LLM；无 llm 或失败则保留规则结果
    - chat_input_normalize_llm_voice_only：mode=llm 时仅 is_from_voice 为真才调用 LLM
    """
    if not settings.chat_input_normalize_enabled:
        return text or ""
    mode = (settings.chat_input_normalize_mode or "rules").strip().lower()
    if mode == "off":
        return text or ""

    base = apply_conversation_input_rules(text or "")
    if mode != "llm":
        return base

    effective_llm = llm
    if settings.chat_input_normalize_llm_voice_only and not is_from_voice:
        effective_llm = None

    refined = _llm_normalize_chat_input(base, effective_llm)
    if refined is not None:
        return refined
    return base
-												feat(api): 访谈人格/回复长度策略、口述归一、背景语气与输入净稿全链路

Chat 访谈
- 新增 persona 系统（default / warm_listener / curious_guide）与 background_voice 语气层
- 回复长度由 compute_reply_plan 统一决策（brief / standard / expanded），融合信息密度启发式
- 输入净稿（input_normalize）：编排层可选 rules/llm 归一用户口语后再喂模型与记忆检索
- 记忆证据注入：按用户话检索 memory evidence 并注入 prompt

Memoir 回忆录
- 口述归一（oral_normalize）：segment 原文保留，story 管线取派生净稿作叙事输入
- segment 入队批次门闸：累计字数 + 最长等待秒数，减少零碎提交
- fidelity_check / prompts / narrative_agent 微调
- Alembic 0005：清理跨章节 story 外键

Infra
- Dockerfile 加入 ffmpeg
- pyproject.toml 新增依赖并同步 uv.lock
- .env.example / .env.production 补全新配置项

Tests
- 新增 test_background_voice、test_chat_input_normalize、test_experience_regressions
- 扩展 test_interview_prompts、test_interview_reply_length、test_story_route_oral_invariant

Made-with: Cursor

											
										
										
											2026-03-31 23:55:26 +08:00
+								"""
 								聊天输入归一：供访谈 Agent / 编排层对 ASR 与键盘输入做可控预处理（规则 / 可选 LLM）。
 								不改变 segment 落库原文；仅作为模型侧派生净稿。
 								与 memoir 共用同一套确定性规则，避免聊天与回忆录对同一句理解割裂。
 								"""
 								from __future__ import annotations
 								from typing import Any
 								from app.core.config import settings
 								from app.core.logging import get_logger
-												feat: 回忆录证据血缘与内部评测可追溯，顺带对齐本地评测台与 CI

数据库与模型：新增多版迁移（章节证据快照、对话血缘、记忆事实/时间线 lineage 等），把「成稿 ↔ 对话/记忆」的溯源信息落到表结构里。
业务链路：会话与 WS、回忆录/故事流水线、记忆写入与 enrichment 等跟着接上线索与快照；新增章节证据快照与评测侧 EvalTraceService 等模块，方便组评审用的证据包。
内部评测：自动化 run 与手工 memoir 评审共用可追溯证据；rubric/ judge 相关脚本与文档有配套调整。
app-eval-web：Memoir/实验详情里能展开看证据摘要与 evidence_trace（含对话轮次 id）；Vite 代理与 development.sh 注入的 API 端口与当前默认内部评测端口一致，避免改端口后页面连错服务。
工程杂项：GitHub Actions / 仓库说明有更新；各适配器与支付/配额/plan 等多处为小改动或跟随主改动的收尾；新增/扩充了?

											
										
										
											2026-04-08 15:37:09 +08:00
+								from app.core.text_normalize import apply_oral_rules, llm_normalize_text
-												feat(api): 访谈人格/回复长度策略、口述归一、背景语气与输入净稿全链路

Chat 访谈
- 新增 persona 系统（default / warm_listener / curious_guide）与 background_voice 语气层
- 回复长度由 compute_reply_plan 统一决策（brief / standard / expanded），融合信息密度启发式
- 输入净稿（input_normalize）：编排层可选 rules/llm 归一用户口语后再喂模型与记忆检索
- 记忆证据注入：按用户话检索 memory evidence 并注入 prompt

Memoir 回忆录
- 口述归一（oral_normalize）：segment 原文保留，story 管线取派生净稿作叙事输入
- segment 入队批次门闸：累计字数 + 最长等待秒数，减少零碎提交
- fidelity_check / prompts / narrative_agent 微调
- Alembic 0005：清理跨章节 story 外键

Infra
- Dockerfile 加入 ffmpeg
- pyproject.toml 新增依赖并同步 uv.lock
- .env.example / .env.production 补全新配置项

Tests
- 新增 test_background_voice、test_chat_input_normalize、test_experience_regressions
- 扩展 test_interview_prompts、test_interview_reply_length、test_story_route_oral_invariant

Made-with: Cursor

											
										
										
											2026-03-31 23:55:26 +08:00
 								logger = get_logger(__name__)
-												feat(api): 叙事 prompt、职业上下文、读路径章节、WS 解耦与错误脱敏

- 回忆录：事实边界补充允许清单；传记文体示例与 JSON 叙事要求对齐
- default 职业提示 occupation_context；cadre/military 退休语境
- GET 章节读路径零写入，prepare_chapter_read_view + markdown_for_response
- 文本归一抽到 core/text_normalize；移除弃用 reply 策略与 recompose_chapters_for_story
- ConversationService：WS 连接/用户段落/结束对话；对外错误固定文案
- 测试：HTTP 脱敏契约、章节读视图、occupation 与 background_voice

											
										
										
											2026-04-01 11:49:33 +08:00
+								apply_conversation_input_rules = apply_oral_rules
-												feat(api): 访谈人格/回复长度策略、口述归一、背景语气与输入净稿全链路

Chat 访谈
- 新增 persona 系统（default / warm_listener / curious_guide）与 background_voice 语气层
- 回复长度由 compute_reply_plan 统一决策（brief / standard / expanded），融合信息密度启发式
- 输入净稿（input_normalize）：编排层可选 rules/llm 归一用户口语后再喂模型与记忆检索
- 记忆证据注入：按用户话检索 memory evidence 并注入 prompt

Memoir 回忆录
- 口述归一（oral_normalize）：segment 原文保留，story 管线取派生净稿作叙事输入
- segment 入队批次门闸：累计字数 + 最长等待秒数，减少零碎提交
- fidelity_check / prompts / narrative_agent 微调
- Alembic 0005：清理跨章节 story 外键

Infra
- Dockerfile 加入 ffmpeg
- pyproject.toml 新增依赖并同步 uv.lock
- .env.example / .env.production 补全新配置项

Tests
- 新增 test_background_voice、test_chat_input_normalize、test_experience_regressions
- 扩展 test_interview_prompts、test_interview_reply_length、test_story_route_oral_invariant

Made-with: Cursor

											
										
										
											2026-03-31 23:55:26 +08:00
 								def _llm_normalize_chat_input(text: str, llm: Any) -> str | None:
 								    """仅修正明显错字与同音字，不增事实；失败返回 None。"""
-												feat(api): 叙事 prompt、职业上下文、读路径章节、WS 解耦与错误脱敏

- 回忆录：事实边界补充允许清单；传记文体示例与 JSON 叙事要求对齐
- default 职业提示 occupation_context；cadre/military 退休语境
- GET 章节读路径零写入，prepare_chapter_read_view + markdown_for_response
- 文本归一抽到 core/text_normalize；移除弃用 reply 策略与 recompose_chapters_for_story
- ConversationService：WS 连接/用户段落/结束对话；对外错误固定文案
- 测试：HTTP 脱敏契约、章节读视图、occupation 与 background_voice

											
										
										
											2026-04-01 11:49:33 +08:00
+								    return llm_normalize_text(
 								        text,
 								        llm,
 								        max_input_chars=int(settings.chat_input_normalize_llm_max_input_chars),
 								        max_tokens=int(settings.chat_input_normalize_llm_max_tokens),
 								        agent_name="chat_input_normalize.llm",
 								    )
-												feat(api): 访谈人格/回复长度策略、口述归一、背景语气与输入净稿全链路

Chat 访谈
- 新增 persona 系统（default / warm_listener / curious_guide）与 background_voice 语气层
- 回复长度由 compute_reply_plan 统一决策（brief / standard / expanded），融合信息密度启发式
- 输入净稿（input_normalize）：编排层可选 rules/llm 归一用户口语后再喂模型与记忆检索
- 记忆证据注入：按用户话检索 memory evidence 并注入 prompt

Memoir 回忆录
- 口述归一（oral_normalize）：segment 原文保留，story 管线取派生净稿作叙事输入
- segment 入队批次门闸：累计字数 + 最长等待秒数，减少零碎提交
- fidelity_check / prompts / narrative_agent 微调
- Alembic 0005：清理跨章节 story 外键

Infra
- Dockerfile 加入 ffmpeg
- pyproject.toml 新增依赖并同步 uv.lock
- .env.example / .env.production 补全新配置项

Tests
- 新增 test_background_voice、test_chat_input_normalize、test_experience_regressions
- 扩展 test_interview_prompts、test_interview_reply_length、test_story_route_oral_invariant

Made-with: Cursor

											
										
										
											2026-03-31 23:55:26 +08:00
-												feat(api): 访谈路径轻量门控、Memoir Phase1 批处理与叙事/记忆管线加固

- 新增 utterance_substance：短时/应答/元话语可跳过记忆检索、阶段 LLM 与资料抽取 LLM；可配置
- 输入归一化：LLM 模式默认仅语音/ASR；配置项写入 .env.example
- Memoir Phase1：可选 batch LLM 一次性抽取+分类（失败回退逐段）；Extraction 空槽位时阶段与 current_stage 对齐，prompt 约束收紧
- 叙事与忠实度：narrative_safety、证据重叠/场合锚点、标题 slots 与履历短语 grounded；fidelity 解析失败 fail-open 可配置
- 章节管线：锁 TTL 上调、锁竞争 Celery 重试、Phase2 immediate singleflight 等；story_pipeline_sync / chapter_compose / memoir_tasks 联动
- Memory：compaction / repo / summarizer / evidence 小修；事实 FTS 未命中是否回退最近事实可配置
- 新增 memoir_pipeline_trace；补充 memoir_reliability 文档与多项回归/门控测试

											
										
										
											2026-04-03 10:12:59 +08:00
+								def normalize_chat_input_for_agent(
 								    text: str,
 								    *,
 								    llm: Any | None = None,
 								    is_from_voice: bool = False,
 								) -> str:
-												feat(api): 访谈人格/回复长度策略、口述归一、背景语气与输入净稿全链路

Chat 访谈
- 新增 persona 系统（default / warm_listener / curious_guide）与 background_voice 语气层
- 回复长度由 compute_reply_plan 统一决策（brief / standard / expanded），融合信息密度启发式
- 输入净稿（input_normalize）：编排层可选 rules/llm 归一用户口语后再喂模型与记忆检索
- 记忆证据注入：按用户话检索 memory evidence 并注入 prompt

Memoir 回忆录
- 口述归一（oral_normalize）：segment 原文保留，story 管线取派生净稿作叙事输入
- segment 入队批次门闸：累计字数 + 最长等待秒数，减少零碎提交
- fidelity_check / prompts / narrative_agent 微调
- Alembic 0005：清理跨章节 story 外键

Infra
- Dockerfile 加入 ffmpeg
- pyproject.toml 新增依赖并同步 uv.lock
- .env.example / .env.production 补全新配置项

Tests
- 新增 test_background_voice、test_chat_input_normalize、test_experience_regressions
- 扩展 test_interview_prompts、test_interview_reply_length、test_story_route_oral_invariant

Made-with: Cursor

											
										
										
											2026-03-31 23:55:26 +08:00
+								    """
 								    聊天侧单一出口：编排层与 InterviewAgent 共用。
 								    - 全局关闭：原文
 								    - off：原文
 								    - rules：仅规则
 								    - llm：先规则，再（可选）LLM；无 llm 或失败则保留规则结果
-												feat(api): 访谈路径轻量门控、Memoir Phase1 批处理与叙事/记忆管线加固

- 新增 utterance_substance：短时/应答/元话语可跳过记忆检索、阶段 LLM 与资料抽取 LLM；可配置
- 输入归一化：LLM 模式默认仅语音/ASR；配置项写入 .env.example
- Memoir Phase1：可选 batch LLM 一次性抽取+分类（失败回退逐段）；Extraction 空槽位时阶段与 current_stage 对齐，prompt 约束收紧
- 叙事与忠实度：narrative_safety、证据重叠/场合锚点、标题 slots 与履历短语 grounded；fidelity 解析失败 fail-open 可配置
- 章节管线：锁 TTL 上调、锁竞争 Celery 重试、Phase2 immediate singleflight 等；story_pipeline_sync / chapter_compose / memoir_tasks 联动
- Memory：compaction / repo / summarizer / evidence 小修；事实 FTS 未命中是否回退最近事实可配置
- 新增 memoir_pipeline_trace；补充 memoir_reliability 文档与多项回归/门控测试

											
										
										
											2026-04-03 10:12:59 +08:00
+								    - chat_input_normalize_llm_voice_only：mode=llm 时仅 is_from_voice 为真才调用 LLM
-												feat(api): 访谈人格/回复长度策略、口述归一、背景语气与输入净稿全链路

Chat 访谈
- 新增 persona 系统（default / warm_listener / curious_guide）与 background_voice 语气层
- 回复长度由 compute_reply_plan 统一决策（brief / standard / expanded），融合信息密度启发式
- 输入净稿（input_normalize）：编排层可选 rules/llm 归一用户口语后再喂模型与记忆检索
- 记忆证据注入：按用户话检索 memory evidence 并注入 prompt

Memoir 回忆录
- 口述归一（oral_normalize）：segment 原文保留，story 管线取派生净稿作叙事输入
- segment 入队批次门闸：累计字数 + 最长等待秒数，减少零碎提交
- fidelity_check / prompts / narrative_agent 微调
- Alembic 0005：清理跨章节 story 外键

Infra
- Dockerfile 加入 ffmpeg
- pyproject.toml 新增依赖并同步 uv.lock
- .env.example / .env.production 补全新配置项

Tests
- 新增 test_background_voice、test_chat_input_normalize、test_experience_regressions
- 扩展 test_interview_prompts、test_interview_reply_length、test_story_route_oral_invariant

Made-with: Cursor

											
										
										
											2026-03-31 23:55:26 +08:00
+								    """
 								    if not settings.chat_input_normalize_enabled:
 								        return text or ""
 								    mode = (settings.chat_input_normalize_mode or "rules").strip().lower()
 								    if mode == "off":
 								        return text or ""
 								    base = apply_conversation_input_rules(text or "")
 								    if mode != "llm":
 								        return base
-												feat(api): 访谈路径轻量门控、Memoir Phase1 批处理与叙事/记忆管线加固

- 新增 utterance_substance：短时/应答/元话语可跳过记忆检索、阶段 LLM 与资料抽取 LLM；可配置
- 输入归一化：LLM 模式默认仅语音/ASR；配置项写入 .env.example
- Memoir Phase1：可选 batch LLM 一次性抽取+分类（失败回退逐段）；Extraction 空槽位时阶段与 current_stage 对齐，prompt 约束收紧
- 叙事与忠实度：narrative_safety、证据重叠/场合锚点、标题 slots 与履历短语 grounded；fidelity 解析失败 fail-open 可配置
- 章节管线：锁 TTL 上调、锁竞争 Celery 重试、Phase2 immediate singleflight 等；story_pipeline_sync / chapter_compose / memoir_tasks 联动
- Memory：compaction / repo / summarizer / evidence 小修；事实 FTS 未命中是否回退最近事实可配置
- 新增 memoir_pipeline_trace；补充 memoir_reliability 文档与多项回归/门控测试

											
										
										
											2026-04-03 10:12:59 +08:00
+								    effective_llm = llm
 								    if settings.chat_input_normalize_llm_voice_only and not is_from_voice:
 								        effective_llm = None
 								    refined = _llm_normalize_chat_input(base, effective_llm)
-												feat(api): 访谈人格/回复长度策略、口述归一、背景语气与输入净稿全链路

Chat 访谈
- 新增 persona 系统（default / warm_listener / curious_guide）与 background_voice 语气层
- 回复长度由 compute_reply_plan 统一决策（brief / standard / expanded），融合信息密度启发式
- 输入净稿（input_normalize）：编排层可选 rules/llm 归一用户口语后再喂模型与记忆检索
- 记忆证据注入：按用户话检索 memory evidence 并注入 prompt

Memoir 回忆录
- 口述归一（oral_normalize）：segment 原文保留，story 管线取派生净稿作叙事输入
- segment 入队批次门闸：累计字数 + 最长等待秒数，减少零碎提交
- fidelity_check / prompts / narrative_agent 微调
- Alembic 0005：清理跨章节 story 外键

Infra
- Dockerfile 加入 ffmpeg
- pyproject.toml 新增依赖并同步 uv.lock
- .env.example / .env.production 补全新配置项

Tests
- 新增 test_background_voice、test_chat_input_normalize、test_experience_regressions
- 扩展 test_interview_prompts、test_interview_reply_length、test_story_route_oral_invariant

Made-with: Cursor

											
										
										
											2026-03-31 23:55:26 +08:00
+								    if refined is not None:
 								        return refined
 								    return base