api/tests/test_oral_normalize.py

"""口述规则归一与 memoir 入口行为。"""

from unittest.mock import patch

from app.core.text_normalize import apply_oral_rules
from app.features.memoir.oral_normalize import normalize_oral_for_memoir


def test_apply_rules_mei_kanshang_wo() -> None:
    assert "没看上我" in apply_oral_rules("我去试镜了 美看上我 张伟")


def test_apply_rules_mei_kanshang_ni() -> None:
    assert apply_oral_rules("美看上你") == "没看上你"


def test_apply_rules_no_false_positive_rong() -> None:
    """「美容」等不应被误替换。"""
    s = "我去了解美容项目"
    assert apply_oral_rules(s) == s


def test_normalize_respects_global_off() -> None:
    raw = "美看上我"
    with patch("app.features.memoir.oral_normalize.settings") as m:
        m.memoir_oral_normalize_enabled = False
        m.memoir_oral_normalize_mode = "rules"
        assert normalize_oral_for_memoir(raw, llm=None) == raw


def test_normalize_rules_mode_no_llm() -> None:
    raw = "美看上我"
    with patch("app.features.memoir.oral_normalize.settings") as m:
        m.memoir_oral_normalize_enabled = True
        m.memoir_oral_normalize_mode = "rules"
        m.memoir_oral_normalize_llm_max_tokens = 512
        m.memoir_oral_normalize_llm_max_input_chars = 8000
        assert normalize_oral_for_memoir(raw, llm=None) == "没看上我"


def test_normalize_mode_off_string() -> None:
    raw = "美看上我"
    with patch("app.features.memoir.oral_normalize.settings") as m:
        m.memoir_oral_normalize_enabled = True
        m.memoir_oral_normalize_mode = "off"
        m.memoir_oral_normalize_llm_max_tokens = 512
        m.memoir_oral_normalize_llm_max_input_chars = 8000
        assert normalize_oral_for_memoir(raw, llm=None) == raw
feat(api): 访谈人格/回复长度策略、口述归一、背景语气与输入净稿全链路 Chat 访谈 - 新增 persona 系统（default / warm_listener / curious_guide）与 background_voice 语气层 - 回复长度由 compute_reply_plan 统一决策（brief / standard / expanded），融合信息密度启发式 - 输入净稿（input_normalize）：编排层可选 rules/llm 归一用户口语后再喂模型与记忆检索 - 记忆证据注入：按用户话检索 memory evidence 并注入 prompt Memoir 回忆录 - 口述归一（oral_normalize）：segment 原文保留，story 管线取派生净稿作叙事输入 - segment 入队批次门闸：累计字数 + 最长等待秒数，减少零碎提交 - fidelity_check / prompts / narrative_agent 微调 - Alembic 0005：清理跨章节 story 外键 Infra - Dockerfile 加入 ffmpeg - pyproject.toml 新增依赖并同步 uv.lock - .env.example / .env.production 补全新配置项 Tests - 新增 test_background_voice、test_chat_input_normalize、test_experience_regressions - 扩展 test_interview_prompts、test_interview_reply_length、test_story_route_oral_invariant Made-with: Cursor 2026-03-31 23:55:26 +08:00			`"""口述规则归一与 memoir 入口行为。"""`

			`from unittest.mock import patch`

feat(api): 叙事 prompt、职业上下文、读路径章节、WS 解耦与错误脱敏 - 回忆录：事实边界补充允许清单；传记文体示例与 JSON 叙事要求对齐 - default 职业提示 occupation_context；cadre/military 退休语境 - GET 章节读路径零写入，prepare_chapter_read_view + markdown_for_response - 文本归一抽到 core/text_normalize；移除弃用 reply 策略与 recompose_chapters_for_story - ConversationService：WS 连接/用户段落/结束对话；对外错误固定文案 - 测试：HTTP 脱敏契约、章节读视图、occupation 与 background_voice 2026-04-01 11:49:33 +08:00			`from app.core.text_normalize import apply_oral_rules`
			`from app.features.memoir.oral_normalize import normalize_oral_for_memoir`
feat(api): 访谈人格/回复长度策略、口述归一、背景语气与输入净稿全链路 Chat 访谈 - 新增 persona 系统（default / warm_listener / curious_guide）与 background_voice 语气层 - 回复长度由 compute_reply_plan 统一决策（brief / standard / expanded），融合信息密度启发式 - 输入净稿（input_normalize）：编排层可选 rules/llm 归一用户口语后再喂模型与记忆检索 - 记忆证据注入：按用户话检索 memory evidence 并注入 prompt Memoir 回忆录 - 口述归一（oral_normalize）：segment 原文保留，story 管线取派生净稿作叙事输入 - segment 入队批次门闸：累计字数 + 最长等待秒数，减少零碎提交 - fidelity_check / prompts / narrative_agent 微调 - Alembic 0005：清理跨章节 story 外键 Infra - Dockerfile 加入 ffmpeg - pyproject.toml 新增依赖并同步 uv.lock - .env.example / .env.production 补全新配置项 Tests - 新增 test_background_voice、test_chat_input_normalize、test_experience_regressions - 扩展 test_interview_prompts、test_interview_reply_length、test_story_route_oral_invariant Made-with: Cursor 2026-03-31 23:55:26 +08:00

			`def test_apply_rules_mei_kanshang_wo() -> None:`
feat(api): 叙事 prompt、职业上下文、读路径章节、WS 解耦与错误脱敏 - 回忆录：事实边界补充允许清单；传记文体示例与 JSON 叙事要求对齐 - default 职业提示 occupation_context；cadre/military 退休语境 - GET 章节读路径零写入，prepare_chapter_read_view + markdown_for_response - 文本归一抽到 core/text_normalize；移除弃用 reply 策略与 recompose_chapters_for_story - ConversationService：WS 连接/用户段落/结束对话；对外错误固定文案 - 测试：HTTP 脱敏契约、章节读视图、occupation 与 background_voice 2026-04-01 11:49:33 +08:00			`assert "没看上我" in apply_oral_rules("我去试镜了美看上我张伟")`
feat(api): 访谈人格/回复长度策略、口述归一、背景语气与输入净稿全链路 Chat 访谈 - 新增 persona 系统（default / warm_listener / curious_guide）与 background_voice 语气层 - 回复长度由 compute_reply_plan 统一决策（brief / standard / expanded），融合信息密度启发式 - 输入净稿（input_normalize）：编排层可选 rules/llm 归一用户口语后再喂模型与记忆检索 - 记忆证据注入：按用户话检索 memory evidence 并注入 prompt Memoir 回忆录 - 口述归一（oral_normalize）：segment 原文保留，story 管线取派生净稿作叙事输入 - segment 入队批次门闸：累计字数 + 最长等待秒数，减少零碎提交 - fidelity_check / prompts / narrative_agent 微调 - Alembic 0005：清理跨章节 story 外键 Infra - Dockerfile 加入 ffmpeg - pyproject.toml 新增依赖并同步 uv.lock - .env.example / .env.production 补全新配置项 Tests - 新增 test_background_voice、test_chat_input_normalize、test_experience_regressions - 扩展 test_interview_prompts、test_interview_reply_length、test_story_route_oral_invariant Made-with: Cursor 2026-03-31 23:55:26 +08:00

			`def test_apply_rules_mei_kanshang_ni() -> None:`
feat(api): 叙事 prompt、职业上下文、读路径章节、WS 解耦与错误脱敏 - 回忆录：事实边界补充允许清单；传记文体示例与 JSON 叙事要求对齐 - default 职业提示 occupation_context；cadre/military 退休语境 - GET 章节读路径零写入，prepare_chapter_read_view + markdown_for_response - 文本归一抽到 core/text_normalize；移除弃用 reply 策略与 recompose_chapters_for_story - ConversationService：WS 连接/用户段落/结束对话；对外错误固定文案 - 测试：HTTP 脱敏契约、章节读视图、occupation 与 background_voice 2026-04-01 11:49:33 +08:00			`assert apply_oral_rules("美看上你") == "没看上你"`
feat(api): 访谈人格/回复长度策略、口述归一、背景语气与输入净稿全链路 Chat 访谈 - 新增 persona 系统（default / warm_listener / curious_guide）与 background_voice 语气层 - 回复长度由 compute_reply_plan 统一决策（brief / standard / expanded），融合信息密度启发式 - 输入净稿（input_normalize）：编排层可选 rules/llm 归一用户口语后再喂模型与记忆检索 - 记忆证据注入：按用户话检索 memory evidence 并注入 prompt Memoir 回忆录 - 口述归一（oral_normalize）：segment 原文保留，story 管线取派生净稿作叙事输入 - segment 入队批次门闸：累计字数 + 最长等待秒数，减少零碎提交 - fidelity_check / prompts / narrative_agent 微调 - Alembic 0005：清理跨章节 story 外键 Infra - Dockerfile 加入 ffmpeg - pyproject.toml 新增依赖并同步 uv.lock - .env.example / .env.production 补全新配置项 Tests - 新增 test_background_voice、test_chat_input_normalize、test_experience_regressions - 扩展 test_interview_prompts、test_interview_reply_length、test_story_route_oral_invariant Made-with: Cursor 2026-03-31 23:55:26 +08:00

			`def test_apply_rules_no_false_positive_rong() -> None:`
			`"""「美容」等不应被误替换。"""`
			`s = "我去了解美容项目"`
feat(api): 叙事 prompt、职业上下文、读路径章节、WS 解耦与错误脱敏 - 回忆录：事实边界补充允许清单；传记文体示例与 JSON 叙事要求对齐 - default 职业提示 occupation_context；cadre/military 退休语境 - GET 章节读路径零写入，prepare_chapter_read_view + markdown_for_response - 文本归一抽到 core/text_normalize；移除弃用 reply 策略与 recompose_chapters_for_story - ConversationService：WS 连接/用户段落/结束对话；对外错误固定文案 - 测试：HTTP 脱敏契约、章节读视图、occupation 与 background_voice 2026-04-01 11:49:33 +08:00			`assert apply_oral_rules(s) == s`
feat(api): 访谈人格/回复长度策略、口述归一、背景语气与输入净稿全链路 Chat 访谈 - 新增 persona 系统（default / warm_listener / curious_guide）与 background_voice 语气层 - 回复长度由 compute_reply_plan 统一决策（brief / standard / expanded），融合信息密度启发式 - 输入净稿（input_normalize）：编排层可选 rules/llm 归一用户口语后再喂模型与记忆检索 - 记忆证据注入：按用户话检索 memory evidence 并注入 prompt Memoir 回忆录 - 口述归一（oral_normalize）：segment 原文保留，story 管线取派生净稿作叙事输入 - segment 入队批次门闸：累计字数 + 最长等待秒数，减少零碎提交 - fidelity_check / prompts / narrative_agent 微调 - Alembic 0005：清理跨章节 story 外键 Infra - Dockerfile 加入 ffmpeg - pyproject.toml 新增依赖并同步 uv.lock - .env.example / .env.production 补全新配置项 Tests - 新增 test_background_voice、test_chat_input_normalize、test_experience_regressions - 扩展 test_interview_prompts、test_interview_reply_length、test_story_route_oral_invariant Made-with: Cursor 2026-03-31 23:55:26 +08:00

			`def test_normalize_respects_global_off() -> None:`
			`raw = "美看上我"`
			`with patch("app.features.memoir.oral_normalize.settings") as m:`
			`m.memoir_oral_normalize_enabled = False`
			`m.memoir_oral_normalize_mode = "rules"`
			`assert normalize_oral_for_memoir(raw, llm=None) == raw`


			`def test_normalize_rules_mode_no_llm() -> None:`
			`raw = "美看上我"`
			`with patch("app.features.memoir.oral_normalize.settings") as m:`
			`m.memoir_oral_normalize_enabled = True`
			`m.memoir_oral_normalize_mode = "rules"`
			`m.memoir_oral_normalize_llm_max_tokens = 512`
			`m.memoir_oral_normalize_llm_max_input_chars = 8000`
			`assert normalize_oral_for_memoir(raw, llm=None) == "没看上我"`


			`def test_normalize_mode_off_string() -> None:`
			`raw = "美看上我"`
			`with patch("app.features.memoir.oral_normalize.settings") as m:`
			`m.memoir_oral_normalize_enabled = True`
			`m.memoir_oral_normalize_mode = "off"`
			`m.memoir_oral_normalize_llm_max_tokens = 512`
			`m.memoir_oral_normalize_llm_max_input_chars = 8000`
			`assert normalize_oral_for_memoir(raw, llm=None) == raw`