api/tests/test_memory_evidence.py

"""Memory evidence 组装与检索契约（纯函数 / 无 DB）。"""

import pytest

from app.features.memory import evidence as evidence_mod
from app.features.memory.evidence import (
    EMPTY_EVIDENCE_BUNDLE,
    _facts_to_dicts,
    _stories_to_dicts,
    retrieve_evidence_bundle_async,
)
from app.features.memory.evidence_format import format_evidence_chunks_for_chat_prompt
from app.features.memory.schemas import EvidenceBundle


def test_empty_evidence_bundle_keys() -> None:
    assert set(EMPTY_EVIDENCE_BUNDLE.keys()) == {
        "relevant_chunks",
        "relevant_summaries",
        "relevant_facts",
        "relevant_stories",
    }


def test_evidence_bundle_model_accepts_dict() -> None:
    b = EvidenceBundle.model_validate(EMPTY_EVIDENCE_BUNDLE)
    assert b.relevant_chunks == []


def test_format_helpers_empty() -> None:
    assert _facts_to_dicts([]) == []
    assert _stories_to_dicts([]) == []


def test_format_evidence_chunks_for_chat_prompt_reframes_and_labels() -> None:
    evidence = {
        "relevant_chunks": [
            {"id": "chunk-1", "content": "我小时候在河边长大，夏天常去玩水。"},
        ],
        "relevant_summaries": [],
        "relevant_facts": [],
        "relevant_stories": [],
    }
    text = format_evidence_chunks_for_chat_prompt(evidence)
    assert "聊天专用" in text
    assert "归因" in text
    assert "[M1]" in text
    assert "用户曾说" in text
    assert "我小时候在河边长大" in text


def test_slice_interview_memory_empty_bundle():
    from app.features.memory.chat_memory_injection import slice_interview_memory

    s = slice_interview_memory(None, "你好")
    assert s.prompt_excerpt == ""
    assert s.anchor_source == ""
    assert s.planner_preview == ""
    assert s.had_retrieval is False


def test_slice_interview_memory_retrieval_not_equal_inject_dismissive():
    """有检索预览但 gating 后不进主 prompt / anchor。"""
    from app.features.memory.chat_memory_injection import slice_interview_memory

    evidence = {
        "relevant_chunks": [
            {"id": "c1", "content": "很久以前在校园礼堂排练到很晚。"},
        ],
        "relevant_summaries": [],
        "relevant_facts": [],
        "relevant_stories": [],
    }
    s = slice_interview_memory(evidence, "哈哈，早就不会了")
    assert s.prompt_excerpt == ""
    assert s.anchor_source == ""
    assert s.planner_preview.strip() != ""
    assert s.had_retrieval is True


def test_slice_interview_memory_minimal_inject_when_aligned():
    from app.features.memory.chat_memory_injection import slice_interview_memory

    evidence = {
        "relevant_chunks": [
            {"id": "c1", "content": "你在校园演出里饰演罗密欧。"},
        ],
        "relevant_summaries": [],
        "relevant_facts": [],
        "relevant_stories": [],
    }
    s = slice_interview_memory(evidence, "那次排练其实挺紧张的，灯光一打我就忘词。")
    assert "记忆线索" in s.prompt_excerpt
    assert "校园演出" in s.prompt_excerpt or "罗密欧" in s.prompt_excerpt
    assert s.anchor_source
    assert s.had_retrieval is True


def test_slice_interview_memory_keeps_first_person_but_marks_ownership():
    from app.features.memory.chat_memory_injection import slice_interview_memory

    evidence = {
        "relevant_chunks": [
            {"id": "c1", "content": "我小时候在河边长大，夏天常去玩水。"},
        ],
        "relevant_summaries": [],
        "relevant_facts": [],
        "relevant_stories": [],
    }
    s = slice_interview_memory(evidence, "那条河一到夏天就特别热闹，我现在都记得。")
    assert "用户曾说" in s.prompt_excerpt
    assert "我小时候在河边长大" in s.prompt_excerpt
    assert s.anchor_source.startswith("用户曾说")


def test_slice_interview_memory_suppresses_long_new_topic():
    from app.features.memory.chat_memory_injection import slice_interview_memory

    evidence = {
        "relevant_chunks": [
            {"id": "c1", "content": "旧记忆关于河边。"},
        ],
        "relevant_summaries": [],
        "relevant_facts": [],
        "relevant_stories": [],
    }
    long_msg = "我今天想随便聊聊工作里的事，项目压力很大。" * 6
    assert len(long_msg) > 72
    s = slice_interview_memory(evidence, long_msg)
    assert s.prompt_excerpt == ""
    assert s.anchor_source == ""


async def test_retrieve_evidence_bundle_async_non_empty_merges_precomputed_chunks(
    monkeypatch: pytest.MonkeyPatch,
) -> None:
    """非空 query：异步路径以 merged_chunk_dicts 为主，元数据来自 fetch_evidence_metadata_async。"""
    meta = {
        "relevant_facts": [
            {
                "id": "f1",
                "fact_type": "bio",
                "subject": "s",
                "predicate": "p",
                "object_json": {},
            }
        ],
        "relevant_summaries": [
            {
                "id": "s1",
                "summary_type": "session",
                "content": "sum",
                "source_chunk_ids": [],
            }
        ],
        "relevant_stories": [],
    }

    async def fake_fetch_meta(db, user_id, q, top_k):
        assert user_id == "u1"
        assert q == "hello"
        assert top_k == 7
        return meta

    monkeypatch.setattr(evidence_mod, "fetch_evidence_metadata_async", fake_fetch_meta)
    merged = [{"id": "c1", "content": "chunk body", "chunk_index": 0}]
    out = await retrieve_evidence_bundle_async(
        object(),
        "u1",
        "  hello  ",
        top_k=7,
        merged_chunk_dicts=merged,
    )
    assert out == {"relevant_chunks": merged, **meta}


async def test_empty_query_evidence_bundle_async_returns_empty() -> None:
    out_a = await retrieve_evidence_bundle_async(
        object(),
        "u1",
        "   ",
        top_k=10,
        merged_chunk_dicts=[],
    )
    assert out_a == dict(EMPTY_EVIDENCE_BUNDLE)
-												feat(memory,conversation): 记忆富化/证据包、时间线幂等字段与对话分段全链路

数据库
- 新增迁移 0003：timeline_events.memory_source_id 外键 → memory_sources，便于按 ingest 源做时间线幂等

后端 - 记忆
- 新增 ingest 后 LLM 富化（摘要/事实/时间线），可配置开关与最大字符数
- 新增证据包组装：合并 chunk、摘要、事实、时间线、故事等检索结果；支持空 query 时是否仍带 rolling 等开关
- repo/retriever/service/router/schemas/summarizer/timeline/extractor 等扩展；文档 memory-retrieval.md 更新

后端 - 对话 WS
- 增加 PING/PONG；分段 ASR 日志与空音频处理；转写失败与「无助手回复」错误提示更明确
- 助手多段回复持久化使用统一分隔符，与分段逻辑一致

后端 - Agent
- reply_limits：按 [SPLIT] 与段落拆段，并保证非空 fallback，供 WS 与 TTS 多段下发

后端 - 回忆录任务
- transcript ingest 记录 source_id；任务成功结?

											
										
										
											2026-03-27 16:01:28 +08:00
+								"""Memory evidence 组装与检索契约（纯函数 / 无 DB）。"""
-												聊天和回忆录证据检索都走 pgvector，去掉 Postgres FTS/content_tsv，新迁移删掉 content_tsv 列（部署要先 alembic upgrade）。

Embedding 端口增加 is_available()，聊天和回忆录日志用统一方式表示向量是否真能调用。

记忆整理（compaction）支持 Beat 定期扫用户；

事实抽取提示与 subject 归一化，减少同一人多种称呼；

											
										
										
											2026-04-03 11:43:16 +08:00
+								import pytest
 								from app.features.memory import evidence as evidence_mod
-												feat(memory,conversation): 记忆富化/证据包、时间线幂等字段与对话分段全链路

数据库
- 新增迁移 0003：timeline_events.memory_source_id 外键 → memory_sources，便于按 ingest 源做时间线幂等

后端 - 记忆
- 新增 ingest 后 LLM 富化（摘要/事实/时间线），可配置开关与最大字符数
- 新增证据包组装：合并 chunk、摘要、事实、时间线、故事等检索结果；支持空 query 时是否仍带 rolling 等开关
- repo/retriever/service/router/schemas/summarizer/timeline/extractor 等扩展；文档 memory-retrieval.md 更新

后端 - 对话 WS
- 增加 PING/PONG；分段 ASR 日志与空音频处理；转写失败与「无助手回复」错误提示更明确
- 助手多段回复持久化使用统一分隔符，与分段逻辑一致

后端 - Agent
- reply_limits：按 [SPLIT] 与段落拆段，并保证非空 fallback，供 WS 与 TTS 多段下发

后端 - 回忆录任务
- transcript ingest 记录 source_id；任务成功结?

											
										
										
											2026-03-27 16:01:28 +08:00
+								from app.features.memory.evidence import (
 								    EMPTY_EVIDENCE_BUNDLE,
 								    _facts_to_dicts,
 								    _stories_to_dicts,
-												feat(api): 收敛对话与记忆流程边界，引入 LLM 网关与专用服务

- MemoryService 异步路径委托 MemoryIngestService / MemoryRetrievalService；富化派发经 MemoryEnrichmentScheduler
- WebSocket pipeline 经 ChatTurnService 与显式 DTO 编排单轮对话；回忆录片段入队由 MemoirIngestScheduler 封装
- 新增 LlmGateway（LlmUseCase），各 agent、任务与适配器对齐 ports
- 补充 memory 提示适配、runtime 类型、memory-retrieval 文档、ai-touchpoints 说明与扫描脚本及配套测试

Made-with: Cursor

											
										
										
											2026-04-30 09:17:01 +08:00
+								    retrieve_evidence_bundle_async,
-												feat(memory,conversation): 记忆富化/证据包、时间线幂等字段与对话分段全链路

数据库
- 新增迁移 0003：timeline_events.memory_source_id 外键 → memory_sources，便于按 ingest 源做时间线幂等

后端 - 记忆
- 新增 ingest 后 LLM 富化（摘要/事实/时间线），可配置开关与最大字符数
- 新增证据包组装：合并 chunk、摘要、事实、时间线、故事等检索结果；支持空 query 时是否仍带 rolling 等开关
- repo/retriever/service/router/schemas/summarizer/timeline/extractor 等扩展；文档 memory-retrieval.md 更新

后端 - 对话 WS
- 增加 PING/PONG；分段 ASR 日志与空音频处理；转写失败与「无助手回复」错误提示更明确
- 助手多段回复持久化使用统一分隔符，与分段逻辑一致

后端 - Agent
- reply_limits：按 [SPLIT] 与段落拆段，并保证非空 fallback，供 WS 与 TTS 多段下发

后端 - 回忆录任务
- transcript ingest 记录 source_id；任务成功结?

											
										
										
											2026-03-27 16:01:28 +08:00
+								)
-												feat(api)!: memory single chain — async MemoryService, strict eval closure

Route all memory ingest/retrieve/enrichment/compaction through async MemoryService.
Remove legacy sync memory implementations (ingest/retrieve/compaction); Celery and
memoir Phase2 call asyncio.run into MemoryService-backed helpers.

Memoir Phase1 batch ingest uses MemoryService.ingest_transcripts_batch; drop chapters.
evidence_bundle_json mirror (Alembic 0015). Evaluation uses snapshot/link-only bundles;
raise EvidenceClosureMissing instead of partial/fallback lineage tiers.

Split memoir state into NarrativeCoverageState and InterviewControlState; delete the
_interview_meta_store adapter layer. Remove rolling-query and recent-fact fallback
settings from config and evidence assembly.

Update judges, docs, tests, and PlaygroundPage alignment.

Made-with: Cursor

											
										
										
											2026-04-30 14:11:46 +08:00
+								from app.features.memory.evidence_format import format_evidence_chunks_for_chat_prompt
-												feat(memory,conversation): 记忆富化/证据包、时间线幂等字段与对话分段全链路

数据库
- 新增迁移 0003：timeline_events.memory_source_id 外键 → memory_sources，便于按 ingest 源做时间线幂等

后端 - 记忆
- 新增 ingest 后 LLM 富化（摘要/事实/时间线），可配置开关与最大字符数
- 新增证据包组装：合并 chunk、摘要、事实、时间线、故事等检索结果；支持空 query 时是否仍带 rolling 等开关
- repo/retriever/service/router/schemas/summarizer/timeline/extractor 等扩展；文档 memory-retrieval.md 更新

后端 - 对话 WS
- 增加 PING/PONG；分段 ASR 日志与空音频处理；转写失败与「无助手回复」错误提示更明确
- 助手多段回复持久化使用统一分隔符，与分段逻辑一致

后端 - Agent
- reply_limits：按 [SPLIT] 与段落拆段，并保证非空 fallback，供 WS 与 TTS 多段下发

后端 - 回忆录任务
- transcript ingest 记录 source_id；任务成功结?

											
										
										
											2026-03-27 16:01:28 +08:00
+								from app.features.memory.schemas import EvidenceBundle
 								def test_empty_evidence_bundle_keys() -> None:
 								    assert set(EMPTY_EVIDENCE_BUNDLE.keys()) == {
 								        "relevant_chunks",
 								        "relevant_summaries",
 								        "relevant_facts",
 								        "relevant_stories",
 								    }
 								def test_evidence_bundle_model_accepts_dict() -> None:
 								    b = EvidenceBundle.model_validate(EMPTY_EVIDENCE_BUNDLE)
 								    assert b.relevant_chunks == []
 								def test_format_helpers_empty() -> None:
 								    assert _facts_to_dicts([]) == []
 								    assert _stories_to_dicts([]) == []
-												WIP: memory system improvements (in progress)

Interview/chat prompt layers, reply planner, style profiles, memory
injection, interview meta store, and related tests. Work not finished.

Made-with: Cursor

											
										
										
											2026-04-22 16:56:28 +08:00
 								def test_format_evidence_chunks_for_chat_prompt_reframes_and_labels() -> None:
 								    evidence = {
 								        "relevant_chunks": [
 								            {"id": "chunk-1", "content": "我小时候在河边长大，夏天常去玩水。"},
 								        ],
 								        "relevant_summaries": [],
 								        "relevant_facts": [],
 								        "relevant_stories": [],
 								    }
 								    text = format_evidence_chunks_for_chat_prompt(evidence)
 								    assert "聊天专用" in text
 								    assert "归因" in text
 								    assert "[M1]" in text
 								    assert "用户曾说" in text
 								    assert "我小时候在河边长大" in text
 								def test_slice_interview_memory_empty_bundle():
 								    from app.features.memory.chat_memory_injection import slice_interview_memory
 								    s = slice_interview_memory(None, "你好")
 								    assert s.prompt_excerpt == ""
 								    assert s.anchor_source == ""
 								    assert s.planner_preview == ""
 								    assert s.had_retrieval is False
 								def test_slice_interview_memory_retrieval_not_equal_inject_dismissive():
 								    """有检索预览但 gating 后不进主 prompt / anchor。"""
 								    from app.features.memory.chat_memory_injection import slice_interview_memory
 								    evidence = {
 								        "relevant_chunks": [
 								            {"id": "c1", "content": "很久以前在校园礼堂排练到很晚。"},
 								        ],
 								        "relevant_summaries": [],
 								        "relevant_facts": [],
 								        "relevant_stories": [],
 								    }
 								    s = slice_interview_memory(evidence, "哈哈，早就不会了")
 								    assert s.prompt_excerpt == ""
 								    assert s.anchor_source == ""
 								    assert s.planner_preview.strip() != ""
 								    assert s.had_retrieval is True
 								def test_slice_interview_memory_minimal_inject_when_aligned():
 								    from app.features.memory.chat_memory_injection import slice_interview_memory
 								    evidence = {
 								        "relevant_chunks": [
 								            {"id": "c1", "content": "你在校园演出里饰演罗密欧。"},
 								        ],
 								        "relevant_summaries": [],
 								        "relevant_facts": [],
 								        "relevant_stories": [],
 								    }
 								    s = slice_interview_memory(evidence, "那次排练其实挺紧张的，灯光一打我就忘词。")
 								    assert "记忆线索" in s.prompt_excerpt
 								    assert "校园演出" in s.prompt_excerpt or "罗密欧" in s.prompt_excerpt
 								    assert s.anchor_source
 								    assert s.had_retrieval is True
 								def test_slice_interview_memory_keeps_first_person_but_marks_ownership():
 								    from app.features.memory.chat_memory_injection import slice_interview_memory
 								    evidence = {
 								        "relevant_chunks": [
 								            {"id": "c1", "content": "我小时候在河边长大，夏天常去玩水。"},
 								        ],
 								        "relevant_summaries": [],
 								        "relevant_facts": [],
 								        "relevant_stories": [],
 								    }
 								    s = slice_interview_memory(evidence, "那条河一到夏天就特别热闹，我现在都记得。")
 								    assert "用户曾说" in s.prompt_excerpt
 								    assert "我小时候在河边长大" in s.prompt_excerpt
 								    assert s.anchor_source.startswith("用户曾说")
 								def test_slice_interview_memory_suppresses_long_new_topic():
 								    from app.features.memory.chat_memory_injection import slice_interview_memory
 								    evidence = {
 								        "relevant_chunks": [
 								            {"id": "c1", "content": "旧记忆关于河边。"},
 								        ],
 								        "relevant_summaries": [],
 								        "relevant_facts": [],
 								        "relevant_stories": [],
 								    }
 								    long_msg = "我今天想随便聊聊工作里的事，项目压力很大。" * 6
 								    assert len(long_msg) > 72
 								    s = slice_interview_memory(evidence, long_msg)
 								    assert s.prompt_excerpt == ""
 								    assert s.anchor_source == ""
-												feat(api): 收敛对话与记忆流程边界，引入 LLM 网关与专用服务

- MemoryService 异步路径委托 MemoryIngestService / MemoryRetrievalService；富化派发经 MemoryEnrichmentScheduler
- WebSocket pipeline 经 ChatTurnService 与显式 DTO 编排单轮对话；回忆录片段入队由 MemoirIngestScheduler 封装
- 新增 LlmGateway（LlmUseCase），各 agent、任务与适配器对齐 ports
- 补充 memory 提示适配、runtime 类型、memory-retrieval 文档、ai-touchpoints 说明与扫描脚本及配套测试

Made-with: Cursor

											
										
										
											2026-04-30 09:17:01 +08:00
 								async def test_retrieve_evidence_bundle_async_non_empty_merges_precomputed_chunks(
 								    monkeypatch: pytest.MonkeyPatch,
 								) -> None:
 								    """非空 query：异步路径以 merged_chunk_dicts 为主，元数据来自 fetch_evidence_metadata_async。"""
 								    meta = {
 								        "relevant_facts": [
 								            {
 								                "id": "f1",
 								                "fact_type": "bio",
 								                "subject": "s",
 								                "predicate": "p",
 								                "object_json": {},
 								            }
 								        ],
 								        "relevant_summaries": [
 								            {
 								                "id": "s1",
 								                "summary_type": "session",
 								                "content": "sum",
 								                "source_chunk_ids": [],
 								            }
 								        ],
 								        "relevant_stories": [],
 								    }
 								    async def fake_fetch_meta(db, user_id, q, top_k):
 								        assert user_id == "u1"
 								        assert q == "hello"
 								        assert top_k == 7
 								        return meta
 								    monkeypatch.setattr(evidence_mod, "fetch_evidence_metadata_async", fake_fetch_meta)
 								    merged = [{"id": "c1", "content": "chunk body", "chunk_index": 0}]
 								    out = await retrieve_evidence_bundle_async(
 								        object(),
 								        "u1",
 								        "  hello  ",
 								        top_k=7,
 								        merged_chunk_dicts=merged,
 								    )
 								    assert out == {"relevant_chunks": merged, **meta}
-												feat(api)!: memory single chain — async MemoryService, strict eval closure

Route all memory ingest/retrieve/enrichment/compaction through async MemoryService.
Remove legacy sync memory implementations (ingest/retrieve/compaction); Celery and
memoir Phase2 call asyncio.run into MemoryService-backed helpers.

Memoir Phase1 batch ingest uses MemoryService.ingest_transcripts_batch; drop chapters.
evidence_bundle_json mirror (Alembic 0015). Evaluation uses snapshot/link-only bundles;
raise EvidenceClosureMissing instead of partial/fallback lineage tiers.

Split memoir state into NarrativeCoverageState and InterviewControlState; delete the
_interview_meta_store adapter layer. Remove rolling-query and recent-fact fallback
settings from config and evidence assembly.

Update judges, docs, tests, and PlaygroundPage alignment.

Made-with: Cursor

											
										
										
											2026-04-30 14:11:46 +08:00
+								async def test_empty_query_evidence_bundle_async_returns_empty() -> None:
-												feat(api): 收敛对话与记忆流程边界，引入 LLM 网关与专用服务

- MemoryService 异步路径委托 MemoryIngestService / MemoryRetrievalService；富化派发经 MemoryEnrichmentScheduler
- WebSocket pipeline 经 ChatTurnService 与显式 DTO 编排单轮对话；回忆录片段入队由 MemoirIngestScheduler 封装
- 新增 LlmGateway（LlmUseCase），各 agent、任务与适配器对齐 ports
- 补充 memory 提示适配、runtime 类型、memory-retrieval 文档、ai-touchpoints 说明与扫描脚本及配套测试

Made-with: Cursor

											
										
										
											2026-04-30 09:17:01 +08:00
+								    out_a = await retrieve_evidence_bundle_async(
 								        object(),
 								        "u1",
 								        "   ",
 								        top_k=10,
 								        merged_chunk_dicts=[],
 								    )
 								    assert out_a == dict(EMPTY_EVIDENCE_BUNDLE)