api/app/features/memory/evidence.py

"""
证据包组装：跨 memory + story 的检索结果合并（业务层，非纯 repo）。

Memory evidence 只保留 async 单链路：chunk 原文为首要证据，结构化事实/
摘要/故事均按本次 query 命中进入 evidence，不再做 rolling/recent 历史降级。
"""

from __future__ import annotations

from sqlalchemy.ext.asyncio import AsyncSession

from app.features.memory.repo import (
    list_summaries_for_evidence_async,
    search_facts_for_user_async,
)
from app.features.story.repo import list_recent_stories_for_evidence

EMPTY_EVIDENCE_BUNDLE: dict = {
    "relevant_chunks": [],
    "relevant_summaries": [],
    "relevant_facts": [],
    "relevant_stories": [],
}


def _facts_to_dicts(facts) -> list[dict]:
    return [
        {
            "id": f.id,
            "fact_type": f.fact_type,
            "subject": f.subject,
            "predicate": f.predicate,
            "object_json": f.object_json,
        }
        for f in facts
    ]


def _stories_to_dicts(story_rows) -> list[dict]:
    return [
        {
            "id": s.id,
            "title": s.title,
            "summary": s.summary,
            "stage": s.stage,
            "story_type": s.story_type,
        }
        for s in story_rows
    ]


async def fetch_evidence_metadata_async(
    db: AsyncSession, user_id: str, q: str, top_k: int
) -> dict:
    """非 chunk 证据（async）。"""
    facts = await search_facts_for_user_async(db, user_id, q, top_k)
    relevant_summaries = await list_summaries_for_evidence_async(
        db, user_id=user_id, q=q, limit=top_k
    )
    story_rows = await list_recent_stories_for_evidence(
        db, user_id=user_id, query=q, limit=top_k
    )
    return {
        "relevant_facts": _facts_to_dicts(facts),
        "relevant_summaries": relevant_summaries,
        "relevant_stories": _stories_to_dicts(story_rows),
    }


async def retrieve_evidence_bundle_async(
    db: AsyncSession,
    user_id: str,
    query: str,
    *,
    top_k: int = 10,
    merged_chunk_dicts: list[dict],
) -> dict:
    """
    异步路径：chunk 已由调用方（如 HybridRetriever）向量检索填入；此处只拼元数据。

    merged_chunk_dicts: [{"id","content","chunk_index"}, ...]
    """
    if not query or not query.strip():
        return dict(EMPTY_EVIDENCE_BUNDLE)
    q = query.strip()
    meta = await fetch_evidence_metadata_async(db, user_id, q, top_k)
    return {
        "relevant_chunks": merged_chunk_dicts,
        **meta,
    }
-												feat(memory,conversation): 记忆富化/证据包、时间线幂等字段与对话分段全链路

数据库
- 新增迁移 0003：timeline_events.memory_source_id 外键 → memory_sources，便于按 ingest 源做时间线幂等

后端 - 记忆
- 新增 ingest 后 LLM 富化（摘要/事实/时间线），可配置开关与最大字符数
- 新增证据包组装：合并 chunk、摘要、事实、时间线、故事等检索结果；支持空 query 时是否仍带 rolling 等开关
- repo/retriever/service/router/schemas/summarizer/timeline/extractor 等扩展；文档 memory-retrieval.md 更新

后端 - 对话 WS
- 增加 PING/PONG；分段 ASR 日志与空音频处理；转写失败与「无助手回复」错误提示更明确
- 助手多段回复持久化使用统一分隔符，与分段逻辑一致

后端 - Agent
- reply_limits：按 [SPLIT] 与段落拆段，并保证非空 fallback，供 WS 与 TTS 多段下发

后端 - 回忆录任务
- transcript ingest 记录 source_id；任务成功结?

											
										
										
											2026-03-27 16:01:28 +08:00
+								"""
 								证据包组装：跨 memory + story 的检索结果合并（业务层，非纯 repo）。
-												Simplify AI memory pipeline

											
										
										
											2026-04-30 16:22:55 +08:00
+								Memory evidence 只保留 async 单链路：chunk 原文为首要证据，结构化事实/
-												feat(api)!: memory single chain — async MemoryService, strict eval closure

Route all memory ingest/retrieve/enrichment/compaction through async MemoryService.
Remove legacy sync memory implementations (ingest/retrieve/compaction); Celery and
memoir Phase2 call asyncio.run into MemoryService-backed helpers.

Memoir Phase1 batch ingest uses MemoryService.ingest_transcripts_batch; drop chapters.
evidence_bundle_json mirror (Alembic 0015). Evaluation uses snapshot/link-only bundles;
raise EvidenceClosureMissing instead of partial/fallback lineage tiers.

Split memoir state into NarrativeCoverageState and InterviewControlState; delete the
_interview_meta_store adapter layer. Remove rolling-query and recent-fact fallback
settings from config and evidence assembly.

Update judges, docs, tests, and PlaygroundPage alignment.

Made-with: Cursor

											
										
										
											2026-04-30 14:11:46 +08:00
+								摘要/故事均按本次 query 命中进入 evidence，不再做 rolling/recent 历史降级。
-												feat(memory,conversation): 记忆富化/证据包、时间线幂等字段与对话分段全链路

数据库
- 新增迁移 0003：timeline_events.memory_source_id 外键 → memory_sources，便于按 ingest 源做时间线幂等

后端 - 记忆
- 新增 ingest 后 LLM 富化（摘要/事实/时间线），可配置开关与最大字符数
- 新增证据包组装：合并 chunk、摘要、事实、时间线、故事等检索结果；支持空 query 时是否仍带 rolling 等开关
- repo/retriever/service/router/schemas/summarizer/timeline/extractor 等扩展；文档 memory-retrieval.md 更新

后端 - 对话 WS
- 增加 PING/PONG；分段 ASR 日志与空音频处理；转写失败与「无助手回复」错误提示更明确
- 助手多段回复持久化使用统一分隔符，与分段逻辑一致

后端 - Agent
- reply_limits：按 [SPLIT] 与段落拆段，并保证非空 fallback，供 WS 与 TTS 多段下发

后端 - 回忆录任务
- transcript ingest 记录 source_id；任务成功结?

											
										
										
											2026-03-27 16:01:28 +08:00
+								"""
 								from __future__ import annotations
 								from sqlalchemy.ext.asyncio import AsyncSession
 								from app.features.memory.repo import (
 								    list_summaries_for_evidence_async,
 								    search_facts_for_user_async,
 								)
-												feat(api)!: memory single chain — async MemoryService, strict eval closure

Route all memory ingest/retrieve/enrichment/compaction through async MemoryService.
Remove legacy sync memory implementations (ingest/retrieve/compaction); Celery and
memoir Phase2 call asyncio.run into MemoryService-backed helpers.

Memoir Phase1 batch ingest uses MemoryService.ingest_transcripts_batch; drop chapters.
evidence_bundle_json mirror (Alembic 0015). Evaluation uses snapshot/link-only bundles;
raise EvidenceClosureMissing instead of partial/fallback lineage tiers.

Split memoir state into NarrativeCoverageState and InterviewControlState; delete the
_interview_meta_store adapter layer. Remove rolling-query and recent-fact fallback
settings from config and evidence assembly.

Update judges, docs, tests, and PlaygroundPage alignment.

Made-with: Cursor

											
										
										
											2026-04-30 14:11:46 +08:00
+								from app.features.story.repo import list_recent_stories_for_evidence
-												聊天和回忆录证据检索都走 pgvector，去掉 Postgres FTS/content_tsv，新迁移删掉 content_tsv 列（部署要先 alembic upgrade）。

Embedding 端口增加 is_available()，聊天和回忆录日志用统一方式表示向量是否真能调用。

记忆整理（compaction）支持 Beat 定期扫用户；

事实抽取提示与 subject 归一化，减少同一人多种称呼；

											
										
										
											2026-04-03 11:43:16 +08:00
-												feat(memory,conversation): 记忆富化/证据包、时间线幂等字段与对话分段全链路

数据库
- 新增迁移 0003：timeline_events.memory_source_id 外键 → memory_sources，便于按 ingest 源做时间线幂等

后端 - 记忆
- 新增 ingest 后 LLM 富化（摘要/事实/时间线），可配置开关与最大字符数
- 新增证据包组装：合并 chunk、摘要、事实、时间线、故事等检索结果；支持空 query 时是否仍带 rolling 等开关
- repo/retriever/service/router/schemas/summarizer/timeline/extractor 等扩展；文档 memory-retrieval.md 更新

后端 - 对话 WS
- 增加 PING/PONG；分段 ASR 日志与空音频处理；转写失败与「无助手回复」错误提示更明确
- 助手多段回复持久化使用统一分隔符，与分段逻辑一致

后端 - Agent
- reply_limits：按 [SPLIT] 与段落拆段，并保证非空 fallback，供 WS 与 TTS 多段下发

后端 - 回忆录任务
- transcript ingest 记录 source_id；任务成功结?

											
										
										
											2026-03-27 16:01:28 +08:00
+								EMPTY_EVIDENCE_BUNDLE: dict = {
 								    "relevant_chunks": [],
 								    "relevant_summaries": [],
 								    "relevant_facts": [],
 								    "relevant_stories": [],
 								}
 								def _facts_to_dicts(facts) -> list[dict]:
 								    return [
 								        {
 								            "id": f.id,
 								            "fact_type": f.fact_type,
 								            "subject": f.subject,
 								            "predicate": f.predicate,
 								            "object_json": f.object_json,
 								        }
 								        for f in facts
 								    ]
 								def _stories_to_dicts(story_rows) -> list[dict]:
 								    return [
 								        {
 								            "id": s.id,
 								            "title": s.title,
 								            "summary": s.summary,
 								            "stage": s.stage,
 								            "story_type": s.story_type,
 								        }
 								        for s in story_rows
 								    ]
 								async def fetch_evidence_metadata_async(
 								    db: AsyncSession, user_id: str, q: str, top_k: int
 								) -> dict:
 								    """非 chunk 证据（async）。"""
 								    facts = await search_facts_for_user_async(db, user_id, q, top_k)
 								    relevant_summaries = await list_summaries_for_evidence_async(
 								        db, user_id=user_id, q=q, limit=top_k
 								    )
 								    story_rows = await list_recent_stories_for_evidence(
 								        db, user_id=user_id, query=q, limit=top_k
 								    )
 								    return {
 								        "relevant_facts": _facts_to_dicts(facts),
 								        "relevant_summaries": relevant_summaries,
 								        "relevant_stories": _stories_to_dicts(story_rows),
 								    }
 								async def retrieve_evidence_bundle_async(
 								    db: AsyncSession,
 								    user_id: str,
 								    query: str,
 								    *,
 								    top_k: int = 10,
 								    merged_chunk_dicts: list[dict],
 								) -> dict:
 								    """
-												聊天和回忆录证据检索都走 pgvector，去掉 Postgres FTS/content_tsv，新迁移删掉 content_tsv 列（部署要先 alembic upgrade）。

Embedding 端口增加 is_available()，聊天和回忆录日志用统一方式表示向量是否真能调用。

记忆整理（compaction）支持 Beat 定期扫用户；

事实抽取提示与 subject 归一化，减少同一人多种称呼；

											
										
										
											2026-04-03 11:43:16 +08:00
+								    异步路径：chunk 已由调用方（如 HybridRetriever）向量检索填入；此处只拼元数据。
-												feat(memory,conversation): 记忆富化/证据包、时间线幂等字段与对话分段全链路

数据库
- 新增迁移 0003：timeline_events.memory_source_id 外键 → memory_sources，便于按 ingest 源做时间线幂等

后端 - 记忆
- 新增 ingest 后 LLM 富化（摘要/事实/时间线），可配置开关与最大字符数
- 新增证据包组装：合并 chunk、摘要、事实、时间线、故事等检索结果；支持空 query 时是否仍带 rolling 等开关
- repo/retriever/service/router/schemas/summarizer/timeline/extractor 等扩展；文档 memory-retrieval.md 更新

后端 - 对话 WS
- 增加 PING/PONG；分段 ASR 日志与空音频处理；转写失败与「无助手回复」错误提示更明确
- 助手多段回复持久化使用统一分隔符，与分段逻辑一致

后端 - Agent
- reply_limits：按 [SPLIT] 与段落拆段，并保证非空 fallback，供 WS 与 TTS 多段下发

后端 - 回忆录任务
- transcript ingest 记录 source_id；任务成功结?

											
										
										
											2026-03-27 16:01:28 +08:00
 								    merged_chunk_dicts: [{"id","content","chunk_index"}, ...]
 								    """
 								    if not query or not query.strip():
 								        return dict(EMPTY_EVIDENCE_BUNDLE)
 								    q = query.strip()
 								    meta = await fetch_evidence_metadata_async(db, user_id, q, top_k)
 								    return {
 								        "relevant_chunks": merged_chunk_dicts,
 								        **meta,
 								    }