api/app/features/memory/evidence.py

"""
证据包组装：跨 memory + story 的检索结果合并（业务层，非纯 repo）。

权威层级（可靠性 hardening）：
- **Chunk 原文**（未 excluded）为首要证据；rolling 摘要/故事摘录为便利视图，不得压过冲突的 chunk。
- **MemoryFact**：`confirmed` 为检索默认集；`candidate` 可被上游提升；`stale` 由 compaction 等标出，检索时应排除。
- 事实 ILIKE 无命中时是否退回「最近事实」由 `memory_fact_search_use_recent_fallback` 控制（默认可避免串台）。

Celery 使用 sync + 向量 chunks；`HybridRetriever` 使用 async + 向量 chunks。
"""

from __future__ import annotations

from concurrent.futures import ThreadPoolExecutor
from typing import TYPE_CHECKING

from sqlalchemy.ext.asyncio import AsyncSession
from sqlalchemy.orm import Session

from app.core.config import settings
from app.core.db import get_sync_db
from app.core.logging import get_logger
from app.features.memory.repo import (
    list_summaries_for_evidence_async,
    list_summaries_for_evidence_sync,
    search_chunks_vector_sync,
    search_facts_for_user_async,
    search_facts_for_user_sync,
    search_timeline_events_for_user_async,
    search_timeline_events_for_user_sync,
)
from app.features.story.repo import (
    list_recent_stories_for_evidence,
    list_recent_stories_for_evidence_sync,
)

if TYPE_CHECKING:
    from app.ports.embedding import EmbeddingProvider

logger = get_logger(__name__)

EMPTY_EVIDENCE_BUNDLE: dict = {
    "relevant_chunks": [],
    "relevant_summaries": [],
    "relevant_facts": [],
    "timeline_hints": [],
    "relevant_stories": [],
}


def _facts_to_dicts(facts) -> list[dict]:
    return [
        {
            "id": f.id,
            "fact_type": f.fact_type,
            "subject": f.subject,
            "predicate": f.predicate,
            "object_json": f.object_json,
        }
        for f in facts
    ]


def _timeline_to_dicts(events) -> list[dict]:
    return [
        {
            "id": e.id,
            "event_year": e.event_year,
            "event_date": e.event_date,
            "title": e.title,
            "description": e.description,
        }
        for e in events
    ]


def _stories_to_dicts(story_rows) -> list[dict]:
    return [
        {
            "id": s.id,
            "title": s.title,
            "summary": s.summary,
            "stage": s.stage,
            "story_type": s.story_type,
        }
        for s in story_rows
    ]


def fetch_evidence_metadata_sync(
    session: Session, user_id: str, q: str, top_k: int
) -> dict:
    """非 chunk 证据：摘要、事实、时间线、故事（sync）。保留 session 入参供单连接路径使用。"""
    facts = search_facts_for_user_sync(session, user_id, q, top_k)
    events = search_timeline_events_for_user_sync(session, user_id, q, top_k)
    relevant_summaries = list_summaries_for_evidence_sync(
        session, user_id=user_id, q=q, limit=top_k
    )
    story_rows = list_recent_stories_for_evidence_sync(
        session, user_id, query=q, limit=top_k
    )
    return {
        "relevant_facts": _facts_to_dicts(facts),
        "timeline_hints": _timeline_to_dicts(events),
        "relevant_summaries": relevant_summaries,
        "relevant_stories": _stories_to_dicts(story_rows),
    }


def fetch_evidence_metadata_parallel_sync(user_id: str, q: str, top_k: int) -> dict:
    """
    与 fetch_evidence_metadata_sync 等价语义；四路查询各用独立 sync Session 并行，降低总 RTT。
    """

    def _facts():
        with get_sync_db() as session:
            return search_facts_for_user_sync(session, user_id, q, top_k)

    def _events():
        with get_sync_db() as session:
            return search_timeline_events_for_user_sync(session, user_id, q, top_k)

    def _summaries():
        with get_sync_db() as session:
            return list_summaries_for_evidence_sync(
                session, user_id=user_id, q=q, limit=top_k
            )

    def _stories():
        with get_sync_db() as session:
            return list_recent_stories_for_evidence_sync(
                session, user_id, query=q, limit=top_k
            )

    with ThreadPoolExecutor(max_workers=4) as pool:
        f_facts = pool.submit(_facts)
        f_events = pool.submit(_events)
        f_summaries = pool.submit(_summaries)
        f_stories = pool.submit(_stories)
        facts = f_facts.result()
        events = f_events.result()
        relevant_summaries = f_summaries.result()
        story_rows = f_stories.result()

    return {
        "relevant_facts": _facts_to_dicts(facts),
        "timeline_hints": _timeline_to_dicts(events),
        "relevant_summaries": relevant_summaries,
        "relevant_stories": _stories_to_dicts(story_rows),
    }


async def fetch_evidence_metadata_async(
    db: AsyncSession, user_id: str, q: str, top_k: int
) -> dict:
    """非 chunk 证据（async）。"""
    facts = await search_facts_for_user_async(db, user_id, q, top_k)
    events = await search_timeline_events_for_user_async(db, user_id, q, top_k)
    relevant_summaries = await list_summaries_for_evidence_async(
        db, user_id=user_id, q=q, limit=top_k
    )
    story_rows = await list_recent_stories_for_evidence(
        db, user_id=user_id, query=q, limit=top_k
    )
    return {
        "relevant_facts": _facts_to_dicts(facts),
        "timeline_hints": _timeline_to_dicts(events),
        "relevant_summaries": relevant_summaries,
        "relevant_stories": _stories_to_dicts(story_rows),
    }


def _empty_query_bundle_sync(session: Session, user_id: str, top_k: int) -> dict:
    """空 query 时的「浏览」降级：rolling 摘要 + 事实/时间线 fallback。"""
    from sqlalchemy import select

    from app.features.memory.models import MemorySummary
    from app.features.memory.repo import (
        get_facts_for_user_sync,
        get_timeline_events_for_user_sync,
    )

    rolling = (
        session.execute(
            select(MemorySummary)
            .where(
                MemorySummary.user_id == user_id,
                MemorySummary.summary_type == "rolling",
            )
            .order_by(MemorySummary.updated_at.desc())
            .limit(1)
        )
        .unique()
        .scalar_one_or_none()
    )
    summaries = []
    if rolling:
        summaries = [
            {
                "id": rolling.id,
                "summary_type": rolling.summary_type,
                "content": rolling.content,
                "source_chunk_ids": rolling.source_chunk_ids,
            }
        ]
    facts = get_facts_for_user_sync(session, user_id, top_k)
    events = get_timeline_events_for_user_sync(session, user_id, top_k)
    return {
        "relevant_chunks": [],
        "relevant_summaries": summaries,
        "relevant_facts": _facts_to_dicts(facts),
        "timeline_hints": _timeline_to_dicts(events),
        "relevant_stories": [],
    }


async def _empty_query_bundle_async(db: AsyncSession, user_id: str, top_k: int) -> dict:
    from sqlalchemy import select

    from app.features.memory.models import MemorySummary
    from app.features.memory.repo import (
        get_facts_for_user,
        get_timeline_events_for_user,
    )

    roll_stmt = (
        select(MemorySummary)
        .where(
            MemorySummary.user_id == user_id,
            MemorySummary.summary_type == "rolling",
        )
        .order_by(MemorySummary.updated_at.desc())
        .limit(1)
    )
    r_result = await db.execute(roll_stmt)
    rolling = r_result.unique().scalar_one_or_none()
    summaries = []
    if rolling:
        summaries = [
            {
                "id": rolling.id,
                "summary_type": rolling.summary_type,
                "content": rolling.content,
                "source_chunk_ids": rolling.source_chunk_ids,
            }
        ]
    facts = await get_facts_for_user(db, user_id=user_id, limit=top_k)
    events = await get_timeline_events_for_user(db, user_id=user_id, limit=top_k)
    return {
        "relevant_chunks": [],
        "relevant_summaries": summaries,
        "relevant_facts": _facts_to_dicts(facts),
        "timeline_hints": _timeline_to_dicts(events),
        "relevant_stories": [],
    }


def retrieve_evidence_bundle_sync(
    session: Session,
    user_id: str,
    query: str,
    *,
    top_k: int = 10,
    embedding_provider: "EmbeddingProvider | None" = None,
) -> dict:
    """Celery / 叙事流水线：向量 chunks + 元数据（需 embedding_provider）。"""
    if not query or not query.strip():
        if settings.memory_evidence_empty_query_include_rolling:
            return _empty_query_bundle_sync(session, user_id, top_k)
        return dict(EMPTY_EVIDENCE_BUNDLE)
    q = query.strip()
    relevant_chunks: list[dict] = []
    if embedding_provider is not None:
        try:
            q_emb = embedding_provider.embed_text_sync(q)
        except Exception as exc:
            logger.warning(
                "retrieve_evidence_bundle_sync embed failed user_id={} err={}",
                user_id,
                exc,
            )
            q_emb = []
        if q_emb:
            chunk_rows = search_chunks_vector_sync(session, user_id, q_emb, top_k)
            relevant_chunks = [
                {
                    "id": r["id"],
                    "content": r["content"],
                    "chunk_index": r["chunk_index"],
                }
                for r in chunk_rows
            ]
        else:
            logger.warning(
                "retrieve_evidence_bundle_sync empty_query_embedding user_id={}",
                user_id,
            )
    else:
        logger.warning(
            "retrieve_evidence_bundle_sync no_embedding_provider user_id={}",
            user_id,
        )
    meta = fetch_evidence_metadata_parallel_sync(user_id, q, top_k)
    return {
        "relevant_chunks": relevant_chunks,
        **meta,
    }


async def retrieve_evidence_bundle_async(
    db: AsyncSession,
    user_id: str,
    query: str,
    *,
    top_k: int = 10,
    merged_chunk_dicts: list[dict],
) -> dict:
    """
    异步路径：chunk 已由调用方（如 HybridRetriever）向量检索填入；此处只拼元数据。

    merged_chunk_dicts: [{"id","content","chunk_index"}, ...]
    """
    if not query or not query.strip():
        if settings.memory_evidence_empty_query_include_rolling:
            return await _empty_query_bundle_async(db, user_id, top_k)
        return dict(EMPTY_EVIDENCE_BUNDLE)
    q = query.strip()
    meta = await fetch_evidence_metadata_async(db, user_id, q, top_k)
    return {
        "relevant_chunks": merged_chunk_dicts,
        **meta,
    }
-												feat(memory,conversation): 记忆富化/证据包、时间线幂等字段与对话分段全链路

数据库
- 新增迁移 0003：timeline_events.memory_source_id 外键 → memory_sources，便于按 ingest 源做时间线幂等

后端 - 记忆
- 新增 ingest 后 LLM 富化（摘要/事实/时间线），可配置开关与最大字符数
- 新增证据包组装：合并 chunk、摘要、事实、时间线、故事等检索结果；支持空 query 时是否仍带 rolling 等开关
- repo/retriever/service/router/schemas/summarizer/timeline/extractor 等扩展；文档 memory-retrieval.md 更新

后端 - 对话 WS
- 增加 PING/PONG；分段 ASR 日志与空音频处理；转写失败与「无助手回复」错误提示更明确
- 助手多段回复持久化使用统一分隔符，与分段逻辑一致

后端 - Agent
- reply_limits：按 [SPLIT] 与段落拆段，并保证非空 fallback，供 WS 与 TTS 多段下发

后端 - 回忆录任务
- transcript ingest 记录 source_id；任务成功结?

											
										
										
											2026-03-27 16:01:28 +08:00
+								"""
 								证据包组装：跨 memory + story 的检索结果合并（业务层，非纯 repo）。
-												feat(api): 访谈路径轻量门控、Memoir Phase1 批处理与叙事/记忆管线加固

- 新增 utterance_substance：短时/应答/元话语可跳过记忆检索、阶段 LLM 与资料抽取 LLM；可配置
- 输入归一化：LLM 模式默认仅语音/ASR；配置项写入 .env.example
- Memoir Phase1：可选 batch LLM 一次性抽取+分类（失败回退逐段）；Extraction 空槽位时阶段与 current_stage 对齐，prompt 约束收紧
- 叙事与忠实度：narrative_safety、证据重叠/场合锚点、标题 slots 与履历短语 grounded；fidelity 解析失败 fail-open 可配置
- 章节管线：锁 TTL 上调、锁竞争 Celery 重试、Phase2 immediate singleflight 等；story_pipeline_sync / chapter_compose / memoir_tasks 联动
- Memory：compaction / repo / summarizer / evidence 小修；事实 FTS 未命中是否回退最近事实可配置
- 新增 memoir_pipeline_trace；补充 memoir_reliability 文档与多项回归/门控测试

											
										
										
											2026-04-03 10:12:59 +08:00
+								权威层级（可靠性 hardening）：
 								- **Chunk 原文**（未 excluded）为首要证据；rolling 摘要/故事摘录为便利视图，不得压过冲突的 chunk。
 								- **MemoryFact**：`confirmed` 为检索默认集；`candidate` 可被上游提升；`stale` 由 compaction 等标出，检索时应排除。
-												聊天和回忆录证据检索都走 pgvector，去掉 Postgres FTS/content_tsv，新迁移删掉 content_tsv 列（部署要先 alembic upgrade）。

Embedding 端口增加 is_available()，聊天和回忆录日志用统一方式表示向量是否真能调用。

记忆整理（compaction）支持 Beat 定期扫用户；

事实抽取提示与 subject 归一化，减少同一人多种称呼；

											
										
										
											2026-04-03 11:43:16 +08:00
+								- 事实 ILIKE 无命中时是否退回「最近事实」由 `memory_fact_search_use_recent_fallback` 控制（默认可避免串台）。
-												feat(api): 访谈路径轻量门控、Memoir Phase1 批处理与叙事/记忆管线加固

- 新增 utterance_substance：短时/应答/元话语可跳过记忆检索、阶段 LLM 与资料抽取 LLM；可配置
- 输入归一化：LLM 模式默认仅语音/ASR；配置项写入 .env.example
- Memoir Phase1：可选 batch LLM 一次性抽取+分类（失败回退逐段）；Extraction 空槽位时阶段与 current_stage 对齐，prompt 约束收紧
- 叙事与忠实度：narrative_safety、证据重叠/场合锚点、标题 slots 与履历短语 grounded；fidelity 解析失败 fail-open 可配置
- 章节管线：锁 TTL 上调、锁竞争 Celery 重试、Phase2 immediate singleflight 等；story_pipeline_sync / chapter_compose / memoir_tasks 联动
- Memory：compaction / repo / summarizer / evidence 小修；事实 FTS 未命中是否回退最近事实可配置
- 新增 memoir_pipeline_trace；补充 memoir_reliability 文档与多项回归/门控测试

											
										
										
											2026-04-03 10:12:59 +08:00
-												聊天和回忆录证据检索都走 pgvector，去掉 Postgres FTS/content_tsv，新迁移删掉 content_tsv 列（部署要先 alembic upgrade）。

Embedding 端口增加 is_available()，聊天和回忆录日志用统一方式表示向量是否真能调用。

记忆整理（compaction）支持 Beat 定期扫用户；

事实抽取提示与 subject 归一化，减少同一人多种称呼；

											
										
										
											2026-04-03 11:43:16 +08:00
+								Celery 使用 sync + 向量 chunks；`HybridRetriever` 使用 async + 向量 chunks。
-												feat(memory,conversation): 记忆富化/证据包、时间线幂等字段与对话分段全链路

数据库
- 新增迁移 0003：timeline_events.memory_source_id 外键 → memory_sources，便于按 ingest 源做时间线幂等

后端 - 记忆
- 新增 ingest 后 LLM 富化（摘要/事实/时间线），可配置开关与最大字符数
- 新增证据包组装：合并 chunk、摘要、事实、时间线、故事等检索结果；支持空 query 时是否仍带 rolling 等开关
- repo/retriever/service/router/schemas/summarizer/timeline/extractor 等扩展；文档 memory-retrieval.md 更新

后端 - 对话 WS
- 增加 PING/PONG；分段 ASR 日志与空音频处理；转写失败与「无助手回复」错误提示更明确
- 助手多段回复持久化使用统一分隔符，与分段逻辑一致

后端 - Agent
- reply_limits：按 [SPLIT] 与段落拆段，并保证非空 fallback，供 WS 与 TTS 多段下发

后端 - 回忆录任务
- transcript ingest 记录 source_id；任务成功结?

											
										
										
											2026-03-27 16:01:28 +08:00
+								"""
 								from __future__ import annotations
-												feat(eval): memoir A/B chapter judging and eval-web parity with dialogue

- Judge baseline excerpt and library chapter separately; build_memoir_compare_summary for gate, nine-dim and leaf deltas.

- Memoir SSE chapter payload: baseline_judge, compare_summary, baseline_judge_error.

- MemoirJudgeOutput: loose score coercion and post-validate clamp; memoir judge prompt caps from settings.

- app-eval-web: two-column MemoirScoreCard layout, MemoirCompareSummary, chapter blocks and CSS.

- Add memoir_compare_summary, log_events, celery_log_context, memoir_pipeline_progress; tests and migration 0014.

- Misc: memory/evidence and enrichment paths, task/orchestrator updates, internal-eval docs, env examples.

											
										
										
											2026-04-10 10:23:43 +08:00
+								from concurrent.futures import ThreadPoolExecutor
-												聊天和回忆录证据检索都走 pgvector，去掉 Postgres FTS/content_tsv，新迁移删掉 content_tsv 列（部署要先 alembic upgrade）。

Embedding 端口增加 is_available()，聊天和回忆录日志用统一方式表示向量是否真能调用。

记忆整理（compaction）支持 Beat 定期扫用户；

事实抽取提示与 subject 归一化，减少同一人多种称呼；

											
										
										
											2026-04-03 11:43:16 +08:00
+								from typing import TYPE_CHECKING
-												feat(memory,conversation): 记忆富化/证据包、时间线幂等字段与对话分段全链路

数据库
- 新增迁移 0003：timeline_events.memory_source_id 外键 → memory_sources，便于按 ingest 源做时间线幂等

后端 - 记忆
- 新增 ingest 后 LLM 富化（摘要/事实/时间线），可配置开关与最大字符数
- 新增证据包组装：合并 chunk、摘要、事实、时间线、故事等检索结果；支持空 query 时是否仍带 rolling 等开关
- repo/retriever/service/router/schemas/summarizer/timeline/extractor 等扩展；文档 memory-retrieval.md 更新

后端 - 对话 WS
- 增加 PING/PONG；分段 ASR 日志与空音频处理；转写失败与「无助手回复」错误提示更明确
- 助手多段回复持久化使用统一分隔符，与分段逻辑一致

后端 - Agent
- reply_limits：按 [SPLIT] 与段落拆段，并保证非空 fallback，供 WS 与 TTS 多段下发

后端 - 回忆录任务
- transcript ingest 记录 source_id；任务成功结?

											
										
										
											2026-03-27 16:01:28 +08:00
+								from sqlalchemy.ext.asyncio import AsyncSession
 								from sqlalchemy.orm import Session
 								from app.core.config import settings
-												feat(eval): memoir A/B chapter judging and eval-web parity with dialogue

- Judge baseline excerpt and library chapter separately; build_memoir_compare_summary for gate, nine-dim and leaf deltas.

- Memoir SSE chapter payload: baseline_judge, compare_summary, baseline_judge_error.

- MemoirJudgeOutput: loose score coercion and post-validate clamp; memoir judge prompt caps from settings.

- app-eval-web: two-column MemoirScoreCard layout, MemoirCompareSummary, chapter blocks and CSS.

- Add memoir_compare_summary, log_events, celery_log_context, memoir_pipeline_progress; tests and migration 0014.

- Misc: memory/evidence and enrichment paths, task/orchestrator updates, internal-eval docs, env examples.

											
										
										
											2026-04-10 10:23:43 +08:00
+								from app.core.db import get_sync_db
-												聊天和回忆录证据检索都走 pgvector，去掉 Postgres FTS/content_tsv，新迁移删掉 content_tsv 列（部署要先 alembic upgrade）。

Embedding 端口增加 is_available()，聊天和回忆录日志用统一方式表示向量是否真能调用。

记忆整理（compaction）支持 Beat 定期扫用户；

事实抽取提示与 subject 归一化，减少同一人多种称呼；

											
										
										
											2026-04-03 11:43:16 +08:00
+								from app.core.logging import get_logger
-												feat(memory,conversation): 记忆富化/证据包、时间线幂等字段与对话分段全链路

数据库
- 新增迁移 0003：timeline_events.memory_source_id 外键 → memory_sources，便于按 ingest 源做时间线幂等

后端 - 记忆
- 新增 ingest 后 LLM 富化（摘要/事实/时间线），可配置开关与最大字符数
- 新增证据包组装：合并 chunk、摘要、事实、时间线、故事等检索结果；支持空 query 时是否仍带 rolling 等开关
- repo/retriever/service/router/schemas/summarizer/timeline/extractor 等扩展；文档 memory-retrieval.md 更新

后端 - 对话 WS
- 增加 PING/PONG；分段 ASR 日志与空音频处理；转写失败与「无助手回复」错误提示更明确
- 助手多段回复持久化使用统一分隔符，与分段逻辑一致

后端 - Agent
- reply_limits：按 [SPLIT] 与段落拆段，并保证非空 fallback，供 WS 与 TTS 多段下发

后端 - 回忆录任务
- transcript ingest 记录 source_id；任务成功结?

											
										
										
											2026-03-27 16:01:28 +08:00
+								from app.features.memory.repo import (
 								    list_summaries_for_evidence_async,
 								    list_summaries_for_evidence_sync,
-												聊天和回忆录证据检索都走 pgvector，去掉 Postgres FTS/content_tsv，新迁移删掉 content_tsv 列（部署要先 alembic upgrade）。

Embedding 端口增加 is_available()，聊天和回忆录日志用统一方式表示向量是否真能调用。

记忆整理（compaction）支持 Beat 定期扫用户；

事实抽取提示与 subject 归一化，减少同一人多种称呼；

											
										
										
											2026-04-03 11:43:16 +08:00
+								    search_chunks_vector_sync,
-												feat(memory,conversation): 记忆富化/证据包、时间线幂等字段与对话分段全链路

数据库
- 新增迁移 0003：timeline_events.memory_source_id 外键 → memory_sources，便于按 ingest 源做时间线幂等

后端 - 记忆
- 新增 ingest 后 LLM 富化（摘要/事实/时间线），可配置开关与最大字符数
- 新增证据包组装：合并 chunk、摘要、事实、时间线、故事等检索结果；支持空 query 时是否仍带 rolling 等开关
- repo/retriever/service/router/schemas/summarizer/timeline/extractor 等扩展；文档 memory-retrieval.md 更新

后端 - 对话 WS
- 增加 PING/PONG；分段 ASR 日志与空音频处理；转写失败与「无助手回复」错误提示更明确
- 助手多段回复持久化使用统一分隔符，与分段逻辑一致

后端 - Agent
- reply_limits：按 [SPLIT] 与段落拆段，并保证非空 fallback，供 WS 与 TTS 多段下发

后端 - 回忆录任务
- transcript ingest 记录 source_id；任务成功结?

											
										
										
											2026-03-27 16:01:28 +08:00
+								    search_facts_for_user_async,
 								    search_facts_for_user_sync,
 								    search_timeline_events_for_user_async,
 								    search_timeline_events_for_user_sync,
 								)
 								from app.features.story.repo import (
 								    list_recent_stories_for_evidence,
 								    list_recent_stories_for_evidence_sync,
 								)
-												聊天和回忆录证据检索都走 pgvector，去掉 Postgres FTS/content_tsv，新迁移删掉 content_tsv 列（部署要先 alembic upgrade）。

Embedding 端口增加 is_available()，聊天和回忆录日志用统一方式表示向量是否真能调用。

记忆整理（compaction）支持 Beat 定期扫用户；

事实抽取提示与 subject 归一化，减少同一人多种称呼；

											
										
										
											2026-04-03 11:43:16 +08:00
+								if TYPE_CHECKING:
 								    from app.ports.embedding import EmbeddingProvider
 								logger = get_logger(__name__)
-												feat(memory,conversation): 记忆富化/证据包、时间线幂等字段与对话分段全链路

数据库
- 新增迁移 0003：timeline_events.memory_source_id 外键 → memory_sources，便于按 ingest 源做时间线幂等

后端 - 记忆
- 新增 ingest 后 LLM 富化（摘要/事实/时间线），可配置开关与最大字符数
- 新增证据包组装：合并 chunk、摘要、事实、时间线、故事等检索结果；支持空 query 时是否仍带 rolling 等开关
- repo/retriever/service/router/schemas/summarizer/timeline/extractor 等扩展；文档 memory-retrieval.md 更新

后端 - 对话 WS
- 增加 PING/PONG；分段 ASR 日志与空音频处理；转写失败与「无助手回复」错误提示更明确
- 助手多段回复持久化使用统一分隔符，与分段逻辑一致

后端 - Agent
- reply_limits：按 [SPLIT] 与段落拆段，并保证非空 fallback，供 WS 与 TTS 多段下发

后端 - 回忆录任务
- transcript ingest 记录 source_id；任务成功结?

											
										
										
											2026-03-27 16:01:28 +08:00
+								EMPTY_EVIDENCE_BUNDLE: dict = {
 								    "relevant_chunks": [],
 								    "relevant_summaries": [],
 								    "relevant_facts": [],
 								    "timeline_hints": [],
 								    "relevant_stories": [],
 								}
 								def _facts_to_dicts(facts) -> list[dict]:
 								    return [
 								        {
 								            "id": f.id,
 								            "fact_type": f.fact_type,
 								            "subject": f.subject,
 								            "predicate": f.predicate,
 								            "object_json": f.object_json,
 								        }
 								        for f in facts
 								    ]
 								def _timeline_to_dicts(events) -> list[dict]:
 								    return [
 								        {
 								            "id": e.id,
 								            "event_year": e.event_year,
 								            "event_date": e.event_date,
 								            "title": e.title,
 								            "description": e.description,
 								        }
 								        for e in events
 								    ]
 								def _stories_to_dicts(story_rows) -> list[dict]:
 								    return [
 								        {
 								            "id": s.id,
 								            "title": s.title,
 								            "summary": s.summary,
 								            "stage": s.stage,
 								            "story_type": s.story_type,
 								        }
 								        for s in story_rows
 								    ]
 								def fetch_evidence_metadata_sync(
 								    session: Session, user_id: str, q: str, top_k: int
 								) -> dict:
-												feat(eval): memoir A/B chapter judging and eval-web parity with dialogue

- Judge baseline excerpt and library chapter separately; build_memoir_compare_summary for gate, nine-dim and leaf deltas.

- Memoir SSE chapter payload: baseline_judge, compare_summary, baseline_judge_error.

- MemoirJudgeOutput: loose score coercion and post-validate clamp; memoir judge prompt caps from settings.

- app-eval-web: two-column MemoirScoreCard layout, MemoirCompareSummary, chapter blocks and CSS.

- Add memoir_compare_summary, log_events, celery_log_context, memoir_pipeline_progress; tests and migration 0014.

- Misc: memory/evidence and enrichment paths, task/orchestrator updates, internal-eval docs, env examples.

											
										
										
											2026-04-10 10:23:43 +08:00
+								    """非 chunk 证据：摘要、事实、时间线、故事（sync）。保留 session 入参供单连接路径使用。"""
-												feat(memory,conversation): 记忆富化/证据包、时间线幂等字段与对话分段全链路

数据库
- 新增迁移 0003：timeline_events.memory_source_id 外键 → memory_sources，便于按 ingest 源做时间线幂等

后端 - 记忆
- 新增 ingest 后 LLM 富化（摘要/事实/时间线），可配置开关与最大字符数
- 新增证据包组装：合并 chunk、摘要、事实、时间线、故事等检索结果；支持空 query 时是否仍带 rolling 等开关
- repo/retriever/service/router/schemas/summarizer/timeline/extractor 等扩展；文档 memory-retrieval.md 更新

后端 - 对话 WS
- 增加 PING/PONG；分段 ASR 日志与空音频处理；转写失败与「无助手回复」错误提示更明确
- 助手多段回复持久化使用统一分隔符，与分段逻辑一致

后端 - Agent
- reply_limits：按 [SPLIT] 与段落拆段，并保证非空 fallback，供 WS 与 TTS 多段下发

后端 - 回忆录任务
- transcript ingest 记录 source_id；任务成功结?

											
										
										
											2026-03-27 16:01:28 +08:00
+								    facts = search_facts_for_user_sync(session, user_id, q, top_k)
 								    events = search_timeline_events_for_user_sync(session, user_id, q, top_k)
 								    relevant_summaries = list_summaries_for_evidence_sync(
 								        session, user_id=user_id, q=q, limit=top_k
 								    )
 								    story_rows = list_recent_stories_for_evidence_sync(
 								        session, user_id, query=q, limit=top_k
 								    )
 								    return {
 								        "relevant_facts": _facts_to_dicts(facts),
 								        "timeline_hints": _timeline_to_dicts(events),
 								        "relevant_summaries": relevant_summaries,
 								        "relevant_stories": _stories_to_dicts(story_rows),
 								    }
-												feat(eval): memoir A/B chapter judging and eval-web parity with dialogue

- Judge baseline excerpt and library chapter separately; build_memoir_compare_summary for gate, nine-dim and leaf deltas.

- Memoir SSE chapter payload: baseline_judge, compare_summary, baseline_judge_error.

- MemoirJudgeOutput: loose score coercion and post-validate clamp; memoir judge prompt caps from settings.

- app-eval-web: two-column MemoirScoreCard layout, MemoirCompareSummary, chapter blocks and CSS.

- Add memoir_compare_summary, log_events, celery_log_context, memoir_pipeline_progress; tests and migration 0014.

- Misc: memory/evidence and enrichment paths, task/orchestrator updates, internal-eval docs, env examples.

											
										
										
											2026-04-10 10:23:43 +08:00
+								def fetch_evidence_metadata_parallel_sync(user_id: str, q: str, top_k: int) -> dict:
 								    """
 								    与 fetch_evidence_metadata_sync 等价语义；四路查询各用独立 sync Session 并行，降低总 RTT。
 								    """
 								    def _facts():
 								        with get_sync_db() as session:
 								            return search_facts_for_user_sync(session, user_id, q, top_k)
 								    def _events():
 								        with get_sync_db() as session:
 								            return search_timeline_events_for_user_sync(session, user_id, q, top_k)
 								    def _summaries():
 								        with get_sync_db() as session:
 								            return list_summaries_for_evidence_sync(
 								                session, user_id=user_id, q=q, limit=top_k
 								            )
 								    def _stories():
 								        with get_sync_db() as session:
 								            return list_recent_stories_for_evidence_sync(
 								                session, user_id, query=q, limit=top_k
 								            )
 								    with ThreadPoolExecutor(max_workers=4) as pool:
 								        f_facts = pool.submit(_facts)
 								        f_events = pool.submit(_events)
 								        f_summaries = pool.submit(_summaries)
 								        f_stories = pool.submit(_stories)
 								        facts = f_facts.result()
 								        events = f_events.result()
 								        relevant_summaries = f_summaries.result()
 								        story_rows = f_stories.result()
 								    return {
 								        "relevant_facts": _facts_to_dicts(facts),
 								        "timeline_hints": _timeline_to_dicts(events),
 								        "relevant_summaries": relevant_summaries,
 								        "relevant_stories": _stories_to_dicts(story_rows),
 								    }
-												feat(memory,conversation): 记忆富化/证据包、时间线幂等字段与对话分段全链路

数据库
- 新增迁移 0003：timeline_events.memory_source_id 外键 → memory_sources，便于按 ingest 源做时间线幂等

后端 - 记忆
- 新增 ingest 后 LLM 富化（摘要/事实/时间线），可配置开关与最大字符数
- 新增证据包组装：合并 chunk、摘要、事实、时间线、故事等检索结果；支持空 query 时是否仍带 rolling 等开关
- repo/retriever/service/router/schemas/summarizer/timeline/extractor 等扩展；文档 memory-retrieval.md 更新

后端 - 对话 WS
- 增加 PING/PONG；分段 ASR 日志与空音频处理；转写失败与「无助手回复」错误提示更明确
- 助手多段回复持久化使用统一分隔符，与分段逻辑一致

后端 - Agent
- reply_limits：按 [SPLIT] 与段落拆段，并保证非空 fallback，供 WS 与 TTS 多段下发

后端 - 回忆录任务
- transcript ingest 记录 source_id；任务成功结?

											
										
										
											2026-03-27 16:01:28 +08:00
+								async def fetch_evidence_metadata_async(
 								    db: AsyncSession, user_id: str, q: str, top_k: int
 								) -> dict:
 								    """非 chunk 证据（async）。"""
 								    facts = await search_facts_for_user_async(db, user_id, q, top_k)
 								    events = await search_timeline_events_for_user_async(db, user_id, q, top_k)
 								    relevant_summaries = await list_summaries_for_evidence_async(
 								        db, user_id=user_id, q=q, limit=top_k
 								    )
 								    story_rows = await list_recent_stories_for_evidence(
 								        db, user_id=user_id, query=q, limit=top_k
 								    )
 								    return {
 								        "relevant_facts": _facts_to_dicts(facts),
 								        "timeline_hints": _timeline_to_dicts(events),
 								        "relevant_summaries": relevant_summaries,
 								        "relevant_stories": _stories_to_dicts(story_rows),
 								    }
 								def _empty_query_bundle_sync(session: Session, user_id: str, top_k: int) -> dict:
-												聊天和回忆录证据检索都走 pgvector，去掉 Postgres FTS/content_tsv，新迁移删掉 content_tsv 列（部署要先 alembic upgrade）。

Embedding 端口增加 is_available()，聊天和回忆录日志用统一方式表示向量是否真能调用。

记忆整理（compaction）支持 Beat 定期扫用户；

事实抽取提示与 subject 归一化，减少同一人多种称呼；

											
										
										
											2026-04-03 11:43:16 +08:00
+								    """空 query 时的「浏览」降级：rolling 摘要 + 事实/时间线 fallback。"""
-												feat(memory,conversation): 记忆富化/证据包、时间线幂等字段与对话分段全链路

数据库
- 新增迁移 0003：timeline_events.memory_source_id 外键 → memory_sources，便于按 ingest 源做时间线幂等

后端 - 记忆
- 新增 ingest 后 LLM 富化（摘要/事实/时间线），可配置开关与最大字符数
- 新增证据包组装：合并 chunk、摘要、事实、时间线、故事等检索结果；支持空 query 时是否仍带 rolling 等开关
- repo/retriever/service/router/schemas/summarizer/timeline/extractor 等扩展；文档 memory-retrieval.md 更新

后端 - 对话 WS
- 增加 PING/PONG；分段 ASR 日志与空音频处理；转写失败与「无助手回复」错误提示更明确
- 助手多段回复持久化使用统一分隔符，与分段逻辑一致

后端 - Agent
- reply_limits：按 [SPLIT] 与段落拆段，并保证非空 fallback，供 WS 与 TTS 多段下发

后端 - 回忆录任务
- transcript ingest 记录 source_id；任务成功结?

											
										
										
											2026-03-27 16:01:28 +08:00
+								    from sqlalchemy import select
-												feat: 回忆录证据血缘与内部评测可追溯，顺带对齐本地评测台与 CI

数据库与模型：新增多版迁移（章节证据快照、对话血缘、记忆事实/时间线 lineage 等），把「成稿 ↔ 对话/记忆」的溯源信息落到表结构里。
业务链路：会话与 WS、回忆录/故事流水线、记忆写入与 enrichment 等跟着接上线索与快照；新增章节证据快照与评测侧 EvalTraceService 等模块，方便组评审用的证据包。
内部评测：自动化 run 与手工 memoir 评审共用可追溯证据；rubric/ judge 相关脚本与文档有配套调整。
app-eval-web：Memoir/实验详情里能展开看证据摘要与 evidence_trace（含对话轮次 id）；Vite 代理与 development.sh 注入的 API 端口与当前默认内部评测端口一致，避免改端口后页面连错服务。
工程杂项：GitHub Actions / 仓库说明有更新；各适配器与支付/配额/plan 等多处为小改动或跟随主改动的收尾；新增/扩充了?

											
										
										
											2026-04-08 15:37:09 +08:00
+								    from app.features.memory.models import MemorySummary
-												feat(memory,conversation): 记忆富化/证据包、时间线幂等字段与对话分段全链路

数据库
- 新增迁移 0003：timeline_events.memory_source_id 外键 → memory_sources，便于按 ingest 源做时间线幂等

后端 - 记忆
- 新增 ingest 后 LLM 富化（摘要/事实/时间线），可配置开关与最大字符数
- 新增证据包组装：合并 chunk、摘要、事实、时间线、故事等检索结果；支持空 query 时是否仍带 rolling 等开关
- repo/retriever/service/router/schemas/summarizer/timeline/extractor 等扩展；文档 memory-retrieval.md 更新

后端 - 对话 WS
- 增加 PING/PONG；分段 ASR 日志与空音频处理；转写失败与「无助手回复」错误提示更明确
- 助手多段回复持久化使用统一分隔符，与分段逻辑一致

后端 - Agent
- reply_limits：按 [SPLIT] 与段落拆段，并保证非空 fallback，供 WS 与 TTS 多段下发

后端 - 回忆录任务
- transcript ingest 记录 source_id；任务成功结?

											
										
										
											2026-03-27 16:01:28 +08:00
+								    from app.features.memory.repo import (
 								        get_facts_for_user_sync,
 								        get_timeline_events_for_user_sync,
 								    )
 								    rolling = (
 								        session.execute(
 								            select(MemorySummary)
 								            .where(
 								                MemorySummary.user_id == user_id,
 								                MemorySummary.summary_type == "rolling",
 								            )
 								            .order_by(MemorySummary.updated_at.desc())
 								            .limit(1)
 								        )
 								        .unique()
 								        .scalar_one_or_none()
 								    )
 								    summaries = []
 								    if rolling:
 								        summaries = [
 								            {
 								                "id": rolling.id,
 								                "summary_type": rolling.summary_type,
 								                "content": rolling.content,
 								                "source_chunk_ids": rolling.source_chunk_ids,
 								            }
 								        ]
 								    facts = get_facts_for_user_sync(session, user_id, top_k)
 								    events = get_timeline_events_for_user_sync(session, user_id, top_k)
 								    return {
 								        "relevant_chunks": [],
 								        "relevant_summaries": summaries,
 								        "relevant_facts": _facts_to_dicts(facts),
 								        "timeline_hints": _timeline_to_dicts(events),
 								        "relevant_stories": [],
 								    }
 								async def _empty_query_bundle_async(db: AsyncSession, user_id: str, top_k: int) -> dict:
 								    from sqlalchemy import select
 								    from app.features.memory.models import MemorySummary
 								    from app.features.memory.repo import (
 								        get_facts_for_user,
 								        get_timeline_events_for_user,
 								    )
 								    roll_stmt = (
 								        select(MemorySummary)
 								        .where(
 								            MemorySummary.user_id == user_id,
 								            MemorySummary.summary_type == "rolling",
 								        )
 								        .order_by(MemorySummary.updated_at.desc())
 								        .limit(1)
 								    )
 								    r_result = await db.execute(roll_stmt)
 								    rolling = r_result.unique().scalar_one_or_none()
 								    summaries = []
 								    if rolling:
 								        summaries = [
 								            {
 								                "id": rolling.id,
 								                "summary_type": rolling.summary_type,
 								                "content": rolling.content,
 								                "source_chunk_ids": rolling.source_chunk_ids,
 								            }
 								        ]
 								    facts = await get_facts_for_user(db, user_id=user_id, limit=top_k)
 								    events = await get_timeline_events_for_user(db, user_id=user_id, limit=top_k)
 								    return {
 								        "relevant_chunks": [],
 								        "relevant_summaries": summaries,
 								        "relevant_facts": _facts_to_dicts(facts),
 								        "timeline_hints": _timeline_to_dicts(events),
 								        "relevant_stories": [],
 								    }
 								def retrieve_evidence_bundle_sync(
-												聊天和回忆录证据检索都走 pgvector，去掉 Postgres FTS/content_tsv，新迁移删掉 content_tsv 列（部署要先 alembic upgrade）。

Embedding 端口增加 is_available()，聊天和回忆录日志用统一方式表示向量是否真能调用。

记忆整理（compaction）支持 Beat 定期扫用户；

事实抽取提示与 subject 归一化，减少同一人多种称呼；

											
										
										
											2026-04-03 11:43:16 +08:00
+								    session: Session,
 								    user_id: str,
 								    query: str,
 								    *,
 								    top_k: int = 10,
 								    embedding_provider: "EmbeddingProvider | None" = None,
-												feat(memory,conversation): 记忆富化/证据包、时间线幂等字段与对话分段全链路

数据库
- 新增迁移 0003：timeline_events.memory_source_id 外键 → memory_sources，便于按 ingest 源做时间线幂等

后端 - 记忆
- 新增 ingest 后 LLM 富化（摘要/事实/时间线），可配置开关与最大字符数
- 新增证据包组装：合并 chunk、摘要、事实、时间线、故事等检索结果；支持空 query 时是否仍带 rolling 等开关
- repo/retriever/service/router/schemas/summarizer/timeline/extractor 等扩展；文档 memory-retrieval.md 更新

后端 - 对话 WS
- 增加 PING/PONG；分段 ASR 日志与空音频处理；转写失败与「无助手回复」错误提示更明确
- 助手多段回复持久化使用统一分隔符，与分段逻辑一致

后端 - Agent
- reply_limits：按 [SPLIT] 与段落拆段，并保证非空 fallback，供 WS 与 TTS 多段下发

后端 - 回忆录任务
- transcript ingest 记录 source_id；任务成功结?

											
										
										
											2026-03-27 16:01:28 +08:00
+								) -> dict:
-												聊天和回忆录证据检索都走 pgvector，去掉 Postgres FTS/content_tsv，新迁移删掉 content_tsv 列（部署要先 alembic upgrade）。

Embedding 端口增加 is_available()，聊天和回忆录日志用统一方式表示向量是否真能调用。

记忆整理（compaction）支持 Beat 定期扫用户；

事实抽取提示与 subject 归一化，减少同一人多种称呼；

											
										
										
											2026-04-03 11:43:16 +08:00
+								    """Celery / 叙事流水线：向量 chunks + 元数据（需 embedding_provider）。"""
-												feat(memory,conversation): 记忆富化/证据包、时间线幂等字段与对话分段全链路

数据库
- 新增迁移 0003：timeline_events.memory_source_id 外键 → memory_sources，便于按 ingest 源做时间线幂等

后端 - 记忆
- 新增 ingest 后 LLM 富化（摘要/事实/时间线），可配置开关与最大字符数
- 新增证据包组装：合并 chunk、摘要、事实、时间线、故事等检索结果；支持空 query 时是否仍带 rolling 等开关
- repo/retriever/service/router/schemas/summarizer/timeline/extractor 等扩展；文档 memory-retrieval.md 更新

后端 - 对话 WS
- 增加 PING/PONG；分段 ASR 日志与空音频处理；转写失败与「无助手回复」错误提示更明确
- 助手多段回复持久化使用统一分隔符，与分段逻辑一致

后端 - Agent
- reply_limits：按 [SPLIT] 与段落拆段，并保证非空 fallback，供 WS 与 TTS 多段下发

后端 - 回忆录任务
- transcript ingest 记录 source_id；任务成功结?

											
										
										
											2026-03-27 16:01:28 +08:00
+								    if not query or not query.strip():
 								        if settings.memory_evidence_empty_query_include_rolling:
 								            return _empty_query_bundle_sync(session, user_id, top_k)
 								        return dict(EMPTY_EVIDENCE_BUNDLE)
 								    q = query.strip()
-												聊天和回忆录证据检索都走 pgvector，去掉 Postgres FTS/content_tsv，新迁移删掉 content_tsv 列（部署要先 alembic upgrade）。

Embedding 端口增加 is_available()，聊天和回忆录日志用统一方式表示向量是否真能调用。

记忆整理（compaction）支持 Beat 定期扫用户；

事实抽取提示与 subject 归一化，减少同一人多种称呼；

											
										
										
											2026-04-03 11:43:16 +08:00
+								    relevant_chunks: list[dict] = []
 								    if embedding_provider is not None:
 								        try:
 								            q_emb = embedding_provider.embed_text_sync(q)
 								        except Exception as exc:
 								            logger.warning(
 								                "retrieve_evidence_bundle_sync embed failed user_id={} err={}",
 								                user_id,
 								                exc,
 								            )
 								            q_emb = []
 								        if q_emb:
 								            chunk_rows = search_chunks_vector_sync(session, user_id, q_emb, top_k)
 								            relevant_chunks = [
 								                {
 								                    "id": r["id"],
 								                    "content": r["content"],
 								                    "chunk_index": r["chunk_index"],
 								                }
 								                for r in chunk_rows
 								            ]
 								        else:
 								            logger.warning(
 								                "retrieve_evidence_bundle_sync empty_query_embedding user_id={}",
 								                user_id,
 								            )
 								    else:
 								        logger.warning(
 								            "retrieve_evidence_bundle_sync no_embedding_provider user_id={}",
 								            user_id,
 								        )
-												feat(eval): memoir A/B chapter judging and eval-web parity with dialogue

- Judge baseline excerpt and library chapter separately; build_memoir_compare_summary for gate, nine-dim and leaf deltas.

- Memoir SSE chapter payload: baseline_judge, compare_summary, baseline_judge_error.

- MemoirJudgeOutput: loose score coercion and post-validate clamp; memoir judge prompt caps from settings.

- app-eval-web: two-column MemoirScoreCard layout, MemoirCompareSummary, chapter blocks and CSS.

- Add memoir_compare_summary, log_events, celery_log_context, memoir_pipeline_progress; tests and migration 0014.

- Misc: memory/evidence and enrichment paths, task/orchestrator updates, internal-eval docs, env examples.

											
										
										
											2026-04-10 10:23:43 +08:00
+								    meta = fetch_evidence_metadata_parallel_sync(user_id, q, top_k)
-												feat(memory,conversation): 记忆富化/证据包、时间线幂等字段与对话分段全链路

数据库
- 新增迁移 0003：timeline_events.memory_source_id 外键 → memory_sources，便于按 ingest 源做时间线幂等

后端 - 记忆
- 新增 ingest 后 LLM 富化（摘要/事实/时间线），可配置开关与最大字符数
- 新增证据包组装：合并 chunk、摘要、事实、时间线、故事等检索结果；支持空 query 时是否仍带 rolling 等开关
- repo/retriever/service/router/schemas/summarizer/timeline/extractor 等扩展；文档 memory-retrieval.md 更新

后端 - 对话 WS
- 增加 PING/PONG；分段 ASR 日志与空音频处理；转写失败与「无助手回复」错误提示更明确
- 助手多段回复持久化使用统一分隔符，与分段逻辑一致

后端 - Agent
- reply_limits：按 [SPLIT] 与段落拆段，并保证非空 fallback，供 WS 与 TTS 多段下发

后端 - 回忆录任务
- transcript ingest 记录 source_id；任务成功结?

											
										
										
											2026-03-27 16:01:28 +08:00
+								    return {
 								        "relevant_chunks": relevant_chunks,
 								        **meta,
 								    }
 								async def retrieve_evidence_bundle_async(
 								    db: AsyncSession,
 								    user_id: str,
 								    query: str,
 								    *,
 								    top_k: int = 10,
 								    merged_chunk_dicts: list[dict],
 								) -> dict:
 								    """
-												聊天和回忆录证据检索都走 pgvector，去掉 Postgres FTS/content_tsv，新迁移删掉 content_tsv 列（部署要先 alembic upgrade）。

Embedding 端口增加 is_available()，聊天和回忆录日志用统一方式表示向量是否真能调用。

记忆整理（compaction）支持 Beat 定期扫用户；

事实抽取提示与 subject 归一化，减少同一人多种称呼；

											
										
										
											2026-04-03 11:43:16 +08:00
+								    异步路径：chunk 已由调用方（如 HybridRetriever）向量检索填入；此处只拼元数据。
-												feat(memory,conversation): 记忆富化/证据包、时间线幂等字段与对话分段全链路

数据库
- 新增迁移 0003：timeline_events.memory_source_id 外键 → memory_sources，便于按 ingest 源做时间线幂等

后端 - 记忆
- 新增 ingest 后 LLM 富化（摘要/事实/时间线），可配置开关与最大字符数
- 新增证据包组装：合并 chunk、摘要、事实、时间线、故事等检索结果；支持空 query 时是否仍带 rolling 等开关
- repo/retriever/service/router/schemas/summarizer/timeline/extractor 等扩展；文档 memory-retrieval.md 更新

后端 - 对话 WS
- 增加 PING/PONG；分段 ASR 日志与空音频处理；转写失败与「无助手回复」错误提示更明确
- 助手多段回复持久化使用统一分隔符，与分段逻辑一致

后端 - Agent
- reply_limits：按 [SPLIT] 与段落拆段，并保证非空 fallback，供 WS 与 TTS 多段下发

后端 - 回忆录任务
- transcript ingest 记录 source_id；任务成功结?

											
										
										
											2026-03-27 16:01:28 +08:00
 								    merged_chunk_dicts: [{"id","content","chunk_index"}, ...]
 								    """
 								    if not query or not query.strip():
 								        if settings.memory_evidence_empty_query_include_rolling:
 								            return await _empty_query_bundle_async(db, user_id, top_k)
 								        return dict(EMPTY_EVIDENCE_BUNDLE)
 								    q = query.strip()
 								    meta = await fetch_evidence_metadata_async(db, user_id, q, top_k)
 								    return {
 								        "relevant_chunks": merged_chunk_dicts,
 								        **meta,
 								    }