Merge branch 'eval/elapsed-time-memoir-batch-chunk' into development

2026-04-10 10:27:41 +08:00
parent 31fc1c24cf ac49bc7f23
commit 204ae24697
66 changed files with 5246 additions and 705 deletions
--- a/api/docs/internal-eval.md
+++ b/api/docs/internal-eval.md
@@ -49,7 +49,7 @@ uv run uvicorn app.internal_main:internal_app --host 0.0.0.0 --port 8001
 Celery worker 与主站共用（`celery_app` 已 `include` 回忆录等任务；**不再**包含已下线的 `evaluation_tasks` 实验批量跑批）。需 Phase1 / 叙事推进时请启动 worker：

 ```bash
-uv run celery -A app.tasks.celery_app worker -l info
+uv run celery -A app.tasks.celery_app worker -l info -Q celery,memory_idle
 ```

 ## 前端（`app-eval-web`）
--- a/api/docs/memory-retrieval.md
+++ b/api/docs/memory-retrieval.md
@@ -21,14 +21,17 @@

 ## 富化（ingest 后 LLM）

- `memory_enrichment_enabled`（默认 `true`）：`ingest_transcript` / `ingest_transcript_sync` 后执行摘要、事实、时间线；`false` 时跳过。
+- `memory_enrichment_enabled`（默认 `true`）：ingest 成功并 **commit** 后，通过 `schedule_memory_enrichment` 将任务投递到 **`CELERY_MEMORY_ENRICHMENT_QUEUE`**（默认 `memory_idle`），在 worker 上 **单次 LLM 调用**产出 **会话摘要（`MemorySummary` session）+ 结构化事实（`MemoryFact`）**；`false` 时不投递。
+- ingest 路径 **不再**维护滚动摘要（rolling）与 **时间线表**（`timeline_events`）的物化；检索中的 `timeline_hints` 依赖既有数据（若有）或为空；空 query 下「浏览」模式若开启 `memory_evidence_empty_query_include_rolling`，仅当库内仍有历史 rolling 行时才会出现。
+- 异步 `MemoryService.ingest` 与同步 `ingest_transcript_sync` 均 **不**在请求/任务热路径内内联 LLM 富化；回忆录 Phase1 在 DB commit 后调用 `schedule_enrichment_for_sources`（与 `memoir_correlation_id` 观测一致）。
+- Worker 须消费该队列（例如 `-Q celery,memory_idle`），否则任务会堆积。
 - `memory_enrichment_max_chars`：截断送入 LLM 的文本长度。
- 同一 `memory_source_id` 的时间线在重跑富化前会先删后插入，避免重复事件。
 - Ingest 写入 **embedding**（best-effort）；历史 FTS 列 `content_tsv` 已由迁移 `0007_drop_chunk_content_tsv` 删除。
+- 叙事阶段 `retrieve_evidence_sync` **不等待**富化完成；证据随富化渐进变丰富。

 ## Celery 任务中的顺序

-`process_memoir_segments`（`app/tasks/memoir_tasks.py`）在**同一任务**内先执行 `ingest_transcript_sync`（并 `commit`），再执行 `MemoirOrchestrator` 与 `run_story_pipeline_for_category_batch`。因此 `retrieve_evidence_sync` 能看到**本批刚写入**的 memory chunks（无竞态），前提是 embedding API 已成功写入向量。
+`process_memoir_segments`（`app/tasks/memoir_tasks.py`）在**同一任务**内先执行批量 ingest（`ingest_transcripts_batch_sync` 并 `commit`），再富化入队与 `MemoirOrchestrator`、派发 Phase2。Phase2 内 `retrieve_evidence_sync` 能看到**本批刚写入**的 memory chunks（无竞态），前提是 embedding API 已成功写入向量；富化 Summary/Facts 可能稍后才就绪。

 章节分类上，若模型返回 **none** 或命中零散档案启发式，Story 侧会统一落入 **`summary` 章节**并继续叙事落库，与「本批 transcript 已进 memory」一致，避免误以为内容被丢弃。