Files
life-echo/api/app/features/memoir/reading_segment_materialize.py

209 lines
7.8 KiB
Python
Raw Normal View History

"""章节阅读片段物化与「可读字数」门槛(单一事实源)。
**字数阈值** ``MIN_STORY_CHARS_IN_CHAPTER``当前 300 Markdown 去图片/链接噪声后
``story_plain_text_char_count`` 估算字符数用于
- **单篇故事**是否写入 ``reading_segments_json``是否参与 ``chapter_markdown_compose`` 拼接
- **章节**``chapter_meets_minimum_display`` / ``chapter_body_meets_minimum_for_display`` 是否对
用户展示列表/详情/PDF ``MemoirService``
**物化**``build_reading_segments_snapshot`` canonical 同路径写入 ``reading_segments_json``无签名 URL
**API**``hydrate_reading_segments_from_snapshot`` 解析快照含签名 URL旧快照亦按当前阈值过滤
``resolve_reading_segments_for_chapter_detail`` 仅读已物化快照
其它引用``repo.append_chapter_compose````helpers.chapter_to_dict`` ``resolve_reading_segments``
``chapter_markdown_compose``故事拼接
"""
from __future__ import annotations
import re
from typing import Any
from app.features.memoir.asset_resolver import (
collect_asset_ids_from_markdown,
resolve_asset_refs_in_markdown,
strip_asset_image_refs_from_markdown,
strip_image_placeholders,
)
from app.features.memoir.markdown_sanitize import sanitize_story_for_chapter_compose
from app.features.memoir.models import Chapter
# 故事收录章节、章节对读者展示:共用最小可读字数(与 story_plain_text_char_count 一致)
MIN_STORY_CHARS_IN_CHAPTER = 300
_WS_COLLAPSE = re.compile(r"\s+")
def story_plain_text_char_count(markdown: str) -> int:
"""估算 Markdown 正文可读字符数(中英按字计),用于故事/章节字数门槛。"""
if not markdown or not str(markdown).strip():
return 0
t = strip_image_placeholders(markdown)
t = strip_asset_image_refs_from_markdown(t)
t = re.sub(r"\[([^\]]+)\]\([^)]+\)", r"\1", t)
t = re.sub(r"!\[([^\]]*)\]\([^)]+\)", "", t)
t = re.sub(r"`+([^`]+)`+", r"\1", t)
t = re.sub(r"^#{1,6}\s+", "", t, flags=re.MULTILINE)
# 剩余强调符等不计入「字数」
t = re.sub(r"[*_#`]", "", t)
t = _WS_COLLAPSE.sub("", t)
return len(t)
def story_meets_minimum_chapter_length(markdown: str) -> bool:
"""单篇故事正文是否达到收录章节的阈值物化快照、hydrate 过滤)。"""
return story_plain_text_char_count(markdown) >= MIN_STORY_CHARS_IN_CHAPTER
def chapter_body_meets_minimum_for_display(canonical_markdown: str) -> bool:
"""章节 canonical 是否达到对读者展示的最小可读字数(与单篇故事阈值一致)。"""
return (
story_plain_text_char_count(canonical_markdown or "")
>= MIN_STORY_CHARS_IN_CHAPTER
)
def chapter_meets_minimum_display(ch: Any) -> bool:
"""基于章节当前 canonical_markdown物化后判断是否可对读者展示。"""
md = getattr(ch, "canonical_markdown", None) or ""
return chapter_body_meets_minimum_for_display(str(md))
def _primary_story_intent_asset_id(story: Any) -> str | None:
for it in getattr(story, "image_intents", None) or []:
if getattr(it, "intent_role", None) == "primary":
aid = getattr(it, "asset_id", None)
return str(aid) if aid else None
return None
def _cover_intent_snapshot_from_story(story: Any) -> dict | None:
"""primary intent 元数据(无 url供 JSON 持久化。"""
intents = getattr(story, "image_intents", None) or []
primary = None
for it in intents:
if getattr(it, "intent_role", None) == "primary":
primary = it
break
if not primary:
return None
aid = getattr(primary, "asset_id", None)
if not aid:
return None
status = getattr(primary, "status", None) or "pending"
return {
"asset_id": str(aid),
"status": status,
"description": getattr(primary, "caption", None) or "故事配图",
"prompt": getattr(primary, "prompt_brief", None),
"style": getattr(primary, "style_profile", None),
"error": getattr(primary, "error", None),
"created_at": primary.created_at.isoformat() if primary.created_at else None,
"updated_at": primary.updated_at.isoformat() if primary.updated_at else None,
}
def _cover_dict_from_snapshot_row(
snap: dict[str, Any], asset_url_map: dict[str, str]
) -> dict:
aid = snap.get("asset_id")
url = asset_url_map.get(str(aid)) if aid else None
return {
"placeholder": "",
"description": snap.get("description") or "故事配图",
"index": 0,
"status": snap.get("status") or "pending",
"prompt": snap.get("prompt"),
"url": url,
"storage_key": None,
"provider": None,
"style": snap.get("style"),
"size": None,
"error": snap.get("error"),
"retryable": None,
"created_at": snap.get("created_at"),
"updated_at": snap.get("updated_at"),
}
def build_reading_segments_snapshot(ch: Chapter) -> list[dict[str, Any]]:
"""
物化阅读片段快照body 保留 asset://cover 仅存 intent 元数据正文已含同 asset 则省略
append_chapter_compose_version 同路径写入
"""
links = sorted(
list(getattr(ch, "story_links", None) or []),
key=lambda x: getattr(x, "order_index", 0),
)
out: list[dict[str, Any]] = []
for link in links:
st = getattr(link, "story", None)
if st is None:
continue
title = (getattr(st, "title", None) or "").strip()
raw = (getattr(st, "canonical_markdown", None) or "").strip()
body = sanitize_story_for_chapter_compose(raw, title)
if not body:
continue
if not story_meets_minimum_chapter_length(body):
continue
primary_aid = _primary_story_intent_asset_id(st)
inline_ids = set(collect_asset_ids_from_markdown(body))
cover: dict | None = None
if primary_aid and primary_aid not in inline_ids:
cover = _cover_intent_snapshot_from_story(st)
out.append(
{
"story_id": st.id,
"body_markdown": body,
refactor(api,expo): 多智能体与会话收敛、回忆录兼容层移除、后端测试集大幅删减 - 对齐「多智能体收敛」与「回忆录 stories-first / markdown-first」方向:收紧运行时契约、 删除过渡兼容路径与双轨逻辑,并同步更新客户端与文档。 - Chat:以 ChatOrchestrator 为实时编排入口;删除独立 conversation_agent,精简 prompts。 - Memoir:删除 memory_agent;MemoirOrchestrator、classification / story_route 与 prompts 收敛到 prepare_batches + run_story_pipeline_for_category_batch 主链路。 - 将 agents 侧 processor 迁入 feature 层为 background_runner,并移除 features 下重复/过时 processor 封装。 - 新增 history_store,强化「conversation_messages 为 DB 真源、Redis 为缓存」模型。 - 调整 models、repo、service、session_history;精简 WS message_types,重构 pipeline 与 router。 - 移除章节占位、整章再生等旧路径;章节列表与封面逻辑要求 story 关联;收紧 cover 资格与 enqueue。 - helpers、repo、service、router、reading_segment_materialize、story_pipeline_sync、pdf_service 等按 canonical markdown / cover_asset_id 收缩;删除 memoir_images/provider 等冗余。 - tasks:memoir_tasks、chapter_cover_tasks 等大幅瘦身;story_image_tasks 等与当前图片任务对齐。 - core:config、logging、redis、task_tracker 小幅调整。 - auth / user / payment / quota:路由或服务侧删减过时接口或逻辑(如 payment router 行数减少)。 - pyproject.toml、development.sh、.env.example / .env.production、README 等同步说明或变量。 - Alembic 0001_initial_schema 微调(与当前 schema 叙事一致的小改动)。 - 回忆录:types / mappers / api、章节页与 memoir 页与后端契约对齐;markdown-renderer 调整。 - 语音:删除 voice/player,voice-segment-store 相应精简。 - api/tests:删除 conftest 及绝大部分既有测试文件(websocket_baseline、conversation、memoir 图片、PDF、SMS 等),属有意收缩/待按 backend-test-system 重建的信号。 - docs:新增多智能体收敛与移除兼容层计划摘要;更新 story-first 设计、backend-test-system、 multi-agent-refactor-plan、实施总结等。 BREAKING CHANGE: 后端对外契约、回忆录章节字段与若干路由/任务行为已变更;大量 API 测试被移除, CI 若依赖这些用例需按新策略补测或调整流水线。
2026-03-22 16:45:57 +08:00
"cover_asset": cover,
}
)
return out
def hydrate_reading_segments_from_snapshot(
ch: Chapter,
asset_url_map: dict[str, str] | None = None,
) -> list[dict[str, Any]]:
"""将持久化快照解析为 API 形态(签名 URL"""
from app.features.memoir import helpers as h
asset_url_map = asset_url_map or {}
resolve = lambda aid: asset_url_map.get(aid) # noqa: E731
rows = getattr(ch, "reading_segments_json", None) or []
out: list[dict[str, Any]] = []
for row in rows:
raw_body = row.get("body_markdown") or ""
# 与物化时一致;旧库快照亦按当前阈值过滤
if not story_meets_minimum_chapter_length(raw_body):
continue
body = resolve_asset_refs_in_markdown(raw_body, resolve)
refactor(api,expo): 多智能体与会话收敛、回忆录兼容层移除、后端测试集大幅删减 - 对齐「多智能体收敛」与「回忆录 stories-first / markdown-first」方向:收紧运行时契约、 删除过渡兼容路径与双轨逻辑,并同步更新客户端与文档。 - Chat:以 ChatOrchestrator 为实时编排入口;删除独立 conversation_agent,精简 prompts。 - Memoir:删除 memory_agent;MemoirOrchestrator、classification / story_route 与 prompts 收敛到 prepare_batches + run_story_pipeline_for_category_batch 主链路。 - 将 agents 侧 processor 迁入 feature 层为 background_runner,并移除 features 下重复/过时 processor 封装。 - 新增 history_store,强化「conversation_messages 为 DB 真源、Redis 为缓存」模型。 - 调整 models、repo、service、session_history;精简 WS message_types,重构 pipeline 与 router。 - 移除章节占位、整章再生等旧路径;章节列表与封面逻辑要求 story 关联;收紧 cover 资格与 enqueue。 - helpers、repo、service、router、reading_segment_materialize、story_pipeline_sync、pdf_service 等按 canonical markdown / cover_asset_id 收缩;删除 memoir_images/provider 等冗余。 - tasks:memoir_tasks、chapter_cover_tasks 等大幅瘦身;story_image_tasks 等与当前图片任务对齐。 - core:config、logging、redis、task_tracker 小幅调整。 - auth / user / payment / quota:路由或服务侧删减过时接口或逻辑(如 payment router 行数减少)。 - pyproject.toml、development.sh、.env.example / .env.production、README 等同步说明或变量。 - Alembic 0001_initial_schema 微调(与当前 schema 叙事一致的小改动)。 - 回忆录:types / mappers / api、章节页与 memoir 页与后端契约对齐;markdown-renderer 调整。 - 语音:删除 voice/player,voice-segment-store 相应精简。 - api/tests:删除 conftest 及绝大部分既有测试文件(websocket_baseline、conversation、memoir 图片、PDF、SMS 等),属有意收缩/待按 backend-test-system 重建的信号。 - docs:新增多智能体收敛与移除兼容层计划摘要;更新 story-first 设计、backend-test-system、 multi-agent-refactor-plan、实施总结等。 BREAKING CHANGE: 后端对外契约、回忆录章节字段与若干路由/任务行为已变更;大量 API 测试被移除, CI 若依赖这些用例需按新策略补测或调整流水线。
2026-03-22 16:45:57 +08:00
ci = row.get("cover_asset")
if ci:
img_raw = _cover_dict_from_snapshot_row(ci, asset_url_map)
img_norm = h.first_normalized_image_for_api(img_raw)
else:
img_norm = None
out.append(
{
"story_id": row["story_id"],
"body_markdown": body,
refactor(api,expo): 多智能体与会话收敛、回忆录兼容层移除、后端测试集大幅删减 - 对齐「多智能体收敛」与「回忆录 stories-first / markdown-first」方向:收紧运行时契约、 删除过渡兼容路径与双轨逻辑,并同步更新客户端与文档。 - Chat:以 ChatOrchestrator 为实时编排入口;删除独立 conversation_agent,精简 prompts。 - Memoir:删除 memory_agent;MemoirOrchestrator、classification / story_route 与 prompts 收敛到 prepare_batches + run_story_pipeline_for_category_batch 主链路。 - 将 agents 侧 processor 迁入 feature 层为 background_runner,并移除 features 下重复/过时 processor 封装。 - 新增 history_store,强化「conversation_messages 为 DB 真源、Redis 为缓存」模型。 - 调整 models、repo、service、session_history;精简 WS message_types,重构 pipeline 与 router。 - 移除章节占位、整章再生等旧路径;章节列表与封面逻辑要求 story 关联;收紧 cover 资格与 enqueue。 - helpers、repo、service、router、reading_segment_materialize、story_pipeline_sync、pdf_service 等按 canonical markdown / cover_asset_id 收缩;删除 memoir_images/provider 等冗余。 - tasks:memoir_tasks、chapter_cover_tasks 等大幅瘦身;story_image_tasks 等与当前图片任务对齐。 - core:config、logging、redis、task_tracker 小幅调整。 - auth / user / payment / quota:路由或服务侧删减过时接口或逻辑(如 payment router 行数减少)。 - pyproject.toml、development.sh、.env.example / .env.production、README 等同步说明或变量。 - Alembic 0001_initial_schema 微调(与当前 schema 叙事一致的小改动)。 - 回忆录:types / mappers / api、章节页与 memoir 页与后端契约对齐;markdown-renderer 调整。 - 语音:删除 voice/player,voice-segment-store 相应精简。 - api/tests:删除 conftest 及绝大部分既有测试文件(websocket_baseline、conversation、memoir 图片、PDF、SMS 等),属有意收缩/待按 backend-test-system 重建的信号。 - docs:新增多智能体收敛与移除兼容层计划摘要;更新 story-first 设计、backend-test-system、 multi-agent-refactor-plan、实施总结等。 BREAKING CHANGE: 后端对外契约、回忆录章节字段与若干路由/任务行为已变更;大量 API 测试被移除, CI 若依赖这些用例需按新策略补测或调整流水线。
2026-03-22 16:45:57 +08:00
"cover_asset": img_norm,
}
)
return out
def resolve_reading_segments_for_chapter_detail(
ch: Chapter,
asset_url_map: dict[str, str] | None = None,
) -> list[dict[str, Any]]:
refactor(api,expo): 多智能体与会话收敛、回忆录兼容层移除、后端测试集大幅删减 - 对齐「多智能体收敛」与「回忆录 stories-first / markdown-first」方向:收紧运行时契约、 删除过渡兼容路径与双轨逻辑,并同步更新客户端与文档。 - Chat:以 ChatOrchestrator 为实时编排入口;删除独立 conversation_agent,精简 prompts。 - Memoir:删除 memory_agent;MemoirOrchestrator、classification / story_route 与 prompts 收敛到 prepare_batches + run_story_pipeline_for_category_batch 主链路。 - 将 agents 侧 processor 迁入 feature 层为 background_runner,并移除 features 下重复/过时 processor 封装。 - 新增 history_store,强化「conversation_messages 为 DB 真源、Redis 为缓存」模型。 - 调整 models、repo、service、session_history;精简 WS message_types,重构 pipeline 与 router。 - 移除章节占位、整章再生等旧路径;章节列表与封面逻辑要求 story 关联;收紧 cover 资格与 enqueue。 - helpers、repo、service、router、reading_segment_materialize、story_pipeline_sync、pdf_service 等按 canonical markdown / cover_asset_id 收缩;删除 memoir_images/provider 等冗余。 - tasks:memoir_tasks、chapter_cover_tasks 等大幅瘦身;story_image_tasks 等与当前图片任务对齐。 - core:config、logging、redis、task_tracker 小幅调整。 - auth / user / payment / quota:路由或服务侧删减过时接口或逻辑(如 payment router 行数减少)。 - pyproject.toml、development.sh、.env.example / .env.production、README 等同步说明或变量。 - Alembic 0001_initial_schema 微调(与当前 schema 叙事一致的小改动)。 - 回忆录:types / mappers / api、章节页与 memoir 页与后端契约对齐;markdown-renderer 调整。 - 语音:删除 voice/player,voice-segment-store 相应精简。 - api/tests:删除 conftest 及绝大部分既有测试文件(websocket_baseline、conversation、memoir 图片、PDF、SMS 等),属有意收缩/待按 backend-test-system 重建的信号。 - docs:新增多智能体收敛与移除兼容层计划摘要;更新 story-first 设计、backend-test-system、 multi-agent-refactor-plan、实施总结等。 BREAKING CHANGE: 后端对外契约、回忆录章节字段与若干路由/任务行为已变更;大量 API 测试被移除, CI 若依赖这些用例需按新策略补测或调整流水线。
2026-03-22 16:45:57 +08:00
"""章节详情:仅读取已物化快照。"""
asset_url_map = asset_url_map or {}
refactor(api,expo): 多智能体与会话收敛、回忆录兼容层移除、后端测试集大幅删减 - 对齐「多智能体收敛」与「回忆录 stories-first / markdown-first」方向:收紧运行时契约、 删除过渡兼容路径与双轨逻辑,并同步更新客户端与文档。 - Chat:以 ChatOrchestrator 为实时编排入口;删除独立 conversation_agent,精简 prompts。 - Memoir:删除 memory_agent;MemoirOrchestrator、classification / story_route 与 prompts 收敛到 prepare_batches + run_story_pipeline_for_category_batch 主链路。 - 将 agents 侧 processor 迁入 feature 层为 background_runner,并移除 features 下重复/过时 processor 封装。 - 新增 history_store,强化「conversation_messages 为 DB 真源、Redis 为缓存」模型。 - 调整 models、repo、service、session_history;精简 WS message_types,重构 pipeline 与 router。 - 移除章节占位、整章再生等旧路径;章节列表与封面逻辑要求 story 关联;收紧 cover 资格与 enqueue。 - helpers、repo、service、router、reading_segment_materialize、story_pipeline_sync、pdf_service 等按 canonical markdown / cover_asset_id 收缩;删除 memoir_images/provider 等冗余。 - tasks:memoir_tasks、chapter_cover_tasks 等大幅瘦身;story_image_tasks 等与当前图片任务对齐。 - core:config、logging、redis、task_tracker 小幅调整。 - auth / user / payment / quota:路由或服务侧删减过时接口或逻辑(如 payment router 行数减少)。 - pyproject.toml、development.sh、.env.example / .env.production、README 等同步说明或变量。 - Alembic 0001_initial_schema 微调(与当前 schema 叙事一致的小改动)。 - 回忆录:types / mappers / api、章节页与 memoir 页与后端契约对齐;markdown-renderer 调整。 - 语音:删除 voice/player,voice-segment-store 相应精简。 - api/tests:删除 conftest 及绝大部分既有测试文件(websocket_baseline、conversation、memoir 图片、PDF、SMS 等),属有意收缩/待按 backend-test-system 重建的信号。 - docs:新增多智能体收敛与移除兼容层计划摘要;更新 story-first 设计、backend-test-system、 multi-agent-refactor-plan、实施总结等。 BREAKING CHANGE: 后端对外契约、回忆录章节字段与若干路由/任务行为已变更;大量 API 测试被移除, CI 若依赖这些用例需按新策略补测或调整流水线。
2026-03-22 16:45:57 +08:00
if getattr(ch, "reading_segments_json", None) is None:
return []
return hydrate_reading_segments_from_snapshot(ch, asset_url_map=asset_url_map)