api/app/features/evaluation/schemas.py

"""HTTP / OpenAPI 模型。"""

from __future__ import annotations

from datetime import datetime
from typing import Any, Literal

from pydantic import BaseModel, ConfigDict, Field

EvalJudgeProviderLiteral = Literal["zhipu", "deepseek"]


class SessionDialogueMessageOut(BaseModel):
    model_config = ConfigDict(from_attributes=True)

    role: str
    content: str
    created_at: datetime | None = None


class SessionDialogueOut(BaseModel):
    conversation_id: str
    messages: list[SessionDialogueMessageOut]


class SessionListItem(BaseModel):
    id: str
    user_id: str
    user_phone: str | None = Field(default=None, description="users.phone，列表展示用")
    started_at: datetime | None
    last_message_at: datetime | None = None
    conversation_stage: str | None
    current_topic: str | None
    status: str | None


class SessionListResponse(BaseModel):
    items: list[SessionListItem]
    total: int


class SessionTranscriptOut(BaseModel):
    conversation_id: str
    user_id: str
    user_utterances_from_segments: list[str]
    user_utterances_from_messages: list[str]


class UserExportFixtureTurnOut(BaseModel):
    user: str
    ai: str


class UserExportFixtureListOut(BaseModel):
    items: list[str]


class MemoirSectionBaselineOut(BaseModel):
    title: str
    body: str


class UserExportFixtureDetailOut(BaseModel):
    filename: str
    turns: list[UserExportFixtureTurnOut]
    source_user_id: str | None = None
    memoir_sections: list[MemoirSectionBaselineOut] = Field(default_factory=list)


class ReplayBootstrapBody(BaseModel):
    user_id: str


class ReplayBootstrapOut(BaseModel):
    conversation_id: str


class EvalSandboxOut(BaseModel):
    """内部评测专用：一次性临时账号 + 空白会话，不落真实手机号业务。"""

    user_id: str
    conversation_id: str
    phone: str
    nickname: str


class ReplayConversationBody(BaseModel):
    conversation_id: str
    fixture_filename: str | None = None
    user_utterances: list[str] | None = None
    flush_memoir_after: bool = True
    """为 True 且 skip_memoir 为 False 时，本批结束后 flush 回忆录队列。"""
    skip_memoir: bool = False
    """为 True 时不向回忆录防抖队列入队、不 flush（供 Playground 先只测对话）。"""
    skip_tts: bool = True


class ReplayConversationOut(BaseModel):
    conversation_id: str
    turns_replayed: int
    utterances_echo: list[str] = Field(default_factory=list)
    segment_ids: list[str] = Field(
        default_factory=list,
        description="本批请求创建并已走 orchestrator 的用户 segment id（顺序与落库一致）",
    )
    #: 服务端计量：本 HTTP 请求内回放逻辑耗时（与浏览器轮询间隔无关）
    started_at_utc: datetime | None = None
    finished_at_utc: datetime | None = None
    elapsed_ms: int | None = Field(
        default=None,
        description="服务端 wall 耗时（本请求内 replay_utterances / replay_fixture）",
    )


class MemoirPhase1ReadyOut(BaseModel):
    ready: bool
    checked_segment_ids: list[str] = Field(default_factory=list)
    pending_segment_ids: list[str] = Field(default_factory=list)
    #: 最近一次 Playground memoir-submit 写入 Redis 的提交时间（无记录时为 None）
    job_submitted_at_utc: datetime | None = None
    #: 自 job_submitted_at_utc 至本响应生成时服务端经过的毫秒数
    elapsed_ms_since_submit: int | None = Field(default=None, ge=0)
    #: 可选分步耗时（毫秒），键由服务端定义
    durations_ms: dict[str, int] = Field(default_factory=dict)


class MemoirSubmitOut(BaseModel):
    conversation_id: str
    user_id: str
    segment_ids: list[str] = Field(default_factory=list)
    celery_task_id: str | None = None
    submitted_at_utc: datetime | None = None
    #: 提交接口瞬间耗时，通常为 0；与 Phase1 Celery 执行时间无关
    elapsed_ms: int | None = Field(default=None, ge=0)


class ManualJudgeConversationBody(BaseModel):
    conversation_id: str
    """与当前评测台选中的 MD 一致，供基准 transcript / 整体打分。"""
    fixture_filename: str | None = None
    judge_provider: EvalJudgeProviderLiteral = "zhipu"
    judge_model: str | None = None
    """空则用该供应商默认模型（智谱：eval_judge_model；DeepSeek：eval_judge_deepseek_model）。"""


class ManualJudgeConversationStreamBody(BaseModel):
    conversation_id: str
    fixture_filename: str | None = None
    include_turn_judges: bool = False
    """对当前会话逐轮调用评审 LLM（在整体分之后）。"""
    include_baseline_turn_judges: bool = False
    """对导出基线逐轮调用评审 LLM（需 fixture + 整体基线分成功）。"""
    judge_provider: EvalJudgeProviderLiteral = "zhipu"
    judge_model: str | None = None


class RetryBaselineJudgeBody(BaseModel):
    conversation_id: str
    fixture_filename: str | None = None
    include_baseline_turn_judges: bool = False
    """与流式评分一致：成功重试基准整体分后是否补跑基线逐轮。"""
    judge_provider: EvalJudgeProviderLiteral = "zhipu"
    judge_model: str | None = None


class RetryBaselineJudgeOut(BaseModel):
    ok: bool
    error: str | None = None
    message: str | None = None
    baseline_judge: dict[str, Any] | None = None
    replay_judge: dict[str, Any] | None = None
    compare_summary: dict[str, Any] | None = None
    compare_markdown: str = ""
    baseline_turn_judges: dict[str, Any] = Field(default_factory=dict)
    errors: list[str] = Field(default_factory=list)


class ManualJudgeConversationOut(BaseModel):
    conversation_id: str
    fixture_filename: str | None = None
    baseline_transcript: str = ""
    replay_transcript: str
    baseline_judge: dict[str, Any] | None = None
    replay_judge: dict[str, Any] | None = None
    compare_summary: dict[str, Any] | None = None
    errors: list[str] = Field(default_factory=list)


class PlaygroundConversationJudgeOut(BaseModel):
    """`conversations.playground_conversation_judge_json` 的只读视图。"""

    conversation_id: str
    judge: dict[str, Any] | None = None


class ManualJudgeMemoirBody(BaseModel):
    user_id: str
    baseline_sections: list[MemoirSectionBaselineOut] | None = None
    judge_provider: EvalJudgeProviderLiteral = "zhipu"
    judge_model: str | None = None


class ManualJudgeMemoirOut(BaseModel):
    user_id: str
    chapter_results: list[dict[str, Any]] = Field(default_factory=list)
    story_results: list[dict[str, Any]] = Field(default_factory=list)


class MemoirChapterSnapOut(BaseModel):
    id: str
    title: str
    category: str | None = None
    order_index: int | None = None
    canonical_markdown: str | None = None


class MemoirStorySnapOut(BaseModel):
    id: str
    title: str
    stage: str | None = None
    canonical_markdown: str | None = None


class UserMemoirSnapshotOut(BaseModel):
    user_id: str
    chapters: list[MemoirChapterSnapOut]
    stories: list[MemoirStorySnapOut]
-												feat/ 导出开发容器内的数据用于评估

											
										
										
											2026-04-03 14:44:46 +08:00
+								"""HTTP / OpenAPI 模型。"""
 								from __future__ import annotations
 								from datetime import datetime
-												refactor(eval+memoir)：精简内部评测路由与服务，composite/对话摘要与 judge 能力补强

- 访谈：新增 interview_state_hints，联动 orchestrator 与提示词
- 回忆录：story_pipeline_sync/state/memory/post_commit 与 Celery 任务调整
- 基建：开发用 celery broker、compose/development 脚本、依赖注入
- eval-web：移除数据集/实验/版本等页面与流式轮询，突出 Playground
- 文档与单测同步

											
										
										
											2026-04-08 21:36:12 +08:00
+								from typing import Any, Literal
-												feat/ 导出开发容器内的数据用于评估

											
										
										
											2026-04-03 14:44:46 +08:00
 								from pydantic import BaseModel, ConfigDict, Field
-												refactor(eval+memoir)：精简内部评测路由与服务，composite/对话摘要与 judge 能力补强

- 访谈：新增 interview_state_hints，联动 orchestrator 与提示词
- 回忆录：story_pipeline_sync/state/memory/post_commit 与 Celery 任务调整
- 基建：开发用 celery broker、compose/development 脚本、依赖注入
- eval-web：移除数据集/实验/版本等页面与流式轮询，突出 Playground
- 文档与单测同步

											
										
										
											2026-04-08 21:36:12 +08:00
+								EvalJudgeProviderLiteral = Literal["zhipu", "deepseek"]
-												feat/ 导出开发容器内的数据用于评估

											
										
										
											2026-04-03 14:44:46 +08:00
-												feat(evaluation): session catalog, user export import, and eval web UI

- Extend evaluation API: schemas, router, repo, admin and execution services
- Improve user export markdown importer; add fixtures and importer tests
- Session catalog repo/service updates; internal app wiring and docs
- Add internal-eval.sh helper; refresh app-eval-web (App, styles, Vite)

											
										
										
											2026-04-06 13:45:04 +08:00
+								class SessionDialogueMessageOut(BaseModel):
 								    model_config = ConfigDict(from_attributes=True)
 								    role: str
 								    content: str
 								    created_at: datetime | None = None
 								class SessionDialogueOut(BaseModel):
 								    conversation_id: str
 								    messages: list[SessionDialogueMessageOut]
-												feat/ 导出开发容器内的数据用于评估

											
										
										
											2026-04-03 14:44:46 +08:00
+								class SessionListItem(BaseModel):
 								    id: str
 								    user_id: str
-												feat(evaluation): session catalog, user export import, and eval web UI

- Extend evaluation API: schemas, router, repo, admin and execution services
- Improve user export markdown importer; add fixtures and importer tests
- Session catalog repo/service updates; internal app wiring and docs
- Add internal-eval.sh helper; refresh app-eval-web (App, styles, Vite)

											
										
										
											2026-04-06 13:45:04 +08:00
+								    user_phone: str | None = Field(default=None, description="users.phone，列表展示用")
-												feat/ 导出开发容器内的数据用于评估

											
										
										
											2026-04-03 14:44:46 +08:00
+								    started_at: datetime | None
-												feat(evaluation): session catalog, user export import, and eval web UI

- Extend evaluation API: schemas, router, repo, admin and execution services
- Improve user export markdown importer; add fixtures and importer tests
- Session catalog repo/service updates; internal app wiring and docs
- Add internal-eval.sh helper; refresh app-eval-web (App, styles, Vite)

											
										
										
											2026-04-06 13:45:04 +08:00
+								    last_message_at: datetime | None = None
-												feat/ 导出开发容器内的数据用于评估

											
										
										
											2026-04-03 14:44:46 +08:00
+								    conversation_stage: str | None
 								    current_topic: str | None
 								    status: str | None
 								class SessionListResponse(BaseModel):
 								    items: list[SessionListItem]
 								    total: int
 								class SessionTranscriptOut(BaseModel):
 								    conversation_id: str
 								    user_id: str
 								    user_utterances_from_segments: list[str]
 								    user_utterances_from_messages: list[str]
-												feat(evaluation): session catalog, user export import, and eval web UI

- Extend evaluation API: schemas, router, repo, admin and execution services
- Improve user export markdown importer; add fixtures and importer tests
- Session catalog repo/service updates; internal app wiring and docs
- Add internal-eval.sh helper; refresh app-eval-web (App, styles, Vite)

											
										
										
											2026-04-06 13:45:04 +08:00
+								class UserExportFixtureTurnOut(BaseModel):
 								    user: str
 								    ai: str
 								class UserExportFixtureListOut(BaseModel):
 								    items: list[str]
-												feat/ eval

											
										
										
											2026-04-06 23:19:20 +08:00
+								class MemoirSectionBaselineOut(BaseModel):
 								    title: str
 								    body: str
-												feat(evaluation): session catalog, user export import, and eval web UI

- Extend evaluation API: schemas, router, repo, admin and execution services
- Improve user export markdown importer; add fixtures and importer tests
- Session catalog repo/service updates; internal app wiring and docs
- Add internal-eval.sh helper; refresh app-eval-web (App, styles, Vite)

											
										
										
											2026-04-06 13:45:04 +08:00
+								class UserExportFixtureDetailOut(BaseModel):
 								    filename: str
 								    turns: list[UserExportFixtureTurnOut]
-												feat/ eval

											
										
										
											2026-04-06 23:19:20 +08:00
+								    source_user_id: str | None = None
 								    memoir_sections: list[MemoirSectionBaselineOut] = Field(default_factory=list)
 								class ReplayBootstrapBody(BaseModel):
 								    user_id: str
 								class ReplayBootstrapOut(BaseModel):
 								    conversation_id: str
 								class EvalSandboxOut(BaseModel):
 								    """内部评测专用：一次性临时账号 + 空白会话，不落真实手机号业务。"""
 								    user_id: str
 								    conversation_id: str
 								    phone: str
 								    nickname: str
 								class ReplayConversationBody(BaseModel):
 								    conversation_id: str
 								    fixture_filename: str | None = None
 								    user_utterances: list[str] | None = None
 								    flush_memoir_after: bool = True
-												refactor(eval+memoir)：精简内部评测路由与服务，composite/对话摘要与 judge 能力补强

- 访谈：新增 interview_state_hints，联动 orchestrator 与提示词
- 回忆录：story_pipeline_sync/state/memory/post_commit 与 Celery 任务调整
- 基建：开发用 celery broker、compose/development 脚本、依赖注入
- eval-web：移除数据集/实验/版本等页面与流式轮询，突出 Playground
- 文档与单测同步

											
										
										
											2026-04-08 21:36:12 +08:00
+								    """为 True 且 skip_memoir 为 False 时，本批结束后 flush 回忆录队列。"""
 								    skip_memoir: bool = False
 								    """为 True 时不向回忆录防抖队列入队、不 flush（供 Playground 先只测对话）。"""
-												feat/ eval

											
										
										
											2026-04-06 23:19:20 +08:00
+								    skip_tts: bool = True
 								class ReplayConversationOut(BaseModel):
 								    conversation_id: str
 								    turns_replayed: int
 								    utterances_echo: list[str] = Field(default_factory=list)
-												feat(evaluation): memoir readiness, judge/replay updates, eval web playground

Add memoir_readiness_service and router tests; extend judge schemas/services, replay_service, and conversation rubric; align story route agent, payload, prompts, and story_pipeline_sync; update agent logging, config, and DI. Document internal-eval; add replayDraft util and PlaygroundPage changes in app-eval-web.

											
										
										
											2026-04-08 09:38:07 +08:00
+								    segment_ids: list[str] = Field(
 								        default_factory=list,
 								        description="本批请求创建并已走 orchestrator 的用户 segment id（顺序与落库一致）",
 								    )
-												feat(eval): server-side replay/phase1 timing + memoir phase1 batch chunking

- Replay and memoir-submit responses include started/finished UTC and elapsed_ms;
  Phase1 poll exposes Redis-backed submit time and elapsed_ms_since_submit.
- Phase1 batch LLM splits segments by memoir_phase1_batch_llm_chunk_size with
  bisect fallback per chunk; Playground shows server timings.

Made-with: Cursor

											
										
										
											2026-04-09 13:38:53 +08:00
+								    #: 服务端计量：本 HTTP 请求内回放逻辑耗时（与浏览器轮询间隔无关）
 								    started_at_utc: datetime | None = None
 								    finished_at_utc: datetime | None = None
 								    elapsed_ms: int | None = Field(
 								        default=None,
 								        description="服务端 wall 耗时（本请求内 replay_utterances / replay_fixture）",
 								    )
-												feat(evaluation): memoir readiness, judge/replay updates, eval web playground

Add memoir_readiness_service and router tests; extend judge schemas/services, replay_service, and conversation rubric; align story route agent, payload, prompts, and story_pipeline_sync; update agent logging, config, and DI. Document internal-eval; add replayDraft util and PlaygroundPage changes in app-eval-web.

											
										
										
											2026-04-08 09:38:07 +08:00
 								class MemoirPhase1ReadyOut(BaseModel):
 								    ready: bool
 								    checked_segment_ids: list[str] = Field(default_factory=list)
 								    pending_segment_ids: list[str] = Field(default_factory=list)
-												feat(eval): server-side replay/phase1 timing + memoir phase1 batch chunking

- Replay and memoir-submit responses include started/finished UTC and elapsed_ms;
  Phase1 poll exposes Redis-backed submit time and elapsed_ms_since_submit.
- Phase1 batch LLM splits segments by memoir_phase1_batch_llm_chunk_size with
  bisect fallback per chunk; Playground shows server timings.

Made-with: Cursor

											
										
										
											2026-04-09 13:38:53 +08:00
+								    #: 最近一次 Playground memoir-submit 写入 Redis 的提交时间（无记录时为 None）
 								    job_submitted_at_utc: datetime | None = None
 								    #: 自 job_submitted_at_utc 至本响应生成时服务端经过的毫秒数
 								    elapsed_ms_since_submit: int | None = Field(default=None, ge=0)
 								    #: 可选分步耗时（毫秒），键由服务端定义
 								    durations_ms: dict[str, int] = Field(default_factory=dict)
-												feat/ eval

											
										
										
											2026-04-06 23:19:20 +08:00
-												refactor(eval+memoir)：精简内部评测路由与服务，composite/对话摘要与 judge 能力补强

- 访谈：新增 interview_state_hints，联动 orchestrator 与提示词
- 回忆录：story_pipeline_sync/state/memory/post_commit 与 Celery 任务调整
- 基建：开发用 celery broker、compose/development 脚本、依赖注入
- eval-web：移除数据集/实验/版本等页面与流式轮询，突出 Playground
- 文档与单测同步

											
										
										
											2026-04-08 21:36:12 +08:00
+								class MemoirSubmitOut(BaseModel):
 								    conversation_id: str
 								    user_id: str
 								    segment_ids: list[str] = Field(default_factory=list)
 								    celery_task_id: str | None = None
-												feat(eval): server-side replay/phase1 timing + memoir phase1 batch chunking

- Replay and memoir-submit responses include started/finished UTC and elapsed_ms;
  Phase1 poll exposes Redis-backed submit time and elapsed_ms_since_submit.
- Phase1 batch LLM splits segments by memoir_phase1_batch_llm_chunk_size with
  bisect fallback per chunk; Playground shows server timings.

Made-with: Cursor

											
										
										
											2026-04-09 13:38:53 +08:00
+								    submitted_at_utc: datetime | None = None
 								    #: 提交接口瞬间耗时，通常为 0；与 Phase1 Celery 执行时间无关
 								    elapsed_ms: int | None = Field(default=None, ge=0)
-												refactor(eval+memoir)：精简内部评测路由与服务，composite/对话摘要与 judge 能力补强

- 访谈：新增 interview_state_hints，联动 orchestrator 与提示词
- 回忆录：story_pipeline_sync/state/memory/post_commit 与 Celery 任务调整
- 基建：开发用 celery broker、compose/development 脚本、依赖注入
- eval-web：移除数据集/实验/版本等页面与流式轮询，突出 Playground
- 文档与单测同步

											
										
										
											2026-04-08 21:36:12 +08:00
-												feat/ eval

											
										
										
											2026-04-06 23:19:20 +08:00
+								class ManualJudgeConversationBody(BaseModel):
 								    conversation_id: str
 								    """与当前评测台选中的 MD 一致，供基准 transcript / 整体打分。"""
 								    fixture_filename: str | None = None
-												refactor(eval+memoir)：精简内部评测路由与服务，composite/对话摘要与 judge 能力补强

- 访谈：新增 interview_state_hints，联动 orchestrator 与提示词
- 回忆录：story_pipeline_sync/state/memory/post_commit 与 Celery 任务调整
- 基建：开发用 celery broker、compose/development 脚本、依赖注入
- eval-web：移除数据集/实验/版本等页面与流式轮询，突出 Playground
- 文档与单测同步

											
										
										
											2026-04-08 21:36:12 +08:00
+								    judge_provider: EvalJudgeProviderLiteral = "zhipu"
 								    judge_model: str | None = None
 								    """空则用该供应商默认模型（智谱：eval_judge_model；DeepSeek：eval_judge_deepseek_model）。"""
-												feat/ eval

											
										
										
											2026-04-06 23:19:20 +08:00
 								class ManualJudgeConversationStreamBody(BaseModel):
 								    conversation_id: str
 								    fixture_filename: str | None = None
-												feat(eval): internal-eval stack, judge fixes, and eval web overhaul

- Merge internal-eval into development.sh (single Celery/infra); internal-eval.sh
  wraps with LIFE_ECHO_WITH_INTERNAL_EVAL; EVAL_ATTACH_ONLY for attaching 8001
  when :8000 is already up; document in api/docs/internal-eval.md.
- Evaluation: transcript_for_judge, judge error surfacing, rubric/schema tweaks,
  execution_service and router updates; tests for judge and composite eval.
- Memory: ingest nested transaction for embedding/enrichment rollback safety.
- Conversation WS: logger.exception for pipeline errors (avoid loguru KeyError).
- app-eval-web: Playground saved replays, dialogue turns helper, hash user_id
  for Memoir; Memoir chapter baseline↔DB row compare with title heuristics;
  Stories page (#memoir-stories); Markdown + copy buttons; toolbar/panel UI;
  react-markdown; development proxy and fixture updates.

											
										
										
											2026-04-07 17:15:01 +08:00
+								    include_turn_judges: bool = False
 								    """对当前会话逐轮调用评审 LLM（在整体分之后）。"""
 								    include_baseline_turn_judges: bool = False
 								    """对导出基线逐轮调用评审 LLM（需 fixture + 整体基线分成功）。"""
-												refactor(eval+memoir)：精简内部评测路由与服务，composite/对话摘要与 judge 能力补强

- 访谈：新增 interview_state_hints，联动 orchestrator 与提示词
- 回忆录：story_pipeline_sync/state/memory/post_commit 与 Celery 任务调整
- 基建：开发用 celery broker、compose/development 脚本、依赖注入
- eval-web：移除数据集/实验/版本等页面与流式轮询，突出 Playground
- 文档与单测同步

											
										
										
											2026-04-08 21:36:12 +08:00
+								    judge_provider: EvalJudgeProviderLiteral = "zhipu"
 								    judge_model: str | None = None
 								class RetryBaselineJudgeBody(BaseModel):
 								    conversation_id: str
 								    fixture_filename: str | None = None
 								    include_baseline_turn_judges: bool = False
 								    """与流式评分一致：成功重试基准整体分后是否补跑基线逐轮。"""
 								    judge_provider: EvalJudgeProviderLiteral = "zhipu"
 								    judge_model: str | None = None
 								class RetryBaselineJudgeOut(BaseModel):
 								    ok: bool
 								    error: str | None = None
 								    message: str | None = None
 								    baseline_judge: dict[str, Any] | None = None
 								    replay_judge: dict[str, Any] | None = None
 								    compare_summary: dict[str, Any] | None = None
 								    compare_markdown: str = ""
 								    baseline_turn_judges: dict[str, Any] = Field(default_factory=dict)
 								    errors: list[str] = Field(default_factory=list)
-												feat/ eval

											
										
										
											2026-04-06 23:19:20 +08:00
 								class ManualJudgeConversationOut(BaseModel):
 								    conversation_id: str
 								    fixture_filename: str | None = None
 								    baseline_transcript: str = ""
 								    replay_transcript: str
 								    baseline_judge: dict[str, Any] | None = None
 								    replay_judge: dict[str, Any] | None = None
-												refactor(eval+memoir)：精简内部评测路由与服务，composite/对话摘要与 judge 能力补强

- 访谈：新增 interview_state_hints，联动 orchestrator 与提示词
- 回忆录：story_pipeline_sync/state/memory/post_commit 与 Celery 任务调整
- 基建：开发用 celery broker、compose/development 脚本、依赖注入
- eval-web：移除数据集/实验/版本等页面与流式轮询，突出 Playground
- 文档与单测同步

											
										
										
											2026-04-08 21:36:12 +08:00
+								    compare_summary: dict[str, Any] | None = None
-												feat/ eval

											
										
										
											2026-04-06 23:19:20 +08:00
+								    errors: list[str] = Field(default_factory=list)
-												feat(eval): Playground GLM 评分落库并可恢复

在 conversations 表增加 playground_conversation_judge_json，流式/非流式对话评审结束后写入最近一次快照（整体分、逐轮分、对比文案、错误与基线文件名等）。新增只读 GET 供前端按会话拉取；评测台 Playground 切换会话时自动恢复，并提示基线是否和当时一致。

											
										
										
											2026-04-08 16:50:53 +08:00
+								class PlaygroundConversationJudgeOut(BaseModel):
 								    """`conversations.playground_conversation_judge_json` 的只读视图。"""
 								    conversation_id: str
 								    judge: dict[str, Any] | None = None
-												feat/ eval

											
										
										
											2026-04-06 23:19:20 +08:00
+								class ManualJudgeMemoirBody(BaseModel):
 								    user_id: str
 								    baseline_sections: list[MemoirSectionBaselineOut] | None = None
-												refactor(eval+memoir)：精简内部评测路由与服务，composite/对话摘要与 judge 能力补强

- 访谈：新增 interview_state_hints，联动 orchestrator 与提示词
- 回忆录：story_pipeline_sync/state/memory/post_commit 与 Celery 任务调整
- 基建：开发用 celery broker、compose/development 脚本、依赖注入
- eval-web：移除数据集/实验/版本等页面与流式轮询，突出 Playground
- 文档与单测同步

											
										
										
											2026-04-08 21:36:12 +08:00
+								    judge_provider: EvalJudgeProviderLiteral = "zhipu"
 								    judge_model: str | None = None
-												feat/ eval

											
										
										
											2026-04-06 23:19:20 +08:00
 								class ManualJudgeMemoirOut(BaseModel):
 								    user_id: str
 								    chapter_results: list[dict[str, Any]] = Field(default_factory=list)
 								    story_results: list[dict[str, Any]] = Field(default_factory=list)
 								class MemoirChapterSnapOut(BaseModel):
 								    id: str
 								    title: str
 								    category: str | None = None
 								    order_index: int | None = None
 								    canonical_markdown: str | None = None
 								class MemoirStorySnapOut(BaseModel):
 								    id: str
 								    title: str
 								    stage: str | None = None
 								    canonical_markdown: str | None = None
 								class UserMemoirSnapshotOut(BaseModel):
 								    user_id: str
 								    chapters: list[MemoirChapterSnapOut]
 								    stories: list[MemoirStorySnapOut]