api/tests/test_eval_judge_llm_spec.py

"""评测评审 LLM 装配：多供应商与上下文预算。"""

import pytest

from app.core.config import settings
from app.core.dependencies import build_eval_judge_llm_spec
from app.features.evaluation.judge_service import (
    eval_judge_compare_transcript_each_max_chars_for_context,
    eval_judge_conversation_transcript_max_chars_for_context,
)


def test_build_eval_judge_zhipu_uses_bigmodel_defaults(
    monkeypatch: pytest.MonkeyPatch,
) -> None:
    monkeypatch.setattr(settings, "eval_judge_api_key", "")
    monkeypatch.setattr(settings, "zhipu_api_key", "z-test")
    monkeypatch.setattr(settings, "eval_judge_model", "glm-5")
    spec = build_eval_judge_llm_spec("zhipu", None)
    assert spec is not None
    assert spec.provider == "zhipu"
    assert spec.resolved_model == "glm-5"
    assert spec.llm is not None
    assert spec.context_window_tokens == settings.eval_judge_context_window_tokens


def test_build_eval_judge_zhipu_request_model_override(
    monkeypatch: pytest.MonkeyPatch,
) -> None:
    monkeypatch.setattr(settings, "eval_judge_api_key", "e-test")
    monkeypatch.setattr(settings, "eval_judge_model", "glm-5")
    spec = build_eval_judge_llm_spec("zhipu", "glm-4-plus")
    assert spec is not None
    assert spec.resolved_model == "glm-4-plus"


def test_build_eval_judge_deepseek_requires_key(
    monkeypatch: pytest.MonkeyPatch,
) -> None:
    monkeypatch.setattr(settings, "deepseek_api_key", "")
    monkeypatch.setattr(settings, "llm_api_key", "")
    assert build_eval_judge_llm_spec("deepseek", None) is None


def test_build_eval_judge_deepseek_v4_flash_non_thinking_default_path(
    monkeypatch: pytest.MonkeyPatch,
) -> None:
    """默认 deepseek-v4-flash 且关闭 thinking 时显式传 disabled（避免 API 默认 enabled）。"""
    monkeypatch.setattr(settings, "deepseek_api_key", "d-test")
    monkeypatch.setattr(settings, "eval_judge_deepseek_model", "deepseek-v4-flash")
    monkeypatch.setattr(settings, "eval_judge_deepseek_thinking_enabled", False)
    spec = build_eval_judge_llm_spec("deepseek", None)
    assert spec is not None
    assert spec.resolved_model == "deepseek-v4-flash"
    assert spec.llm.extra_body == {"thinking": {"type": "disabled"}}
    assert spec.llm.reasoning_effort is None


def test_build_eval_judge_deepseek_context_budget(
    monkeypatch: pytest.MonkeyPatch,
) -> None:
    monkeypatch.setattr(settings, "deepseek_api_key", "d-test")
    monkeypatch.setattr(settings, "eval_judge_deepseek_model", "deepseek-reasoner")
    monkeypatch.setattr(settings, "eval_judge_deepseek_context_window_tokens", 64_000)
    spec = build_eval_judge_llm_spec("deepseek", None)
    assert spec is not None
    assert spec.provider == "deepseek"
    # 旧名 deepseek-reasoner 规范为 v4-flash 思考模式
    assert spec.resolved_model == "deepseek-v4-flash"
    assert spec.context_window_tokens == 64_000
    n = eval_judge_conversation_transcript_max_chars_for_context(64_000)
    glm_n = eval_judge_conversation_transcript_max_chars_for_context(200_000)
    assert n < glm_n
    each_ds = eval_judge_compare_transcript_each_max_chars_for_context(64_000)
    each_glm = eval_judge_compare_transcript_each_max_chars_for_context(200_000)
    assert each_ds < each_glm
-												refactor(eval+memoir)：精简内部评测路由与服务，composite/对话摘要与 judge 能力补强

- 访谈：新增 interview_state_hints，联动 orchestrator 与提示词
- 回忆录：story_pipeline_sync/state/memory/post_commit 与 Celery 任务调整
- 基建：开发用 celery broker、compose/development 脚本、依赖注入
- eval-web：移除数据集/实验/版本等页面与流式轮询，突出 Playground
- 文档与单测同步

											
										
										
											2026-04-08 21:36:12 +08:00
+								"""评测评审 LLM 装配：多供应商与上下文预算。"""
 								import pytest
 								from app.core.config import settings
 								from app.core.dependencies import build_eval_judge_llm_spec
 								from app.features.evaluation.judge_service import (
 								    eval_judge_compare_transcript_each_max_chars_for_context,
 								    eval_judge_conversation_transcript_max_chars_for_context,
 								)
-												feat:
1. 建立问题库大纲，对应每个人生阶段槽位
2. 鼓励使用更生活化的交流语言共情与总结
3. 降低评审模型可能发生截断的概率
4. 成稿质量维度强化情感表达和上下文连贯性

											
										
										
											2026-04-09 15:32:35 +08:00
+								def test_build_eval_judge_zhipu_uses_bigmodel_defaults(
 								    monkeypatch: pytest.MonkeyPatch,
 								) -> None:
-												refactor(eval+memoir)：精简内部评测路由与服务，composite/对话摘要与 judge 能力补强

- 访谈：新增 interview_state_hints，联动 orchestrator 与提示词
- 回忆录：story_pipeline_sync/state/memory/post_commit 与 Celery 任务调整
- 基建：开发用 celery broker、compose/development 脚本、依赖注入
- eval-web：移除数据集/实验/版本等页面与流式轮询，突出 Playground
- 文档与单测同步

											
										
										
											2026-04-08 21:36:12 +08:00
+								    monkeypatch.setattr(settings, "eval_judge_api_key", "")
 								    monkeypatch.setattr(settings, "zhipu_api_key", "z-test")
 								    monkeypatch.setattr(settings, "eval_judge_model", "glm-5")
 								    spec = build_eval_judge_llm_spec("zhipu", None)
 								    assert spec is not None
 								    assert spec.provider == "zhipu"
 								    assert spec.resolved_model == "glm-5"
 								    assert spec.llm is not None
 								    assert spec.context_window_tokens == settings.eval_judge_context_window_tokens
-												feat:
1. 建立问题库大纲，对应每个人生阶段槽位
2. 鼓励使用更生活化的交流语言共情与总结
3. 降低评审模型可能发生截断的概率
4. 成稿质量维度强化情感表达和上下文连贯性

											
										
										
											2026-04-09 15:32:35 +08:00
+								def test_build_eval_judge_zhipu_request_model_override(
 								    monkeypatch: pytest.MonkeyPatch,
 								) -> None:
-												refactor(eval+memoir)：精简内部评测路由与服务，composite/对话摘要与 judge 能力补强

- 访谈：新增 interview_state_hints，联动 orchestrator 与提示词
- 回忆录：story_pipeline_sync/state/memory/post_commit 与 Celery 任务调整
- 基建：开发用 celery broker、compose/development 脚本、依赖注入
- eval-web：移除数据集/实验/版本等页面与流式轮询，突出 Playground
- 文档与单测同步

											
										
										
											2026-04-08 21:36:12 +08:00
+								    monkeypatch.setattr(settings, "eval_judge_api_key", "e-test")
 								    monkeypatch.setattr(settings, "eval_judge_model", "glm-5")
 								    spec = build_eval_judge_llm_spec("zhipu", "glm-4-plus")
 								    assert spec is not None
 								    assert spec.resolved_model == "glm-4-plus"
-												feat:
1. 建立问题库大纲，对应每个人生阶段槽位
2. 鼓励使用更生活化的交流语言共情与总结
3. 降低评审模型可能发生截断的概率
4. 成稿质量维度强化情感表达和上下文连贯性

											
										
										
											2026-04-09 15:32:35 +08:00
+								def test_build_eval_judge_deepseek_requires_key(
 								    monkeypatch: pytest.MonkeyPatch,
 								) -> None:
-												refactor(eval+memoir)：精简内部评测路由与服务，composite/对话摘要与 judge 能力补强

- 访谈：新增 interview_state_hints，联动 orchestrator 与提示词
- 回忆录：story_pipeline_sync/state/memory/post_commit 与 Celery 任务调整
- 基建：开发用 celery broker、compose/development 脚本、依赖注入
- eval-web：移除数据集/实验/版本等页面与流式轮询，突出 Playground
- 文档与单测同步

											
										
										
											2026-04-08 21:36:12 +08:00
+								    monkeypatch.setattr(settings, "deepseek_api_key", "")
 								    monkeypatch.setattr(settings, "llm_api_key", "")
 								    assert build_eval_judge_llm_spec("deepseek", None) is None
-												feat(api)!: memory single chain — async MemoryService, strict eval closure

Route all memory ingest/retrieve/enrichment/compaction through async MemoryService.
Remove legacy sync memory implementations (ingest/retrieve/compaction); Celery and
memoir Phase2 call asyncio.run into MemoryService-backed helpers.

Memoir Phase1 batch ingest uses MemoryService.ingest_transcripts_batch; drop chapters.
evidence_bundle_json mirror (Alembic 0015). Evaluation uses snapshot/link-only bundles;
raise EvidenceClosureMissing instead of partial/fallback lineage tiers.

Split memoir state into NarrativeCoverageState and InterviewControlState; delete the
_interview_meta_store adapter layer. Remove rolling-query and recent-fact fallback
settings from config and evidence assembly.

Update judges, docs, tests, and PlaygroundPage alignment.

Made-with: Cursor

											
										
										
											2026-04-30 14:11:46 +08:00
+								def test_build_eval_judge_deepseek_v4_flash_non_thinking_default_path(
 								    monkeypatch: pytest.MonkeyPatch,
 								) -> None:
 								    """默认 deepseek-v4-flash 且关闭 thinking 时显式传 disabled（避免 API 默认 enabled）。"""
 								    monkeypatch.setattr(settings, "deepseek_api_key", "d-test")
 								    monkeypatch.setattr(settings, "eval_judge_deepseek_model", "deepseek-v4-flash")
 								    monkeypatch.setattr(settings, "eval_judge_deepseek_thinking_enabled", False)
 								    spec = build_eval_judge_llm_spec("deepseek", None)
 								    assert spec is not None
 								    assert spec.resolved_model == "deepseek-v4-flash"
 								    assert spec.llm.extra_body == {"thinking": {"type": "disabled"}}
 								    assert spec.llm.reasoning_effort is None
-												feat:
1. 建立问题库大纲，对应每个人生阶段槽位
2. 鼓励使用更生活化的交流语言共情与总结
3. 降低评审模型可能发生截断的概率
4. 成稿质量维度强化情感表达和上下文连贯性

											
										
										
											2026-04-09 15:32:35 +08:00
+								def test_build_eval_judge_deepseek_context_budget(
 								    monkeypatch: pytest.MonkeyPatch,
 								) -> None:
-												refactor(eval+memoir)：精简内部评测路由与服务，composite/对话摘要与 judge 能力补强

- 访谈：新增 interview_state_hints，联动 orchestrator 与提示词
- 回忆录：story_pipeline_sync/state/memory/post_commit 与 Celery 任务调整
- 基建：开发用 celery broker、compose/development 脚本、依赖注入
- eval-web：移除数据集/实验/版本等页面与流式轮询，突出 Playground
- 文档与单测同步

											
										
										
											2026-04-08 21:36:12 +08:00
+								    monkeypatch.setattr(settings, "deepseek_api_key", "d-test")
 								    monkeypatch.setattr(settings, "eval_judge_deepseek_model", "deepseek-reasoner")
 								    monkeypatch.setattr(settings, "eval_judge_deepseek_context_window_tokens", 64_000)
 								    spec = build_eval_judge_llm_spec("deepseek", None)
 								    assert spec is not None
 								    assert spec.provider == "deepseek"
-												feat(api): DeepSeek V4 Flash 默认、HTTP 错讯与多供应商分层

- 主链路默认 deepseek-v4-flash，DEEPSEEK_THINKING_ENABLED 对齐旧非思考 chat
- 评测台评审装配迁入 adapters/llm（deepseek_eval_judge、zhipu_eval_judge）与 eval_judge_spec
- 拆分 llm_http_openai_chat_errors 与 llm_errors（DeepSeek/智谱品牌与文档链），llm_call 支持 http_error_vendor
- EvalJudgeService 按 spec.provider 传入 allm_json_call；评测台前端文案改为 V4 Flash
- 更新 .env 示例与 staging/production 的 DEEPSEEK_MODEL；补充 openai/供应商错讯测试

Made-with: Cursor

											
										
										
											2026-04-27 14:34:30 +08:00
+								    # 旧名 deepseek-reasoner 规范为 v4-flash 思考模式
 								    assert spec.resolved_model == "deepseek-v4-flash"
-												refactor(eval+memoir)：精简内部评测路由与服务，composite/对话摘要与 judge 能力补强

- 访谈：新增 interview_state_hints，联动 orchestrator 与提示词
- 回忆录：story_pipeline_sync/state/memory/post_commit 与 Celery 任务调整
- 基建：开发用 celery broker、compose/development 脚本、依赖注入
- eval-web：移除数据集/实验/版本等页面与流式轮询，突出 Playground
- 文档与单测同步

											
										
										
											2026-04-08 21:36:12 +08:00
+								    assert spec.context_window_tokens == 64_000
 								    n = eval_judge_conversation_transcript_max_chars_for_context(64_000)
 								    glm_n = eval_judge_conversation_transcript_max_chars_for_context(200_000)
 								    assert n < glm_n
 								    each_ds = eval_judge_compare_transcript_each_max_chars_for_context(64_000)
 								    each_glm = eval_judge_compare_transcript_each_max_chars_for_context(200_000)
 								    assert each_ds < each_glm