Files

Kevin aa6df9eb55 docs: add TTS interrupt and read-aloud design plan

Made-with: Cursor

2026-03-26 14:32:30 +08:00

TTS 打断、朗读态与重复朗读 — 设计定稿

日期： 2026-03-26
范围： Expo 对话页；后端已具备 TTS 上传与 URL 落库，本设计侧重客户端与可选协议增强。

1. 目标

手势分工： 气泡空白区域在播放中 = 停止；独立「朗读 / 再读」控件 = 开始或重播，避免与「点一下停」冲突。

重复朗读策略： 客户端从消息读取 ttsAudioUrls，按顺序 enqueue；无需新增「按文本重合成」接口作为默认路径。

扩展：kind: 'tts_auto' | 'tts_repeat' | 'voice'（或保留 label 并规范化）。
messageRef?: { listKey: string }（或 messageId），用于高亮对应气泡。
入队时：自动 TTS 片段写入 kind: 'tts_auto' + 当前助手消息引用（若能从会话层解析）；手动「再读」写入 kind: 'tts_repeat' + 该条 listKey。

TtsSegmentPayload 携带 index / total（类型已存在，需从 client 映射到回调）。
理想情况：后端在 tts_audio 中增加 assistant_message_id（或与 segment 对齐的 id），便于客户端稳定绑定「哪一条在播」。未上字段前： 流式阶段可仅用「当前 streaming 轮次」+ 全局条提示；落库后以 messageId + ttsAudioUrls 为准。

stop()： 已在 usePlayer；在开始录音成功后调用 stop()，保证队列清空（除 audioFocus 外，逻辑上立即静音）。
服务端后续片段： 若用户已 stop() 仍收到 tts_audio，可能再次入队。推荐客户端维护 ttsPlaybackGeneration（打断时自增），仅处理与当前 generation 匹配的片段；或后续增加 tts_cancel WS 与 pipeline 短路（可选）。