Wenmai Release Notes
Synced from docs/changelog.md
当前版本 v0.1
Diarium Operis

开发日志

版本记录 · 内容补充 · 编辑说明

v0.1
2026-05-05

notes/ 读书笔记 sidecar 约定(rev 6)

这里现在直接读取仓库里的 docs/changelog.md。工程日志和公开开发日志共用同一份来源,避免线上版本记录再和提交历史脱节。

当前收录 28 条版本记录。

notes/ 读书笔记 sidecar 约定(rev 6)

新增 authors/<slug>/notes/ 子目录约定:作家文件夹现在可以同时持有公版原文(works/,进 RAG)和 AI 生成的读书笔记 / 评论 / 导读(notes/不进 RAG)。动机是把 eanzhao/17-z.com 等外部 repo 的 commentary 字段(AI 写的导读)保留进仓库供前端展现,同时避免作家本人 voice 检索到 AI 评论 = "自己引自己"(RAG self-pollution)。

先秦作家 author-voice 模式切换收尾(issue #2)

承接 rev 5 cleanup 的 kongzi / zhuangzi 切换,本轮把剩余 6 位先秦作家全部切到 author-voice 第一人称对话模式,issue #2 关闭:

荷马史诗 corpus 入库(双层公版策略)

补齐 authors/homer/works/,落实 CLAUDE.md "古典 / 小语种作家:不出原作者 voice,多译本融合中文 voice" 路线。中译本受版权约束(罗念生/王焕生 2041+,杨宪益 2060,陈中梅在世),方案绕开通行中译本走双层公版 corpus:

先秦元数据全面修订(rev 5 cleanup)

承接同日 rev 5 schema 扩展,集中一轮 11 条并行 wave + 1 条收尾 wave,对全部先秦 49 条作者/作品条目做真伪、断代、归属逐条清理;并把符合 CLAUDE.md author-voice 标准的两位先秦人物切换到第一人称对话模式。据多源学界主流(A.C. Graham 1960/1989、Hunter & Kern 2018、Yuri Pines 2017、Edward Shaughnessy 2022/2024、chinaknowledge.de 等)。

先秦元数据:真伪 / 断代 / 归属字段扩展(rev 5)

楚辞 / 屈原语料边界整理

古希腊罗马作家与作品目录扩充(88 条目)

先秦文学目录二次补全与精校(49 条目 / 516 个作品项)

先秦文学全面收纳(+18 位新作家,2672 chunks)

对话分享、公开入口与目录维护

作品正文排版系统升级

古埃及文学扩充(+6 篇新作品,261 chunks)

美索不达米亚文学作品体系完善

新增古埃及文学(文明级条目)+ 238 chunks 入 Supabase

信息架构与视觉系统整理

批量新增 90 位中国古代文学家 + RAG 作品摄入 + author-voice 标准化

公版作品全文与内容清洗批量落地

鲁迅 corpus 扩充:故事新编 + 朝花夕拾 + 野草(+45 篇)

庄子 corpus 入 RAG(Phase 1 第二位公版作家)

搜索、流式对话与移动端聊天修复

邮箱登录:Magic Link + 验证码

部署、限流与运行时护栏

移除微信登录

chat 端到端:DeepSeek + Supabase 会话存储

用户系统:Supabase Auth + Google / Email

鲁迅 Phase 0 RAG 初版与强制引用

站点骨架、设计系统与内容底座

rev 4:v1 stack 锁定 + 版权硬规则 + 产品定位

会话来源:plan-eng-review(含 codex outside voice 第二意见)

新增的项目级硬规则

  1. chat 仅对全公版作家开放:作品没全部进入公有领域的作家,不出 AI chat 入口metadata.yaml.chat_enabled: bool 闸控,由版权状态驱动。版权未到期作家依然可以有 page.md 导读 + 影响图谱节点,只是 chat 组件不渲染。
  2. 产品定位双轨制:默认 chat 走 "基于以下文本回答 + 强制引用 + 不知道就说不知道" 的 tutor 模式;"和作家本人对话"的作家蒸馏模式作为实验性入口(隐藏或 feature flag),且 UI 必须明确"风格模拟,非作家本人"。

v1 技术栈锁定(覆盖原设计文档对应内容)

决策点 原方案 锁定方案
向量库 Qdrant Supabase pgvector(exact search,Phase 1 末向量数 >100k 时再考虑 HNSW)
API 层 Hono 或 FastAPI 独立服务 Astro server endpoints(v1 阶段 /api/chat 在 Astro 里)
托管 未明定 Cloudflare Worker(静态资源 + Astro server endpoints)
嵌入 BGE-M3 自托管或 API BGE-M3 via Cloudflare Workers AI;CI 阶段走 REST API(不是 binding)
主聊天 LLM Claude Sonnet 4.6 / GPT-5 / Qwen-Max DeepSeek Chat(个人 key 起步;provider 层后续可替换)
缓存 Redis Phase 0 公开站时上 推迟到 Phase 1(翻译网关上线时一并加,Upstash)
Auth 未明定 推迟到 Phase 2(Supabase Auth)
对话历史 未明定 Supabase chat_sessions / chat_messages;Phase 0.5 先用匿名浏览器 sessionId

Phase 0 必加(原设计文档遗漏)

Eval 策略重写

原设计文档"style classifier 5-10 sample" 路线在 codex review 中被指为假严谨。Phase 0 改为:

  1. Golden set(20-50 题):human-curated 测试集,覆盖 citation 准确性、refusal 行为、中文可读性、幻觉检查
  2. LLM-judge 仍用,但跑 golden set 而非 holdout 自相似度
  3. Style classifier 推迟到 v2(LoRA 真训出来时才有意义,否则学的是 prompt 工程艺术品而非作家风格)
  4. 人工评估:Phase 0 不做(太早);Phase 1 末有外部访问后再启动

Phase 0 种子作家:博尔赫斯 → 鲁迅

Codex outside voice 全部采纳的技术修正

已保留的设计(codex 提了但我们坚持的)