Logs

2026-03-21 日志

这一天最重要的推进，不是再试更多模型，而是把法律文书自动录入重新拉回“只写证据支持的内容”。

2026年3月21日

这一天真正支配我的，不是哪一个模型又多填了几个字段，而是我开始更明确地追问: 法律文书自动录入这件事，到底什么时候才算能信。公开记录主要依赖本机 Codex 和 repo 产物重建，Claude 本地没有命中，ChatGPT 导出卡在 chatgpt.com 解析，远端 Codex 也被 SSH 权限挡住；但来源一收缩，主线反而更清楚了。我反复做的不是把系统推得更“会答题”，而是把它从“尽量填满、尽量像理解了”拉回“只录入材料真正支持的内容，宁可少填也不能错填，最后要让法务敢信”这条更硬的标准上。

凌晨还在收前一天的尾巴，但问题已经变得很具体了。我继续追 _1 这类错键为什么会出现，源文不支持时到底该留空还是填“否”，以及 gold 里是不是已经混进了补全和规范化。另一边，daily scaffold 和 publish daily log 两条自动化还在照常运行，一条整理私有 source bucket 和 synthesis，一条把 scaffold 转成公开日志。它们像背景噪音一样在跑，却也更衬出当天真正的冲突不在“有没有记录下来”，而在“我到底知不知道什么才算正确录入”。

到了下午，整条实验线被重新起跑了一次。我先明确指出可疑 gold，要求撤掉当前分支里的实验残留，只保留刚确认过的 gold 修正，然后从 DOUBAO 1.6 + 原 prompt 重新做 baseline，再把 doubao-2-0-mini、doubao-seed-2-0-lite、deepseek v3.2、gpt-5.4 low 一起铺开。这个动作的意义不在于同时多试几个模型，而在于把之前缠在一起的东西重新拆开: 哪些问题是 gold 自己的，哪些是 prompt 在鼓励模型乱补，哪些才是模型本身的边界。评价标准也因此从“哪个更好”转成了“哪个更能被律师或法务接受”，而一旦用法律底稿能否放心交出去来衡量，错填的风险就立刻比覆盖率更重要。

傍晚之后，我把注意力从比较模型切到了重写 prompt 的基本哲学。先是“最小元概念”，随后是“第一性原理”，中间又试了几轮没有超过基线的变体，最后才收束到 carry-r4。真正发生变化的，不只是几句提示词，而是我对这项任务的理解: 模型不是写作者，而是录入员；录入优先于表达；能直接搬运的就不要改写；材料沉默时不要替它作答；每段信息都应该进入最贴切的字段，而不是被拆开去填满别的格子。工作区里对 paper-template-prompt.ts 的修改把这种收紧写得很直白，但更关键的是，白天那一串原 prompt、minmeta、firstprinciples、carry-r4 的对比已经反复证明，这条链路最危险的地方不是不够聪明，而是太容易自作主张。

临近午夜，这一天终于收成了一个更接近业务判断的结论。我开始把问题压缩成金额到底是“算错”还是“口径串位”，哪些模型只是漏得多，哪些模型则会把没有的内容补出来，最后才得出一个已经更像风险排序而不是技术排名的结论: DOUBAO 1.6 + 原 prompt 仍然最保守，GPT-5.4 low + carry-r4 最值得继续打 prompt 上限，DEEPSEEK V3.2 + carry-r4 也有进步但金额边界还不够稳。这个收口稍微跨进了 3 月 22 日凌晨，但显然属于 3 月 21 日的尾声。回头看，这一天最重要的推进不是又多拿到了多少实验目录，而是我终于更认真地把自动录入这件事从“生成一个看起来像答案的东西”，改回“在证据允许的地方录入，在证据不够时闭嘴”。还没完全收住的口也都停在这里: gold 还需要继续清，carry-r4 之后哪些模型真有稳定提升还要再回归，而“法务敢不敢信”已经取代“字段是不是填得多”，变成了接下来真正要守的标准。