Logs

2026-03-21 日志

这一天最重要的推进,不是再试更多模型,而是把法律文书自动录入重新拉回“只写证据支持的内容”。

  • daily-log
  • paper-form
  • prompt
  • benchmark
  • evaluation

这一天真正支配我的,不是哪一个模型又多填了几个字段,而是我开始更明确地追问: 法律文书自动录入这件事,到底什么时候才算能信。公开记录主要依赖本机 Codex 和 repo 产物重建,Claude 本地没有命中,ChatGPT 导出卡在 chatgpt.com 解析,远端 Codex 也被 SSH 权限挡住;但来源一收缩,主线反而更清楚了。我反复做的不是把系统推得更“会答题”,而是把它从“尽量填满、尽量像理解了”拉回“只录入材料真正支持的内容,宁可少填也不能错填,最后要让法务敢信”这条更硬的标准上。

凌晨还在收前一天的尾巴,但问题已经变得很具体了。我继续追 _1 这类错键为什么会出现,源文不支持时到底该留空还是填“否”,以及 gold 里是不是已经混进了补全和规范化。另一边,daily scaffold 和 publish daily log 两条自动化还在照常运行,一条整理私有 source bucket 和 synthesis,一条把 scaffold 转成公开日志。它们像背景噪音一样在跑,却也更衬出当天真正的冲突不在“有没有记录下来”,而在“我到底知不知道什么才算正确录入”。

到了下午,整条实验线被重新起跑了一次。我先明确指出可疑 gold,要求撤掉当前分支里的实验残留,只保留刚确认过的 gold 修正,然后从 DOUBAO 1.6 + 原 prompt 重新做 baseline,再把 doubao-2-0-minidoubao-seed-2-0-litedeepseek v3.2gpt-5.4 low 一起铺开。这个动作的意义不在于同时多试几个模型,而在于把之前缠在一起的东西重新拆开: 哪些问题是 gold 自己的,哪些是 prompt 在鼓励模型乱补,哪些才是模型本身的边界。评价标准也因此从“哪个更好”转成了“哪个更能被律师或法务接受”,而一旦用法律底稿能否放心交出去来衡量,错填的风险就立刻比覆盖率更重要。

傍晚之后,我把注意力从比较模型切到了重写 prompt 的基本哲学。先是“最小元概念”,随后是“第一性原理”,中间又试了几轮没有超过基线的变体,最后才收束到 carry-r4。真正发生变化的,不只是几句提示词,而是我对这项任务的理解: 模型不是写作者,而是录入员;录入优先于表达;能直接搬运的就不要改写;材料沉默时不要替它作答;每段信息都应该进入最贴切的字段,而不是被拆开去填满别的格子。工作区里对 paper-template-prompt.ts 的修改把这种收紧写得很直白,但更关键的是,白天那一串原 prompt、minmetafirstprinciplescarry-r4 的对比已经反复证明,这条链路最危险的地方不是不够聪明,而是太容易自作主张。

临近午夜,这一天终于收成了一个更接近业务判断的结论。我开始把问题压缩成金额到底是“算错”还是“口径串位”,哪些模型只是漏得多,哪些模型则会把没有的内容补出来,最后才得出一个已经更像风险排序而不是技术排名的结论: DOUBAO 1.6 + 原 prompt 仍然最保守,GPT-5.4 low + carry-r4 最值得继续打 prompt 上限,DEEPSEEK V3.2 + carry-r4 也有进步但金额边界还不够稳。这个收口稍微跨进了 3 月 22 日凌晨,但显然属于 3 月 21 日的尾声。回头看,这一天最重要的推进不是又多拿到了多少实验目录,而是我终于更认真地把自动录入这件事从“生成一个看起来像答案的东西”,改回“在证据允许的地方录入,在证据不够时闭嘴”。还没完全收住的口也都停在这里: gold 还需要继续清,carry-r4 之后哪些模型真有稳定提升还要再回归,而“法务敢不敢信”已经取代“字段是不是填得多”,变成了接下来真正要守的标准。