Logs
2026-03-20 日志
这一天真正的推进,不是把自动录入跑得更激进,而是把整条链路重新拉回“什么时候才算可信”的标准上。
这一天真正支配我的,不是哪一轮实验又多提了几点,而是我开始更认真地追问: 法律文书自动录入这条链路,到底什么时候才算“可以信”。公开记录主要还是建立在本机 Codex 和 repo 产物上,Claude 本地源当天没有命中,ChatGPT 导出卡在 chatgpt.com 的 DNS,远端 Codex 也被 SSH 权限挡住;但来源一收缩,主线反而更清楚了。我反复做的不是把模型再推得更激进,而是把整条 paper-form 工作流,从“能跑、能出结果、能看指标”往“结果有没有源文依据、错的时候会怎么错、系统该不该在不确定时闭嘴”这条更硬的标准上拉。
凌晨先做的是一轮更贴近真实使用的验证。我没有停在样本文件上,而是先拿 paper-form-ai-filling 里的 gold 案例去跑一次真实的起诉状录入和 Word 导出,确认本地服务到底能不能把结构数据变成一个真正可用的文档。另一头,daily scaffold 自动化也在继续把前一天的 source bucket、synthesis 和最终稿收完,说明“怎么把一天的工作还原成能回看的判断”本身已经被做成固定动作。上午那条很短的 The human, The AGI. 也像一句旁白: 边界确实在移动,但判断并不会因此消失,人反而更需要重新定义自己在哪些地方不能偷懒。
真正的技术主线从上午十点以后变得非常明确。我先把四份标准化后的 .docx 和 staging.lvsheyun.com 的模板结构对齐,把两条新案例正式写进 dev-assets/paper-form-ai-filling,再跑 publish 和 verify,确认远端与本地一致。这个动作的重要性不在于“又加了两条数据”,而在于模板、样本和 gold 不再只是手边材料,而是被升级成可复用、可共享、可重复调用的数据基座。紧接着,注意力就转到了 filling-paper-tables 的准确度测试上,同样是这两个样本,问题已经从“能不能跑通”变成“它到底为什么错”。先是六轮 no-thinking prompt 搜索,随后又把要求收紧到至少十轮、强调“宁缺毋滥”、禁止针对测试文件专门优化。这里的收紧不是形式上的严苛,而是在承认一件事: 对这类表单系统来说,错填比缺填危险得多,漂亮的输出如果脱离源文依据,本质上只是更危险的幻觉。
傍晚以后,这条线继续往“可信”而不是“好看”推进。实验报告和结果 JSON 不再只是单轮 baseline,而是落成了完整的十轮保守化实验包,round 名称本身就在说明方向: conservative-rules、source-priority、candidate-facts、add-negative-examples、self-check、less-noise-more-structure,最后才是 final-conservative-pack。与此同时,旧的 paper-form-ai-filling regression test 被删掉,默认模型优先级也被重排,说明这一天不仅在跑实验,还在把原来的评测入口和默认配置一起换轨。晚间更关键的一步,是我开始不满足于“这个 round 分数看起来更好”,而是把评价口径继续拉回源文,改成更接近人工判读的 reason-only 方式,甚至重新怀疑部分 gold 里是不是已经混进了摘要、规范化或反推成分。回头看 3 月 20 日,最重要的推进不是又做了多少轮调参,而是我开始把这条自动录入链路从结果导向的乐观,拉回证据导向的克制。新的评测形态和默认模型顺序还要继续经回归验证,但方向已经非常明确了。