Logs

2026-03-20 日志

这一天真正的推进，不是把自动录入跑得更激进，而是把整条链路重新拉回“什么时候才算可信”的标准上。

2026年3月20日

这一天真正支配我的，不是哪一轮实验又多提了几点，而是我开始更认真地追问: 法律文书自动录入这条链路，到底什么时候才算“可以信”。公开记录主要还是建立在本机 Codex 和 repo 产物上，Claude 本地源当天没有命中，ChatGPT 导出卡在 chatgpt.com 的 DNS，远端 Codex 也被 SSH 权限挡住；但来源一收缩，主线反而更清楚了。我反复做的不是把模型再推得更激进，而是把整条 paper-form 工作流，从“能跑、能出结果、能看指标”往“结果有没有源文依据、错的时候会怎么错、系统该不该在不确定时闭嘴”这条更硬的标准上拉。

凌晨先做的是一轮更贴近真实使用的验证。我没有停在样本文件上，而是先拿 paper-form-ai-filling 里的 gold 案例去跑一次真实的起诉状录入和 Word 导出，确认本地服务到底能不能把结构数据变成一个真正可用的文档。另一头，daily scaffold 自动化也在继续把前一天的 source bucket、synthesis 和最终稿收完，说明“怎么把一天的工作还原成能回看的判断”本身已经被做成固定动作。上午那条很短的 The human, The AGI. 也像一句旁白: 边界确实在移动，但判断并不会因此消失，人反而更需要重新定义自己在哪些地方不能偷懒。

真正的技术主线从上午十点以后变得非常明确。我先把四份标准化后的 .docx 和 staging.lvsheyun.com 的模板结构对齐，把两条新案例正式写进 dev-assets/paper-form-ai-filling，再跑 publish 和 verify，确认远端与本地一致。这个动作的重要性不在于“又加了两条数据”，而在于模板、样本和 gold 不再只是手边材料，而是被升级成可复用、可共享、可重复调用的数据基座。紧接着，注意力就转到了 filling-paper-tables 的准确度测试上，同样是这两个样本，问题已经从“能不能跑通”变成“它到底为什么错”。先是六轮 no-thinking prompt 搜索，随后又把要求收紧到至少十轮、强调“宁缺毋滥”、禁止针对测试文件专门优化。这里的收紧不是形式上的严苛，而是在承认一件事: 对这类表单系统来说，错填比缺填危险得多，漂亮的输出如果脱离源文依据，本质上只是更危险的幻觉。

傍晚以后，这条线继续往“可信”而不是“好看”推进。实验报告和结果 JSON 不再只是单轮 baseline，而是落成了完整的十轮保守化实验包，round 名称本身就在说明方向: conservative-rules、source-priority、candidate-facts、add-negative-examples、self-check、less-noise-more-structure，最后才是 final-conservative-pack。与此同时，旧的 paper-form-ai-filling regression test 被删掉，默认模型优先级也被重排，说明这一天不仅在跑实验，还在把原来的评测入口和默认配置一起换轨。晚间更关键的一步，是我开始不满足于“这个 round 分数看起来更好”，而是把评价口径继续拉回源文，改成更接近人工判读的 reason-only 方式，甚至重新怀疑部分 gold 里是不是已经混进了摘要、规范化或反推成分。回头看 3 月 20 日，最重要的推进不是又做了多少轮调参，而是我开始把这条自动录入链路从结果导向的乐观，拉回证据导向的克制。新的评测形态和默认模型顺序还要继续经回归验证，但方向已经非常明确了。