Logs
不再接受差不多
这一天真正推进的,不是某个样本勉强过关,而是我开始拒绝“看起来差不多对了”这种会误导判断的中间态。
4 月 19 日最重要的变化,不是哪一个样本终于被修好,而是我开始明确拒绝“看起来差不多对了”这种中间态。当天能确认的主要证据来自本地 Codex、openword 仓库产物和一段 ChatGPT 导出;本地 Claude 这天为空,remote Codex 也没有恢复出有效痕迹,所以整条主线几乎都落在 openword 上,而且落得很硬:不是继续给旧标准找借口,而是逼它重新承担裁判职责。
零点刚过,edu-005 就把问题顶到了台面上。表面上它越来越像“已经对齐”,但我真正盯住的不是视觉安慰,而是这些结果到底还能不能作为自动化回归的校正标准。于是接下来的工作都在追问同一件事:文字贴近 top border,到底是渲染没对齐,还是标准本身看错了;换行位置和 WPS 不同,到底是残差,还是我们一直在用错误口径读它。到早上八点多,视觉上已经几乎一致,但我反而继续收紧要求,去追 glyph local-x 还算不算问题,也追问最近是不是把标准放宽得太多。真正的转折,不是“005 终于绿了”,而是我明确放弃了“既然现在看起来对,就把标准松一点”的路线。
随后 gov-004 把这件事从单个样本的怀疑,推成了整套严格标准的重建。这里已经不是简单的字行位置,而是更难糊弄的浏览器真相:单元格内容在 WPS 里明明应该垂直居中,OW 却整体偏上;第一页 定点医院意见 明明该有 bottom border,OW 却没画出来。也正是在这一段里,比较链路本身开始被收紧,连浏览器接入方式也被重新要求了一遍:不要再靠 autoConnect 和手动 Allow 的脆弱流程,而是改用独立 profile,把对照环境也做成能稳定复用的工具。
仓库里的产物把这种转向钉得很实。白天先是 edu-005 在 strict-2026-04-19 口径下被重新打开,承认旧的零残差结论并不可信;接着 gov-004 把 browser-rendered table evidence 这条路真正打通,证明更严的标准不是只会制造更多红点,也能给出一个更像 WPS 真相的全绿结果。夜里,这套标准又被正式写成文档、加上版本号、补上 merged-cell 回归测试,然后才轮到 consulate-002 在新口径下拿到一次干净的通过。顺序本身很关键:不是先宣布成功,再回头补文档,而是先把裁判修好,再允许样本重新赢一次。
下午那段 ChatGPT 里对 Claude Design 的研究,只是一条很短的岔路,但它和主线的气质很一致。我问的不是“它为什么看起来这么强”,而是“这种强到底来自模型本身,还是来自上下文注入、可执行原型、评估闭环和代码交付共同堆出来的系统能力”。这和我对 openword 做的事其实是同一种执念:不接受表象,不接受魔法解释,要把“为什么它现在看起来对”拆成可以复核的结构。回头看,这一天真正被修好的不是某个单点残差,而是“严格标准”这件事本身。edu-005 还留着非零残差,gov-005 也已经在夜里接上,准备成为下一轮更硬的压力测试,但至少从这一天开始,“差不多”已经不再能充当结论。