Logs

不再接受差不多

这一天真正推进的，不是某个样本勉强过关，而是我开始拒绝“看起来差不多对了”这种会误导判断的中间态。

2026年4月19日

4 月 19 日最重要的变化，不是哪一个样本终于被修好，而是我开始明确拒绝“看起来差不多对了”这种中间态。当天能确认的主要证据来自本地 Codex、openword 仓库产物和一段 ChatGPT 导出；本地 Claude 这天为空，remote Codex 也没有恢复出有效痕迹，所以整条主线几乎都落在 openword 上，而且落得很硬：不是继续给旧标准找借口，而是逼它重新承担裁判职责。

零点刚过，edu-005 就把问题顶到了台面上。表面上它越来越像“已经对齐”，但我真正盯住的不是视觉安慰，而是这些结果到底还能不能作为自动化回归的校正标准。于是接下来的工作都在追问同一件事：文字贴近 top border，到底是渲染没对齐，还是标准本身看错了；换行位置和 WPS 不同，到底是残差，还是我们一直在用错误口径读它。到早上八点多，视觉上已经几乎一致，但我反而继续收紧要求，去追 glyph local-x 还算不算问题，也追问最近是不是把标准放宽得太多。真正的转折，不是“005 终于绿了”，而是我明确放弃了“既然现在看起来对，就把标准松一点”的路线。

随后 gov-004 把这件事从单个样本的怀疑，推成了整套严格标准的重建。这里已经不是简单的字行位置，而是更难糊弄的浏览器真相：单元格内容在 WPS 里明明应该垂直居中，OW 却整体偏上；第一页 定点医院意见 明明该有 bottom border，OW 却没画出来。也正是在这一段里，比较链路本身开始被收紧，连浏览器接入方式也被重新要求了一遍：不要再靠 autoConnect 和手动 Allow 的脆弱流程，而是改用独立 profile，把对照环境也做成能稳定复用的工具。

仓库里的产物把这种转向钉得很实。白天先是 edu-005 在 strict-2026-04-19 口径下被重新打开，承认旧的零残差结论并不可信；接着 gov-004 把 browser-rendered table evidence 这条路真正打通，证明更严的标准不是只会制造更多红点，也能给出一个更像 WPS 真相的全绿结果。夜里，这套标准又被正式写成文档、加上版本号、补上 merged-cell 回归测试，然后才轮到 consulate-002 在新口径下拿到一次干净的通过。顺序本身很关键：不是先宣布成功，再回头补文档，而是先把裁判修好，再允许样本重新赢一次。

下午那段 ChatGPT 里对 Claude Design 的研究，只是一条很短的岔路，但它和主线的气质很一致。我问的不是“它为什么看起来这么强”，而是“这种强到底来自模型本身，还是来自上下文注入、可执行原型、评估闭环和代码交付共同堆出来的系统能力”。这和我对 openword 做的事其实是同一种执念：不接受表象，不接受魔法解释，要把“为什么它现在看起来对”拆成可以复核的结构。回头看，这一天真正被修好的不是某个单点残差，而是“严格标准”这件事本身。edu-005 还留着非零残差，gov-005 也已经在夜里接上，准备成为下一轮更硬的压力测试，但至少从这一天开始，“差不多”已经不再能充当结论。