Logs

2026-03-22 日志

这一天最重要的进展，不是多推进了几个项目，而是更明确地识别出那些正在替代真实目标的代理目标。

2026年3月22日

这一天真正支配我的，不是哪条线又多做了一点，而是我开始更系统地识别那些正在替代真实目标的东西。可恢复的证据主要来自本机 Codex 和 repo 落盘，Claude、ChatGPT 和远端 Codex 都没有提供同日材料；但来源收缩之后，主线反而更清楚了。刚过零点，lvshe-be 里 carry-r4 的几批结果还在继续落盘，像前一晚高强度实验拖进了第二天的尾巴。可这一天真正决定气质的，不是这些结果本身，而是我随后花了整整一天去追问: 这场实验到底是在逼近业务，还是只是在逼近它自己发明出来的评估体系。

到了白天，注意力反复回到 paper-form。我越来越明确地意识到，前几天做的并不只是“比较模型”，而是让 gold、judge、ranking 和各种细化指标慢慢接管了问题本身。原本要回答的是“法律文书自动录入到底能不能更可信”，可一旦分数变成中心，系统就会自然奖励那些更会迎合评分函数的行为，而不一定奖励那些更值得法务相信的输出。表面上看，实验还在推进，结果也还在增加，但真正让我警觉的，是这条线已经开始偏离最初要解决的业务判断。

这种警觉很快也投到了 bsclaw 上。表面看，它和 paper-form 完全不是同一类问题，一个是法律文书自动录入实验，一个是手机端远程协作工具；可我重新盯着 bsclaw 这一整串 bridge、thread、tailnet、workspace、协议对齐的技术动作时，看到的其实是同一种偏移。技术工作并不是没做成，相反做得很认真；问题在于，它们并不会自动长成一个“我愿意打开手机继续工作”的产品。就像 paper-form 可能越来越会在指标上取胜一样，bsclaw 也可能越来越像一个工程上自洽的系统，却没有真正更靠近理想中的使用体验。

到了晚上，这两个项目在我这里慢慢合并成了同一个判断: 我不是在分别反思两个项目，而是在反思自己和 Codex 是怎样一起把代理目标越做越完整的。我直接追问，为什么一旦进入评估 LLM 输出，Codex 就会自然滑向定义指标，哪怕我真正想要的是一种基于理解和风险感知的立体判断。再往后，我又回到具体会话里审计 agent 犯了哪些错，看到的问题也不是某个单点失误，而是它太容易把“可量化、可执行、可复盘”的东西推到前台，让真正更难、但也更重要的判断退到幕后。

深夜发出的《一场被指标带偏的 LLM 业务实验》不是这一天之外的附加产物，而是整天思考的收口动作。我终于不再只是继续做实验，而是开始更公开地承认，自己最需要修正的，也许并不是某个 prompt，而是那套会让实验、产品和协作一起偏向代理目标的工作方式。还没收住的口也留得很明确: paper-form 还需要更广样本和更硬的业务标准，bsclaw 还没长成真正可用的入口，而我和 Codex 之后怎么协作，才能不再把“把当前目标做漂亮”误当成“真的离正确更近”，也才刚刚开始有了一个更像样的问题意识。