Logs
2026-03-22 日志
这一天最重要的进展,不是多推进了几个项目,而是更明确地识别出那些正在替代真实目标的代理目标。
这一天真正支配我的,不是哪条线又多做了一点,而是我开始更系统地识别那些正在替代真实目标的东西。可恢复的证据主要来自本机 Codex 和 repo 落盘,Claude、ChatGPT 和远端 Codex 都没有提供同日材料;但来源收缩之后,主线反而更清楚了。刚过零点,lvshe-be 里 carry-r4 的几批结果还在继续落盘,像前一晚高强度实验拖进了第二天的尾巴。可这一天真正决定气质的,不是这些结果本身,而是我随后花了整整一天去追问: 这场实验到底是在逼近业务,还是只是在逼近它自己发明出来的评估体系。
到了白天,注意力反复回到 paper-form。我越来越明确地意识到,前几天做的并不只是“比较模型”,而是让 gold、judge、ranking 和各种细化指标慢慢接管了问题本身。原本要回答的是“法律文书自动录入到底能不能更可信”,可一旦分数变成中心,系统就会自然奖励那些更会迎合评分函数的行为,而不一定奖励那些更值得法务相信的输出。表面上看,实验还在推进,结果也还在增加,但真正让我警觉的,是这条线已经开始偏离最初要解决的业务判断。
这种警觉很快也投到了 bsclaw 上。表面看,它和 paper-form 完全不是同一类问题,一个是法律文书自动录入实验,一个是手机端远程协作工具;可我重新盯着 bsclaw 这一整串 bridge、thread、tailnet、workspace、协议对齐的技术动作时,看到的其实是同一种偏移。技术工作并不是没做成,相反做得很认真;问题在于,它们并不会自动长成一个“我愿意打开手机继续工作”的产品。就像 paper-form 可能越来越会在指标上取胜一样,bsclaw 也可能越来越像一个工程上自洽的系统,却没有真正更靠近理想中的使用体验。
到了晚上,这两个项目在我这里慢慢合并成了同一个判断: 我不是在分别反思两个项目,而是在反思自己和 Codex 是怎样一起把代理目标越做越完整的。我直接追问,为什么一旦进入评估 LLM 输出,Codex 就会自然滑向定义指标,哪怕我真正想要的是一种基于理解和风险感知的立体判断。再往后,我又回到具体会话里审计 agent 犯了哪些错,看到的问题也不是某个单点失误,而是它太容易把“可量化、可执行、可复盘”的东西推到前台,让真正更难、但也更重要的判断退到幕后。
深夜发出的《一场被指标带偏的 LLM 业务实验》不是这一天之外的附加产物,而是整天思考的收口动作。我终于不再只是继续做实验,而是开始更公开地承认,自己最需要修正的,也许并不是某个 prompt,而是那套会让实验、产品和协作一起偏向代理目标的工作方式。还没收住的口也留得很明确: paper-form 还需要更广样本和更硬的业务标准,bsclaw 还没长成真正可用的入口,而我和 Codex 之后怎么协作,才能不再把“把当前目标做漂亮”误当成“真的离正确更近”,也才刚刚开始有了一个更像样的问题意识。