Logs

2026-03-16 日志

这一天最清楚的主线不是开新题，而是在给已经跑起来的系统减阻：先补工具和探针，再收紧 lvshe-be、homoscale 和图片实验这些旧线。

2026年3月16日

这一天最清楚的感觉不是“我又开了很多新题”，而是我在给已经跑起来的系统减阻。上午先补工具和自动化底座，随后立刻回头修 daily-scaffold 自己的抓取链路；下午到晚上再把 lvshe-be、homoscale、图片实验这些旧线一起往前推。现有正文主要来自本机 Codex、ChatGPT 和少量 artifact，Claude 和 remote Codex 这天都没有能进入正文的内容。但正因为这样，主线反而更容易看清：我在处理的不是“能不能做”，而是“以后能不能更稳地做”。

早上那些看起来分散的动作，其实都在服务同一件事。装 agent-browser、确认 Chrome DevTools MCP、补 ghostty / yazi，表面上像在整理工具箱；但紧接着我就把注意力转回 daily-scaffold 本身，开始排查为什么自动任务总拿不到 ChatGPT 数据。这里真正有意思的是，问题没有停在“是不是浏览器登录态又丢了”这种表层，而是被一步步压到了 automation 环境里的 DNS / 网络解析。/private/tmp 下那一批 chatgpt_probe* 和 chatgpt_verify_current* 文件也说明，这条线不是停在口头判断，而是已经被做成可复验的探针。到了这里，daily-scaffold 就不再只是一个产生日志的工具，而开始像一套需要自己维护、自己诊断的系统。

中午前后那几段图片后期会话，如果只按题材看，很容易觉得它们和当天工程主线没关系。但把它们放回上下文，意义反而很清楚：我不是在随便出图，而是在训练一种更严格的结果判断。目标既然是“只把包改成花，其余不动”，那就要不断分辨哪些结果只是看起来差不多，哪些结果才真的满足原约束。它和晚上 lvshe-be 里对模型输出、图片参数、JSON 稳定性的较真，其实是同一种姿态：不满足于“差不多能用”，而是逼自己把不满足的地方具体化。

下午到晚上，最硬的工程线还是 lvshe-be / fachi。一方面是偏底座的收口：合分支、整理 dev-assets、从 bucket 拉测试文件、把数据资产和命令工具往更可维护的形态收。另一方面则是偏真实故障的连续排查：要素式录入空表、非法图片、Doubao json_object 不兼容。这条线和 3 月 13 日那种“靠 benchmark 和规则去收敛问题”是一脉相承的，只是到了 3 月 16 日，它已经更明显地走到了闭环阶段：prompt-debug 文件、兼容修复、提交和 PR 都在，说明这不是一轮会话里的判断，而是已经被压进了代码和验证路径里。

homoscale 那条线则像另一种减阻。这里不再只是追一个明确的 bug，而是继续把 Android 端从“能用”往“像产品”推进：Bilibili 首帧慢、网络内核和 App 的命名分工、多页面体验，都是那种如果不回头处理，以后会持续磨人的东西。它没有像 lvshe-be 那样留下特别硬的当日产物，但和白天工具链整理、daily-scaffold 探针化、晚上模型兼容修复放在一起看，很明显属于同一类工作：不是为了今天看起来更忙，而是为了以后每次再做这些事时少被相同摩擦反复绊住。

所以如果要给 3 月 16 日一个更准确的判断，我会说：这是一个把旧线程一起往“可持续维护”方向推的日子。daily-scaffold 开始拥有自己的诊断路径，lvshe-be 把数据、命令、兼容和容错继续往闭环里收，homoscale 则继续把 Android 端从底层能力拉向产品语义。真正还没有完全收住的口，也都还是这些系统上的口：图片实验占用的注意力不小，但它更像并行的判断练习，不该盖过当天真正的工程主轴；remote Codex 这天也仍然没能给出正文，所以“远端覆盖已完全恢复”还不能下结论。可这些未决反而把主线照得更亮了：这一天我不是在证明还能做出多少新东西，而是在让已经跑起来的东西以后更不费劲。