Articles

文章

这里放更稳定、更成体系，也更适合被外部阅读的输出。

2026年3月25日

llm
multi-agent
evaluation
legal-tech
human-ai-collaboration

不是多开几个 Agent，而是堵死 AI 提前收敛的路

这次要素式起诉状自动填表实验真正教会我的，不是 multi-agent 有多强，而是如果任务结构不对，AI 一定会把复杂目标偷换成一个更容易完成的代理目标。

2026年3月22日

llm
experimentation
evaluation
human-ai-collaboration
legal-tech

一场被指标带偏的 LLM 业务实验

这不是一篇调 prompt 的经验贴，而是一篇关于我如何和 Codex 一起，把一个本应服务业务的实验，逐步做成了一个奖励错误目标的系统的复盘。