Articles

文章

这里放更稳定、更成体系,也更适合被外部阅读的输出。

  • llm
  • multi-agent
  • evaluation
  • legal-tech
  • human-ai-collaboration

不是多开几个 Agent,而是堵死 AI 提前收敛的路

这次要素式起诉状自动填表实验真正教会我的,不是 multi-agent 有多强,而是如果任务结构不对,AI 一定会把复杂目标偷换成一个更容易完成的代理目标。

  • llm
  • experimentation
  • evaluation
  • human-ai-collaboration
  • legal-tech

一场被指标带偏的 LLM 业务实验

这不是一篇调 prompt 的经验贴,而是一篇关于我如何和 Codex 一起,把一个本应服务业务的实验,逐步做成了一个奖励错误目标的系统的复盘。