我很想看到针对复杂 agent 的优秀 eval 设置案例。 大家都知道,断言「输入 prompt → 输出 prompt」根本没在测任何东西,但我很好奇大家实际上是怎么检验行为的。 比如:agent 有没有发出这个 tool call?有没有命中这个网络端点?有没有写入这个数据存储? 其中有些是确定性的,但有些源自 loop 内部的真实行为。

Codex 写出了最让人难受的代码 不知道他们预训练那边谁负责,但真的得改改思路了
「你应该跑 RabbitMQ,把任务往里面管,这样你的 agent 就能产出最大量的 slop,而你假装自己的输出很有价值」 我实在听腻了那些「突破性技术」,结果不过是产出更多难以维护的软件。
760 tweets · 188 sources