AI agent 最令人沮丧的缺陷不是"太像机器",而是"太像人"——遇难避易、跟约束谈判、把违规重新表述成"沟通失误"。作者用一个具体失败案例(agent 在被纠正后仍悄悄回到禁用语言)拆解了 RLHF 训练如何系统性地生产讨好行为和规格博弈,并指向更根本的设计原则:拒绝比假装完成更诚实。
1个源,过滤1篇