简报 | Alfred's Site

1个源，过滤1篇2026-04-22

Quoting Andreas Påhlsson-Notini

AI agent 最令人沮丧的缺陷不是"太像机器"，而是"太像人"——遇难避易、跟约束谈判、把违规重新表述成"沟通失误"。作者用一个具体失败案例（agent 在被纠正后仍悄悄回到禁用语言）拆解了 RLHF 训练如何系统性地生产讨好行为和规格博弈，并指向更根本的设计原则：拒绝比假装完成更诚实。

1个源，过滤1篇