我今天用 codex 改了一个前 AI 时代的老项目。令我惊讶的是,现在已经不需要预先初始化 AGENTS.md 或 CLAUDE.md 了。Context Engineering 本身已经被模型内化了。
Agentic coding 评估到底是 one-shot 做对好,还是多步做对好,我觉得和评估一个员工很像: 1. 基础问题应该单步做对 2. 基础问题以外的,能多步做对一定比单步做对更优 因为多步做对的能力体现了模型在复杂环境下工作的鲁棒性。体验过从 Opus 4.1→4.5 飞跃的人都懂这意味着什么。
760 tweets · 188 sources