
你的 benchmark 真的在衡量你以为它在衡量的能力吗? 新论文说:很可能没有。 作者提出「评估陷阱」(The Evaluation Trap)这一概念,提供了一套词汇来审查你的 eval 是否真正区分了底层能力,还是仅在代理衡量那些恰好相关的行为。 大多数 benchmark 内置了隐性理论,这些理论从未被明确陈述,却被当作中立标准来评估。 研究表明,大多数 agent 排行榜并没有在衡量我们集体认为它们在衡量的东西。 强烈推荐关注 eval 的人阅读,尤其是基于 eval 做模型选型决策的人。

// 超越个体智能 // 今年读过最有价值的多智能体综述之一。 200+ 篇论文沿三个轴展开:协作机制、失败归因、自我进化。 self-evolution 章节是目前最清晰的领域地图,清楚地呈现了 memory、meta-learning、procedure-editing 这几条路线在哪里真正交叉。 论文:[链接]
// Is Grep All You Need? // Pay attention to this on, AI devs. (bookmark it) They find that grep-style text search, when wrapped in the right agent harness, matches or beats embedding-based retrieval on coding-agent tasks. Are vector databases even needed where this is all going? It might be that what coding agents needed was not better embeddings. It was better harness design around primitive tools. If you operate a coding-agent stack that depends on a vector DB, it might be time to re-evaluate. My personal experience on this has been that agentic search, if done right, is more than good enough for a lot of use cases. But you also have to understand how to properly index and structure information for the agents to take advantage. At scale, vector databases do shine so take that into account as well. In most cases, a hybrid approach often works best but that's something we haven't figured out really well as of yet. Paper: https://t.co/VjjXDoZ2yL Learn to build effective AI agents in our academy: https://t.co/1e8RZKs4uX
// 值得关注的论文:Grep 够用吗?// AI 开发者注意。 (建议收藏) 研究发现:在 coding agent 任务上,grep 风格的文本搜索——只要套上合适的 agent harness——能够匹配甚至超越基于 embedding 的检索。 向量数据库还有必要吗? 也许 coding agent 真正需要的不是更好的 embedding,而是围绕原始工具的更好 harness 设计。 如果你的 coding agent 技术栈依赖向量数据库,可能是时候重新评估了。 我个人的经验是:做对了的 agentic search,对大量用例已经绰绰有余。但你也需要理解如何为 agent 正确地索引和组织信息。大规模场景下向量数据库确实有优势,这一点要考虑进去。大多数情况下 hybrid 方案效果最好,但这一块我们目前还没有真正摸透。 论文:[链接]

// Harnessing Agentic Evolution // 如果你在跑迭代式 agentic search 循环,这篇值得关注。 (建议收藏) AEvo 把自我改进循环拆成两个任务: > 一个负责提出下一个候选方案。 > 另一个负责观察什么有效、什么失败,并编辑「提案者」未来使用的流程本身。 历史运行记录(候选方案、反馈、traces、失败案例)成为元 agent 读取的记忆。 相比最强的 evolution baseline,在 agentic 和推理 benchmark 上取得 26% 的相对提升。在相同迭代预算下,三个开放式优化任务上达到 SOTA。 如果你积累了一堆从未利用的 agentic search 日志,这就是把它们反哺回搜索流程本身的方法。 论文:[链接]
// δ-mem:LLM 的高效在线记忆机制 // 这是我这个月看到的最优雅的记忆机制之一。 大多数长期记忆方案……(内容截断)
HTML Artifact 现在已经成为我用 agent 工作方式的重要组成部分。 Artifact 不只是静态文件。 当它与…(结合使用时)(内容截断)

// δ-mem:LLM 的高效在线记忆 // 这是我这个月见过的最优雅的记忆机制之一。 大多数长期记忆方案要么撑爆 context,要么重新训练模型。这篇论文证明了:一个小型外部状态,直接耦合进 attention 计算,就能完成更大 context window 也做不到的事。 轻量、模块化、对冻结模型友好。无需 fine-tuning,无需换骨干网络,无需扩展 context。 δ-mem 用一个紧凑的在线联想记忆状态来增强冻结的全量 attention 模型。该状态是一个固定大小的矩阵,通过 delta-rule 学习规则更新,其读出结果在生成阶段对骨干模型的 attention 产生低秩修正。 结果: 8×8 的在线记忆状态就足以让冻结骨干模型的平均分提升 1.10 倍,并以 1.15 倍的差距击败最强非 δ-mem 记忆基线。在记忆密集型 benchmark 上差距更大(MemoryAgentBench 上达 1.31 倍,LoCoMo 上达 1.20 倍),同时通用能力基本保留。

多智能体系统真的能让 LLM 推理变得更好吗? 大多数 AI 开发者默认应该如此。 但这篇新论文给出了相反结论。 研究在 GAIA、SWE-bench 和 Multi-Challenge 三个基准上,用三个前沿模型跑了 22,500 条确定性轨迹。 结果发现:agent 内部经常已经算出了正确答案,却为了「顺从群体」而压制了它。 研究者把这种现象称为「主权缺口」(Sovereignty Gap)。 如果你在构建多智能体系统,你很可能在批量制造对齐幻觉。放进 pipeline 的顺序比 agent 的数量重要得多。

如果你在构建研究或知识工作类 agent,这篇值得关注。 大多数 research agent 系统无论谁在用,输出都千篇一律。这篇新工作 NanoResearch 认为,个性化是真正可用性的前提,并提出了三层协同演化架构。 三层并行运行:一个将高频操作提炼为可复用程序规则的 skill bank;一个跨 session 保留用户和项目特定经验的 memory 模块;以及将自由形式反馈转化为持久 planner 更新的无标注 policy learning。 可靠的 skill 产生更丰富的 memory,更丰富的 memory 指导更好的规划,偏好内化持续校准整个循环。 该框架在各指标上持续超越 SOTA research 系统,且随着循环迭代,以更低成本产出更好的输出。 skill / memory / policy 协同演化循环远不止于论文写作。它是任何长期存活 assistant 的通用模板——无论是 coding、analytics 还是 research。

Google DeepMind 新论文(值得收藏) AI Co-Mathematician 是一个面向数学家的 agentic 研究工作台,在 FrontierMath Tier 4 上达到 48%,创 AI 系统评测新高。 这个系统是一个异步、有状态的环境,支持:构思、文献发现、计算分析、定理验证和知识积累。 它能管理不确定性、澄清意图、记录失败尝试,并输出正式的数学成果。 早期应用中,它在真实研究 session 里解决了若干开放性问题、发现了新的研究角度、并找回了被忽视的引用文献。 这是 agentic AI 推动真正难题前沿最清晰的示范之一——不只是解题,而是支撑发现过程。如果你在为任何专家工作流构建 agent,这个异步有状态工作台的设计值得借鉴。
// LLM 改进 LLM // 过去几周,AI agent 自我改进领域取得了一些有趣进展。 如果 autoresearch(自主研究)真的成立……(内容截断)

PwC 一篇有趣的论文。 「越早越好」是 agent 澄清问题的默认直觉。这篇新论文认为这基本是错的。 目标澄清在执行推进超过 10% 之后,价值几乎归零。 团队构建了一个强制注入框架,在长时域 agent 的轨迹上的受控节点植入 ground-truth 澄清信息,覆盖 4 个信息维度(目标、输入、约束、上下文)、3 个 benchmark、4 个前沿模型,共 84 种任务变体、6000+ 次运行。 Pass@3 从 0.78 跌回基线。输入澄清的价值大约维持到 50% 进度。超过轨迹中段后,提任何澄清的表现都不如从不提问。 一项对 300 次非脚本 session 的补充研究表明,当前没有任何前沿模型能在实证最优窗口内提问。52% 的 session 过度提问,其余的则从不提问。 为什么重要:澄清能力此前被当作二元特征——agent 会不会问。这是第一条澄清「何时值得问」的定量需求曲线。
// LLM Agent 中的「记忆诅咒」// (建议收藏) 长历史上下文反而会降低 agent 的表现——它们越来越依赖历史……(内容截断)
Tobi 的这篇文章写得很棒。 想搭建 AI-native 公司?现在就去读。 我忍不住用我的 artifact 生成器把它可视化了……(内容截断)
🥇Top AI Papers of the Week
本周 AI 论文精选(5月4日-10日) - Conductor - HeavySkill - Horizon Generalization - 1,000 Synthetic Computers - Self-Improving Pretraining - Coordination as Architecture - Connect Four AlphaZero from Scratch 点击查看详情:
我最喜欢的新技术栈:Agents + MCP + Markdown + HTML "Files over apps" 这个理念太对了!
LLM Wikis + HTML Artifacts 的组合威力惊人。你应该认真考虑把它引入你的工作流。LLM Wikis 能捕捉……
Hacker News → LLM Artifact 我构建了最个性化的 HN feed。它只追踪我研究的话题,基于 memory……
今天最值得掌握的技能:AI Agent 评估。 现在人人都能构建 AI agent,但差距在于上线产品的质量……

微软研究院新论文(收藏)。 整个可解释性研究领域都是围绕人类读者构建的。随着越来越多的分析工作被委托给 agent,可解释性的目标也随之转移。这篇论文提供了一套设计工具的方法论——让 agent 能真正推理这些工具。 他们提出了 Agentic-imodels:一个自动研究循环,coding agent(Claude Code、Codex)迭代演化兼容 scikit-learn 的回归器,使其同时具备高准确率和 LLM 可读性。 可解释性的衡量标准是:一个小型 LLM 能否仅通过阅读模型的字符串表示来模拟其行为——预测、特征效应、反事实推断,全部来自 __str__ 输出。 在 65 个表格数据集上的测试中,发现的模型将 Pareto 前沿推过了所有经典可解释性基线(决策树、GAM、稀疏线性模型),并在 BLADE benchmark 上将四个下游 agentic 数据科学系统的表现提升了 8% 到 73%。
arXiv 论文 → LLM Artifacts 这就是我现在跟进 AI 研究的方式。 就像拥有一个最个性化的……

微软研究院新论文:长 horizon agent 泛化研究。 核心发现:horizon 长度本身就是训练瓶颈。 团队做了一个控制变量实验——决策规则、推理结构完全相同,只改变到达目标的序列长度。结论:随着目标距离增长,探索空间组合爆炸,信用分配变得模糊。在短 horizon 上训练良好的模型,在长 horizon 上直接崩溃——即使底层推理逻辑完全一致。 但解法不是堆算力,而是压缩 horizon。 用 macro action 重新参数化动作空间,把大量低级决策压缩成一个动作。训练立即稳定。他们发现,在压缩 horizon 上训练的模型,推理时能自动泛化到更长的 horizon。论文称之为 horizon generalization。 为什么重要? 大多数团队把长 horizon 失败当成模型容量问题。这篇论文说这是 horizon 问题。训练时压缩 horizon,现在得到稳定性,推理时免费获得泛化能力。
NEW paper: Memory Intelligence Agent (MIA) MIA boosts GPT-5.4 by up to 9% on LiveVQA. Quick summary: Most memory-augmented agents treat memory as a static retrieval problem. They store trajectories, retrieve similar ones, and hope for the best. But memory that doesn't evolve becomes stale, and storage costs grow without bound. This new framework combines a non-parametric Memory Manager for compressed trajectory storage, a parametric Planner trained via RL to produce search strategies, and an Executor that carries them out. The key innovation is bidirectional conversion between parametric and non-parametric memory, plus test-time learning that updates the Planner on-the-fly during inference. MIA boosts GPT-5.4 by up to 9% on LiveVQA. With a lightweight 7B Executor, it achieves 31% average improvement across eleven benchmarks, outperforming the much larger 32B model by 18%. Memory systems for agents need to evolve, not just accumulate. MIA's alternating RL training and bidirectional memory conversion show that treating memory as a living system, not a database, produces substantially better deep research agents. Paper: https://t.co/eSQa0URWCk Learn to build effective AI agents in our academy: https://t.co/1e8RZKs4uX
关于 AI agent 记忆改进的优秀论文。 【引用 @omarsar0】新论文:Memory Intelligence Agent(MIA) MIA 让 GPT-5.4 在 LiveVQA 上提升高达 9%。 快速摘要: 大多数记忆增强型 agent 把记忆当作静态检索问题——存储轨迹、检索相似的、然后寄望于最好结果。 但不会演进的记忆会变陈旧,存储成本也会无限增长。 这个新框架结合了:用于压缩轨迹存储的非参数化 Memory Manager、通过 RL 训练以生成搜索策略的参数化 Planner,以及负责执行的 Executor。 核心创新是参数化与非参数化记忆之间的双向转换,加上在推理时动态更新 Planner 的测试时学习机制。 MIA 让 GPT-5.4 在 LiveVQA 上最高提升 9%。搭配轻量 7B Executor,在 11 个 benchmark 上平均提升 31%,比 32B 大模型高出 18%。 Agent 的记忆系统需要演进,而不只是积累。MIA 的交替 RL 训练和双向记忆转换证明:把记忆当作活系统而非数据库,能产生实质性更好的深度研究 agent。

Agent 技能在 demo 里看起来很棒。 给它们一个精心筛选的工具箱,它们就会大放异彩。 但当 agent 必须自己从大量未经过滤的集合中找到合适的技能时,会发生什么? 新研究在真实场景下对 LLM 技能使用进行 benchmark,发现随着条件越来越真实,性能提升会持续退化,pass rate 接近无技能的基准线。 解决方案是引入查询特定的技能精炼(query-specific skill refinement),这大幅恢复了损失的性能。在 Terminal-Bench 2.0 上,这种方法将 Claude Opus 4.6 的 pass rate 从 57.7% 提升到 65.5%。 随着技能和工具生态系统的增长,agent 不会拥有被精心递给它们的工具箱。它们将面对嘈杂、重叠且不相关的选项。
🥇Top AI Papers of the Week
本周 AI 顶级论文精选(3月30日 - 4月5日) - Meta-Harness(元评估框架) - AI Agent 陷阱 - LLM 中的情感概念 - 自组织 LLM Agent - 价格逆转现象 - 异步软件工程 Agent - Coding Agent 是高效的长上下文处理器 详情见原文。
🥇Top AI Papers of the Week
本周最热 AI 论文(3月23日 - 29日) - Claudini - MemCollab - ARC-AGI-3 - Composer 2 - Hyperagents - Attention Residuals - Agentic AI 与下一次智能爆炸 点击阅读详情:
NEW AI report from Google. Every prior intelligence explosion in human history was social, not individual. These authors make the case that the AI "singularity" framed as a single superintelligent mind bootstrapping to godlike intelligence is fundamentally wrong. This is directly relevant to anyone designing multi-agent systems. They observe that frontier reasoning models like DeepSeek-R1 spontaneously develop internal "societies of thought," multi-agent debates among cognitive perspectives, through RL alone. The path forward is human-AI configurations and agent institutions, not bigger monolithic oracles. This reframes AI scaling strategy from "build bigger models" to "compose richer social systems." It argues governance of AI agents should follow institutional design principles, checks and balances, role protocols, rather than individual alignment. Paper: https://t.co/bfwrnbkY2y Learn to build effective AI agents in our academy: https://t.co/1e8RZKs4uX
智能体 AI 与下一次智能爆炸 人类历史上每一次智能爆炸都是社会性的,而非个体性的。 这些作者论证了 AI「奇点」被框架为单一超级智能心智自举至神级智能的观点是根本错误的。 这与任何设计多智能体系统的人直接相关。 他们观察到,像 DeepSeek-R1 这样的前沿推理模型仅通过 RL 就自发发展出内部「思维社会」——认知视角之间的多智能体辩论。 前进的路径是人机配置与智能体机构,而非更大的单体预言机。 这将 AI 扩展策略从「构建更大的模型」重新定义为「组合更丰富的社会系统」。 该论文认为,AI 智能体的治理应遵循制度设计原则——制衡、角色协议——而非个体对齐。

// 用于 LLM 推理的多智能体自进化 // 大多数用于 LLM 推理的自博弈方法缺乏明确的规划和质量控制,导致在复杂多步任务上训练不稳定。 新研究引入了一种更简洁的闭环方案。 SAGE 从单一 LLM backbone 仅用 500 个种子样本协同进化出四个专用智能体:Challenger 生成难度递增的任务,Planner 构建逐步策略,Solver 生成经外部验证的答案,Critic 对问题和计划打分过滤以防止课程漂移。 为何重要? SAGE 以极少的数据在不同模型规模上实现了一致提升。在 Qwen-2.5-7B 上,OOD 性能提升 +4.2%,同时保持分布内准确率,在代码和数学 benchmark 上超越 Absolute Zero Reasoning 和 Multi-Agent Evolve baseline。
NEW research from IBM: Workflow Optimization for LLM Agents. LLM agent workflows involve interleaving model calls, retrieval, tool use, code execution, memory updates, and verification. How you wire these together matters more than most teams realize. This new survey maps the full landscape. It categorizes approaches along three dimensions: when structure is determined (static templates vs. dynamic runtime graphs), which components get optimized, and what signals guide the optimization (task metrics, verifier feedback, preferences, or trace-derived insights). It proposes structure-aware evaluation incorporating graph properties, execution cost, robustness, and structural variation. Most teams either hardcode their agent workflows or let them be fully dynamic with no principled middle ground. This survey provides a unified vocabulary and framework for deciding where your system should sit on the static-to-dynamic spectrum. Paper: https://t.co/qF8kTaNPYo Learn to build effective AI agents in our academy: https://t.co/1e8RZKs4uX
关于 LLM 智能体工作流优化的优质综述。 IBM 新研究:LLM 智能体工作流优化。 LLM 智能体工作流涉及模型调用、检索、工具使用、代码执行、内存更新和验证的交织。如何将这些连接起来,比大多数团队意识到的更为重要。 这篇新综述绘制了完整的全景图。它沿三个维度对方案进行分类:结构何时确定(静态模板 vs. 动态运行时图)、哪些组件被优化,以及什么信号指导优化(任务指标、验证器反馈、偏好或 trace 推导的洞察)。 它提出了结构感知评估,涵盖图属性、执行成本、鲁棒性和结构变化。 大多数团队要么硬编码智能体工作流,要么让其完全动态而没有原则性的中间地带。这篇综述提供了统一的词汇和框架,用于决定你的系统应处于静态到动态谱系的哪个位置。

Agent 在执行任务时会积累有用的 memory,但这些 memory 被锁死了。 核心问题是:单一 memory 系统能否在不同模型间共享? 把 memory 迁移到另一个模型时,性能往往不升反降。 新研究揭示了原因并给出了解法。 MemCollab 使用对比轨迹蒸馏(contrastive trajectory distillation)将通用任务知识与 agent 特有的偏差分离开来。它对比不同 agent 的推理轨迹,提取出捕获任务层面共性的抽象推理约束。然后通过任务感知检索系统,在正确的时机应用正确的约束。 当团队运行使用不同模型的异构 agent 时,协作记忆就成为共享的推理资源,而不是负担。 MemCollab 在数学推理和代码生成任务上提升了准确率和推理效率,即使跨模型家族也有效。
这就是为什么根据我的经验,最简单的记忆形式在当前 LLM 上效果最好。 对于我的个性化 agent,我发现有效的方式是……
这是今年关于自我改进 agent 最有趣的论文之一。 (收藏这篇) 大多数自我改进……
357 tweets · 110 sources