🥇Top AI Papers of the Week
本周最热 AI 论文(3月23日 - 29日) - Claudini - MemCollab - ARC-AGI-3 - Composer 2 - Hyperagents - Attention Residuals - Agentic AI 与下一次智能爆炸 点击阅读详情:
NEW AI report from Google. Every prior intelligence explosion in human history was social, not individual. These authors make the case that the AI "singularity" framed as a single superintelligent mind bootstrapping to godlike intelligence is fundamentally wrong. This is directly relevant to anyone designing multi-agent systems. They observe that frontier reasoning models like DeepSeek-R1 spontaneously develop internal "societies of thought," multi-agent debates among cognitive perspectives, through RL alone. The path forward is human-AI configurations and agent institutions, not bigger monolithic oracles. This reframes AI scaling strategy from "build bigger models" to "compose richer social systems." It argues governance of AI agents should follow institutional design principles, checks and balances, role protocols, rather than individual alignment. Paper: https://t.co/bfwrnbkY2y Learn to build effective AI agents in our academy: https://t.co/1e8RZKs4uX
智能体 AI 与下一次智能爆炸 人类历史上每一次智能爆炸都是社会性的,而非个体性的。 这些作者论证了 AI「奇点」被框架为单一超级智能心智自举至神级智能的观点是根本错误的。 这与任何设计多智能体系统的人直接相关。 他们观察到,像 DeepSeek-R1 这样的前沿推理模型仅通过 RL 就自发发展出内部「思维社会」——认知视角之间的多智能体辩论。 前进的路径是人机配置与智能体机构,而非更大的单体预言机。 这将 AI 扩展策略从「构建更大的模型」重新定义为「组合更丰富的社会系统」。 该论文认为,AI 智能体的治理应遵循制度设计原则——制衡、角色协议——而非个体对齐。

// 用于 LLM 推理的多智能体自进化 // 大多数用于 LLM 推理的自博弈方法缺乏明确的规划和质量控制,导致在复杂多步任务上训练不稳定。 新研究引入了一种更简洁的闭环方案。 SAGE 从单一 LLM backbone 仅用 500 个种子样本协同进化出四个专用智能体:Challenger 生成难度递增的任务,Planner 构建逐步策略,Solver 生成经外部验证的答案,Critic 对问题和计划打分过滤以防止课程漂移。 为何重要? SAGE 以极少的数据在不同模型规模上实现了一致提升。在 Qwen-2.5-7B 上,OOD 性能提升 +4.2%,同时保持分布内准确率,在代码和数学 benchmark 上超越 Absolute Zero Reasoning 和 Multi-Agent Evolve baseline。
NEW research from IBM: Workflow Optimization for LLM Agents. LLM agent workflows involve interleaving model calls, retrieval, tool use, code execution, memory updates, and verification. How you wire these together matters more than most teams realize. This new survey maps the full landscape. It categorizes approaches along three dimensions: when structure is determined (static templates vs. dynamic runtime graphs), which components get optimized, and what signals guide the optimization (task metrics, verifier feedback, preferences, or trace-derived insights). It proposes structure-aware evaluation incorporating graph properties, execution cost, robustness, and structural variation. Most teams either hardcode their agent workflows or let them be fully dynamic with no principled middle ground. This survey provides a unified vocabulary and framework for deciding where your system should sit on the static-to-dynamic spectrum. Paper: https://t.co/qF8kTaNPYo Learn to build effective AI agents in our academy: https://t.co/1e8RZKs4uX
关于 LLM 智能体工作流优化的优质综述。 IBM 新研究:LLM 智能体工作流优化。 LLM 智能体工作流涉及模型调用、检索、工具使用、代码执行、内存更新和验证的交织。如何将这些连接起来,比大多数团队意识到的更为重要。 这篇新综述绘制了完整的全景图。它沿三个维度对方案进行分类:结构何时确定(静态模板 vs. 动态运行时图)、哪些组件被优化,以及什么信号指导优化(任务指标、验证器反馈、偏好或 trace 推导的洞察)。 它提出了结构感知评估,涵盖图属性、执行成本、鲁棒性和结构变化。 大多数团队要么硬编码智能体工作流,要么让其完全动态而没有原则性的中间地带。这篇综述提供了统一的词汇和框架,用于决定你的系统应处于静态到动态谱系的哪个位置。

Agent 在执行任务时会积累有用的 memory,但这些 memory 被锁死了。 核心问题是:单一 memory 系统能否在不同模型间共享? 把 memory 迁移到另一个模型时,性能往往不升反降。 新研究揭示了原因并给出了解法。 MemCollab 使用对比轨迹蒸馏(contrastive trajectory distillation)将通用任务知识与 agent 特有的偏差分离开来。它对比不同 agent 的推理轨迹,提取出捕获任务层面共性的抽象推理约束。然后通过任务感知检索系统,在正确的时机应用正确的约束。 当团队运行使用不同模型的异构 agent 时,协作记忆就成为共享的推理资源,而不是负担。 MemCollab 在数学推理和代码生成任务上提升了准确率和推理效率,即使跨模型家族也有效。
这就是为什么根据我的经验,最简单的记忆形式在当前 LLM 上效果最好。 对于我的个性化 agent,我发现有效的方式是……
这是今年关于自我改进 agent 最有趣的论文之一。 (收藏这篇) 大多数自我改进……
100 tweets · 45 sources