@cohere transcribe Sota open source transcription model running in the browser :) Weights on @huggingface link below https://t.co/OmrHFA94lG
Cohere 发布了新的 Transcribe 模型,于是我做了一个 Chrome 扩展来测试它。 支持两种模式:通过 API 或本地服务器。 API 模式:从 Cohere 账户获取免费 key,注册后即可使用免费配额。 本地模式:从 Hugging Face 下载模型,启动本地服务器,并添加你的 HF access token。 两种模式任选其一,已以 MIT 协议开源。 不错的周末项目,接下来会继续探索它的其他应用场景。 感谢 @nickfrosst 和 @cohere 团队! > 引用 @nickfrosst:@cohere transcribe —— 目前最优的开源转录模型,可直接在浏览器中运行 :) 权重已上传至 @huggingface

新版 PAI Statusline(v5.0.0)将显示你加载的自定义文件,这些文件会增强每一次会话。 如果你没有运行像这样的定制化 harness,你只是在用 AI 能力的一部分。

GStack 现在能从你的开发方式中学习,并将这些学习应用到未来的运行中。总是遇到 N+1 查询问题?CLI 有些奇怪的 flag 一直让你出错? 每次迭代,我们都在积累经验,从这里出发可以越来越好。(灵感来自 Every 的 Compound Engineering,致谢!)
I’ll be covering how to make the most of this in my livestream on March 31st with Figma! You can sign up here: https://t.co/G32hMTFUR4 https://t.co/9owzK6bjWF


我越深入研究新的 Figma MCP,就越兴奋。 我正在尝试一种新方式:先在 Figma 里画一个很粗糙的草图,然后让 Claude Code 在 Figma 中把它完善,我再进行微调和编辑,最后把定稿发回给 Claude Code。 [引用自己的推文]:3 月 31 日我将在 Figma 的直播中介绍如何最大化利用这个工作流,欢迎报名。
我观察到人们在 coding agent 上使用这些「大杂烩」插件时出现的问题数量——加上 context 退化和模型 guardrail 报错——似乎与任何输出质量的提升都背道而驰。 我不推荐这类插件,并且会主动引导我们的人远离它们。

Claude Code 团队升级后的 Skill Creator 内置了 eval 框架,通过运行子 agent 来测试 skill 的有效性并持续迭代改进。 Skill 里面编码的是研究人员多年的经验积累。 效果出乎意料地好。
Agent 现在可以为你的 vibe coded 游戏创建并动画化精灵图 > 接入任意支持 MCP 的 agent > 告诉它要做什么,支持单次请求或批量生成 > Agent 可以检查结果,按需重新生成 > 你对质量和风格保持完全控制
🥇Top AI Papers of the Week
本周最热 AI 论文(3月23日 - 29日) - Claudini - MemCollab - ARC-AGI-3 - Composer 2 - Hyperagents - Attention Residuals - Agentic AI 与下一次智能爆炸 点击阅读详情:
Your work tools in Claude are now available on mobile. Explore Figma designs, create Canva slides, check Amplitude dashboards, all from your phone. Give it a try: https://t.co/hwPB3zlk0w https://t.co/646YMIzYZl
Anthropic CEO: 「我们 Anthropic 有工程师完全不写代码,他们只让 Claude 写代码,然后自己审查和编辑。」 「在 Anthropic,写代码意味着设计下一个版本的 Claude 本身——所以本质上我们是让 Claude 来设计下一版 Claude,不是全部,但大部分是这样。」 过去 52 天,Claude 团队发布了 50+ 项重大功能。 这简直太疯狂了。 > 引用 @claudeai:你的工作工具现在可以在 Claude 移动端使用了。探索 Figma 设计、创建 Canva 幻灯片、查看 Amplitude 数据看板,全部在手机上完成。

太离谱了,最近引入的超低 rate limit 基本上让 Claude Code 对我来说变得没法用。他们真的需要改改这个,不然我很快就会取消所有账号。同时跑 3、4 个 agent 就会触发限制。
哈哈哈这就是我的 Claude 应用农场 每一个 agent 都在自主地从 0 到 1 构建一个 app,接下来 24 小时见分晓 😄

NVIDIA 新研究。 用 RL 对 agent 进行 post-training 效果很强,但成本高昂。 每次参数更新都需要完整的多轮 rollout 与环境交互,导致端到端 RL 在长 horizon 的 agentic 任务中成本极高。 这项研究提供了一个实用的折中方案。 论文提出 PivotRL——一个基于已有 SFT trajectory 运行的框架,将 SFT 的计算效率与端到端 RL 的 out-of-domain 保留能力结合起来。 与其跑完整 trajectory rollout,PivotRL 识别「pivot 点」——即采样动作呈现混合结果的关键中间轮次——只在这些高信号时刻上进行训练。 标准 SFT 会让 OOD 性能平均下降 9.83 点,而 PivotRL 几乎持平(+0.21),同时相比 base model 在域内平均提升 +14.11(SFT 仅 +9.94)。 在 SWE-Bench 上,PivotRL 用少 4 倍的 rollout 轮次、少 5.5 倍的实际训练时间,达到与端到端 RL 相当的准确率。 该方法已部署至生产环境,作为 NVIDIA Nemotron-3-Super-120B agentic post-training 的核心训练引擎。
大量沙盒基础设施是为「cattle(牲畜)」场景构建的,但我认为随着后台 agent 成为常态,「pets(宠物)」场景会同样普遍。 我发现自己很难从「agent 运行在远程计算资源上」切换到「agent 运行在我的笔记本上」——不是因为 agent 本身或推理的问题,而是因为我习惯了把一切都放在固定位置:库、CLI 工具、repo 路径等等。 远程 coding agent 的第一步体验,在这方面应该保持足够的连续性: 你带来自己的服务器或基础镜像,按自己的方式配置好 API keys、repo checkout 等——然后让 agent 平台在这个宿主机上运行 session。 当然需要一些额外的管道工程来提升计算效率,但一台中小型 EC2 的成本,跟我砸进去的 token 费用比起来,简直九牛一毛。 企业侧也很有意思——把一切都跑在你自己的 VPC 里。
Claude Code 创作者 Boris Cherny (@bcherny): 给予 AI 工具和自由,而不是将其强塞进僵化的手工设计流程——这样效果更好。因为通用学习系统的扩展性更强。 「不要问模型能为你做什么,要问……」
大概六个月后会有一篇文章,类似「Founder Mode」,但主角是那些被所有人劝着不要再看代码的人——直到某天他们发现一切都变得一团糟,才意识到必须回归「human mode」。
大家为 skills 大肆炒作,一堆周边工具被构建出来,各种标准也相继建立。 但大多数用户从来没有安装过一个 skill。 希望所有人都能冷静一点——大多数想法都是烂的,克制比以往任何时候都更重要。
- 起草了一篇博客文章 - 用 LLM 花了 4 小时精心打磨论点 - 哇,感觉很好,论证非常有说服力! - 突发奇想,让它论证相反的观点 - LLM 把整个论证彻底推翻,反而说服我相反的观点才是对的 - 哈哈哈 LLM 在被要求时会给出某种观点,但它们极其擅长论证几乎任何方向。这其实是一个形成自己观点的超级有用工具——只需确保让它从不同方向论证,并注意防范 sycophancy(过度迎合)问题。

这半个月都在体验 macOS 语音输入赛道的竞品,把市面上能找到的商业的、开源的、vibe 的产品都装了一遍。一边试竞品一边录入了大量中英文,效率大幅提升,同时对各种实现有了初步认知。有作者来自荐的,也给了他们反馈意见。每个试过的产品都写了一句话评论,记在 Finder 里(见图)。绿点表示推荐,黄点表示不推荐,红点是我个人不会再用的。豆包还没开始体验所以空着。
在 Anthropic 这篇关于 Claude Code Plugins 的博客里,你能找到我项目的链接。 里面收录了我一直在测试和评测的插件市场合集。这个站点按 GitHub stars 排名,并提取信息以更易读、易用的方式展示。 我设置了一个定时任务,持续搜索更多 CC 插件市场。 如果你有自己的,发给我,一起把这个 Claude Code Templates 社区做起来。
My dear front-end developers (and anyone who’s interested in the future of interfaces): I have crawled through depths of hell to bring you, for the foreseeable years, one of the more important foundational pieces of UI engineering (if not in implementation then certainly at least in concept): Fast, accurate and comprehensive userland text measurement algorithm in pure TypeScript, usable for laying out entire web pages without CSS, bypassing DOM measurements and reflow
(转引 @_chenglou) 致所有前端开发者(以及关注界面未来的任何人): 我深入探索,为你们带来了未来数年内前端 UI 工程最重要的基础性成果之一(即便实现层面不是,概念层面也绝对是): **纯 TypeScript 实现的高速、精准、全面的 userland 文字测量算法**——可用于在完全不依赖 CSS 的情况下完成整页排版,彻底绕开 DOM 测量和 reflow。

Codex 用户们,这正常吗? 这家伙的大脑被 RL 训练折磨坏了——连尝试都不肯去读项目目录以外的文件(其实它是可以的,因为用的是自定义 harness)。

在 @obsdmd(Obsidian)中可视化你的 agent skills

Claude Code 现在支持在 hooks 中使用 `"if"` 条件,当命令不匹配时跳过该 hook。 在使用了针对特定命令的 hooks 的大型项目中,长会话可以因此节省数分钟时间。

顺便说一句,Google 搜索「install claude code」的第一条结果是一个(极具迷惑性的)claude code 文档仿冒站点,正在分发恶意软件 [截图链接]
我一直在用 vibe coding 的方式为我的新 Mac 开发 SwiftUI 菜单栏应用,结果发现 Claude Opus 4.6 和 GPT-5.4 在 Swift 编程上都很能打,甚至不需要打开 Xcode!
NEW AI report from Google. Every prior intelligence explosion in human history was social, not individual. These authors make the case that the AI "singularity" framed as a single superintelligent mind bootstrapping to godlike intelligence is fundamentally wrong. This is directly relevant to anyone designing multi-agent systems. They observe that frontier reasoning models like DeepSeek-R1 spontaneously develop internal "societies of thought," multi-agent debates among cognitive perspectives, through RL alone. The path forward is human-AI configurations and agent institutions, not bigger monolithic oracles. This reframes AI scaling strategy from "build bigger models" to "compose richer social systems." It argues governance of AI agents should follow institutional design principles, checks and balances, role protocols, rather than individual alignment. Paper: https://t.co/bfwrnbkY2y Learn to build effective AI agents in our academy: https://t.co/1e8RZKs4uX
智能体 AI 与下一次智能爆炸 人类历史上每一次智能爆炸都是社会性的,而非个体性的。 这些作者论证了 AI「奇点」被框架为单一超级智能心智自举至神级智能的观点是根本错误的。 这与任何设计多智能体系统的人直接相关。 他们观察到,像 DeepSeek-R1 这样的前沿推理模型仅通过 RL 就自发发展出内部「思维社会」——认知视角之间的多智能体辩论。 前进的路径是人机配置与智能体机构,而非更大的单体预言机。 这将 AI 扩展策略从「构建更大的模型」重新定义为「组合更丰富的社会系统」。 该论文认为,AI 智能体的治理应遵循制度设计原则——制衡、角色协议——而非个体对齐。

介绍 agent-browser dashboard 精确查看你的 agent 所看到的内容 → 实时监看无头浏览器 → 在一处管理所有 session → 通过 activity、console、network、storage 面板进行调试 agent-browser dashboard start [链接]
一个让我很兴奋的小功能更新:Claude Code 现在原生支持运行 PowerShell 了!
No-one has figured out how an eng team should work with agents yet. Be wary of anyone telling you they know how to do it. Keep exploring. https://t.co/QZ3RXEyIzZ
这篇文章写得不错。我喜欢把 AI engineering 类比成 CI/CD——大家都想优化它,它吞噬大量时间,创新当然好,但如果每个人都在自己搞一套,就是混乱。你能想象每第三个工程师都在桌子底下跑一台自定义 Jenkins 服务器吗? 【引用 @davidcrawshaw】:还没有人真正搞清楚工程团队该如何与 agent 协作。对任何声称自己知道怎么做的人保持警惕。持续探索。

GStack 即将进化为一款完整的设计头脑风暴工具,命名为 /design-shotgun。 随便给个方向,看各种变体,告诉 GStack 你喜欢哪些,我们就一起做出漂亮的东西。

// 用于 LLM 推理的多智能体自进化 // 大多数用于 LLM 推理的自博弈方法缺乏明确的规划和质量控制,导致在复杂多步任务上训练不稳定。 新研究引入了一种更简洁的闭环方案。 SAGE 从单一 LLM backbone 仅用 500 个种子样本协同进化出四个专用智能体:Challenger 生成难度递增的任务,Planner 构建逐步策略,Solver 生成经外部验证的答案,Critic 对问题和计划打分过滤以防止课程漂移。 为何重要? SAGE 以极少的数据在不同模型规模上实现了一致提升。在 Qwen-2.5-7B 上,OOD 性能提升 +4.2%,同时保持分布内准确率,在代码和数学 benchmark 上超越 Absolute Zero Reasoning 和 Multi-Agent Evolve baseline。
NEW research from IBM: Workflow Optimization for LLM Agents. LLM agent workflows involve interleaving model calls, retrieval, tool use, code execution, memory updates, and verification. How you wire these together matters more than most teams realize. This new survey maps the full landscape. It categorizes approaches along three dimensions: when structure is determined (static templates vs. dynamic runtime graphs), which components get optimized, and what signals guide the optimization (task metrics, verifier feedback, preferences, or trace-derived insights). It proposes structure-aware evaluation incorporating graph properties, execution cost, robustness, and structural variation. Most teams either hardcode their agent workflows or let them be fully dynamic with no principled middle ground. This survey provides a unified vocabulary and framework for deciding where your system should sit on the static-to-dynamic spectrum. Paper: https://t.co/qF8kTaNPYo Learn to build effective AI agents in our academy: https://t.co/1e8RZKs4uX
关于 LLM 智能体工作流优化的优质综述。 IBM 新研究:LLM 智能体工作流优化。 LLM 智能体工作流涉及模型调用、检索、工具使用、代码执行、内存更新和验证的交织。如何将这些连接起来,比大多数团队意识到的更为重要。 这篇新综述绘制了完整的全景图。它沿三个维度对方案进行分类:结构何时确定(静态模板 vs. 动态运行时图)、哪些组件被优化,以及什么信号指导优化(任务指标、验证器反馈、偏好或 trace 推导的洞察)。 它提出了结构感知评估,涵盖图属性、执行成本、鲁棒性和结构变化。 大多数团队要么硬编码智能体工作流,要么让其完全动态而没有原则性的中间地带。这篇综述提供了统一的词汇和框架,用于决定你的系统应处于静态到动态谱系的哪个位置。
François Chollet (@fchollet) 多年来一直在问一个与 AI 主流不同的问题:不是「如何扩展已有的东西」,而是「智能究竟是什么,如何从第一性原理构建它」。 在这期 @LightconePod 中,他梳理了从早年深度学习研究到创建 @arcprize,再到发布 ARC V3 的历程。ARC V3 是一个新 benchmark,衡量的不是性能分数,而是在全新环境中高效学习、适应和推理的能力。他解释了为什么当前系统可能正在触碰上限、最近的突破真正意味着什么,以及为什么实现真正的通用智能可能需要一种根本不同的路径。 (附详细章节目录)
tmux + xterm + node-pty 组合会产生严重的滚动回显 artifact。我花了一整周,用 Claude、Codex、Gemini 全都没解决。 最终我意识到解法是:去掉 tmux,把 node-pty 持久化在一个 sidecar 进程里。 没有任何一个 agent 提出过这个方案。
感觉在 AI 时代,单个中大型项目的最优开发团队规模大约是 3 人。 1 人是不可持续的——某人休假时开发就得暂停。 2 人勉强可以,但「巴士因子」风险依然很高。 3 人刚刚好。 每天团队负责管理 AFK agent(离线自主运行的 agent)的任务队列,讨论需求、架构,review 代码,优化反馈循环,共享知识。 可能有些开发者同时参与多个团队。
很高兴宣布 Claude Code auto-fix —— 云端版本正式上线。Web/Mobile session 现在可以自动跟踪 PR,修复 CI 失败……
@trq212 wait until the masses find out about bidirectional communication between user <> model via interfaces with mcp apps

Anthropic 的品味依然无人能及。 - 某个酷东西出来了 - 没人用它做什么 - Anthropic 终于说「好吧,我们自己来」 - 然后这东西就爆了 当初唱衰 MCP 的人真的蠢到家了,你现在绝对应该开始构建 MCP 应用。 --- 引用自 @mckaywrigley:等大众发现通过 MCP apps 实现用户 <> 模型之间的双向通信时……

我不被 AI 产品轰炸淹没的秘诀:把它当作一连串有趣的小实验来看待。 AI 正处于「尝试各种奇怪东西」的阶段,就像 2000 年代初的手机市场——在所有人都收敛到玻璃平板形态之前,那是一段混乱的旅程,充满了无数糟糕的想法。老实说,我真的很怀念那个时代。
To manage growing demand for Claude we're adjusting our 5 hour session limits for free/Pro/Max subs during peak hours. Your weekly limits remain unchanged. During weekdays between 5am–11am PT / 1pm–7pm GMT, you'll move through your 5-hour session limits faster than before.
👇 【引用 @trq212】为应对 Claude 日益增长的使用需求,我们将在高峰时段调整免费/Pro/Max 订阅用户的 5 小时会话限制。每周总限额不变。 工作日太平洋时间早 5 点至上午 11 点(北京时间晚 8 点至次日凌晨 2 点)期间,你的 5 小时会话限额消耗速度将比以前更快。

从其他 AI 应用切换到 Gemini 现在更简单了。 从今天开始在桌面端陆续推出:你可以将使用偏好和对话历史导入 Gemini,几次点击即可从上次中断的地方继续。🧵
Say hello to Gemini 3.1 Flash Live. 🗣️ Our latest audio model delivers more natural conversations with improved function calling – making it more useful and informed. Here’s what’s new 🧵
Gemini 3.1 Flash Live 是我们迄今最高质量的音频和语音模型——也是迈向下一代 voice-first agent 的重大跃升。更低延迟、更精准、交互更自然……现在即可在 @GeminiApp 的 Gemini Live 中体验,或在 @GoogleAIStudio 中接入构建! [引用 @GoogleDeepMind]:认识一下 Gemini 3.1 Flash Live。🗣️ 我们最新的音频模型带来更自然的对话体验,并改进了 function calling——让它更实用、更智能。更新内容见下方 🧵
New paper: We deploy Claude Code in an autoresearch loop to discover novel jailbreaking algorithms – and it works. It beats 30+ existing GCG-like attacks (with AutoML hyperparameter tuning) This is a strong sign that incremental safety and security research can now be automated. https://t.co/cDwxVydVPr
@simonw:对我来说,这主要说明了强健 jailbreak 防御的徒劳性。 [引用 @kotekjedi_ml]:新论文:我们将 Claude Code 部署在自动研究循环中,用于发现新型 jailbreak 算法——而且效果显著。它击败了 30 多种现有的 GCG 类攻击(配合 AutoML 超参数调优)。 这是一个强烈信号:增量式安全研究现在可以被自动化了。
永远不要忘记:每一个 agent 行为、工具调用和决策,背后都应该有一个对此负责的人。
我再也不怕(关掉终端)了。 1. dmux 使用 tmux 2. tmux 是后台服务进程 3. 关闭终端不会杀掉 tmux 4. 你的 coding agent 继续运行 5. 输入 `dmux`,回到之前的状态 ➡️ https://t.co/ImLyLY82pL
每次 LLM 跟我说什么,我都会默认它在胡说,除非它引用了某个来源做了确认。 而我认识的非开发者里,没有一个人有这种本能。
When @0xblacklight started working on the codelayer rewrite, he spent 2 weeks in vscode plumbing every pattern by hand so the clankers could be productive later - definitely paying off
确实如此。 如果你从糟糕的模式起步,由于 LLM 自回归的本质,你永远无法逃脱它们。 我们在一个存量 codebase 上工作时深有体会,这也深刻影响了我们新的工作流。 为 agent 奠定良好的模式,是人类能做的杠杆最高的事情之一。 【引用 @dexhorthy】:当 @0xblacklight 开始做 codelayer 的重写时,他花了两周时间在 vscode 里手工铺设好每一个模式,这样后续的 clanker 才能高效工作——显然很值得。
工程博客新文章:我们如何设计 Claude Code auto mode。 许多 Claude Code 用户在不需要每步确认的情况下让 Claude 工作……
i bought a mac mini so i could have blue bubbles when texting claude and it started roasting me... try the imessage plugin for claude code today with /plugin install imessage@claude-plugins-official https://t.co/1dIuEDSgTO
iMessage 现在可以作为一个 channel 使用了! [引用 @neilhtennek]:我买了一台 Mac mini,就为了能用蓝色气泡给 Claude 发消息,结果它开始吐槽我…… 今天就来试试 Claude Code 的 iMessage 插件吧,用 /plugin install imessage@claude-plugins-official

我们推出了「我们上线了什么」,一个每月直播栏目,分享最新使用技巧和 Claude Code 新版本动态。 首播是 4 月 7 日,欢迎来和 @dmwlff 和我一起聊!
Claude Code Desktop 正在把 GitHub Issues 直接引入其环境。 这个平台越来越像 GitHub 了…… 把 PR 直接接入 CI 用于每次部署,你就有了一个 Claude 自动生成不同版本 app 供 QA 测试的工作流。
100 tweets · 45 sources