Wow. @Zai_org GLM 5.2 is a marvel! It is *at least* as good as Opus 4.8 and GPT 5.5. It's super fast, inexpensive, and not too verbose. It responds with nuance and judgement, & handles long context VERY well. I've never experienced an open weights model like this before.
非常期待 @GroqInc 或 @cerebras 这类超快定制硅推理服务商能跑起 GLM 5.2。 Cerebras 已有 GLM-4.7,Groq 目前主要还是 Llama 3.x 和 gpt-oss。 【引用 @jeremyphoward】: 哇。 GLM 5.2 简直是奇迹!它**至少**和 Opus 4.8、GPT 5.5 一样强。速度超快、价格低廉、回复不啰嗦。 它的回答有细微判断力,长上下文处理也非常出色。 我从没见过这样的开源权重模型。
刚发布了 Datasette Apps——一个 Datasette 插件,可以在 iframe 沙箱中托管完整的 HTML+JS 应用,这些应用能查询你的数据库并对数据做各种有意思的处理。
"American companies and the U.S. government itself cannot use what’s perhaps the most powerful AI in the world—and the reasons why are hazy at best," argues @matteo_wong. https://t.co/3uQ8beAr50

如果这真的是导致 Fable 被关停的「越狱」,我对其水平深感失望。 [引用《大西洋月刊》] 「美国公司和美国政府自身无法使用这款可能是世界上最强大的 AI——而背后的原因至多是模糊的。」
🚨 Anthropic just updated its privacy policy. Claude Free, Pro, and Max users may soon be asked for age or identity checks. Verification data can include government ID, face photos/videos, and facial geometry templates. Individual developers are the first group in scope for verification.

值得注意的是,Anthropic 含有「身份验证数据」表述的新隐私政策发布于 6 月 8 日——恰好是 Claude Fable 5 发布前一天,也是美国政府出口禁令前四天。 [引用] 🚨 Anthropic 刚刚更新了隐私政策。Claude Free、Pro 和 Max 用户可能很快需要接受年龄或身份验证。验证数据可包括政府颁发的身份证件、面部照片/视频,以及面部几何特征模板。独立开发者是首批纳入范围的群体。
"They screwed us": Personality clashes sent Anthropic's models offline https://t.co/XUbfTNJrIc

@simonw:看来 Fable 短期内不会回来了。 [引用 @axios]:「他们坑了我们」:内部人际冲突导致 Anthropic 的模型下线
还好美国政府没想到去试那个 Fable 5 的「越狱」方法对付 Opus 4.x 或 GPT 5.x,不然这个周末我什么正事都干不了了
现在可以将 Python 扩展(C、C++、Rust 等)编译为 WebAssembly,通过 PyPI 分发,Pyodide 可以直接安装它们。
The US government, citing national security authorities, has issued an export control directive to suspend all access to Fable 5 and Mythos 5 by any foreign national, whether inside or outside the United States, including foreign national Anthropic employees. The net effect of this order is that we must abruptly disable Fable 5 and Mythos 5 for all our customers to ensure compliance. Access to all other Claude models is not affected. We apologize for this disruption to our customers. We believe this is a misunderstanding and are working to restore access as soon as possible. Read our full statement: https://t.co/bwn0sximKZ
🤯 【引用 @AnthropicAI】美国政府援引国家安全权力,发布出口管制指令,暂停 Fable 5 和 Mythos 5 对所有外国公民的访问——无论其身处美国境内外,包括 Anthropic 的外籍员工。 该命令实际效果是:我们必须立即对所有客户禁用 Fable 5 和 Mythos 5,以确保合规。 Claude 其他所有模型不受影响。 对于此次中断,我们深感抱歉。我们认为这是一场误解,正在积极推动尽快恢复访问。 查看完整声明:https://t.co/bwn0sximKZ
等 OpenAI 把改进后的 gpt-realtime-2 语音对话模型推到 ChatGPT 产品里实在太慢了,干脆自己动手:升级了 OpenAI-WebRTC playground 工具,支持新模型,并新增了「粘贴文档,与 AI 就其内容对话」的功能。https://t.co/nysQanoBMQ
用了两天 Claude Fable 5,我能想到最准确的描述是「无情地主动」——举个例子:我丢进去一张 bug 截图,它自己起了定制 CORS Python 服务器,还调用 pyobjc-framework-Quartz 来截图。
Datasette 新版本发布:1.0a33,终于为 ?_extra= JSON API 机制补上了文档,并将其支持范围从 table 页面扩展到了 row 和 query 页面。 (本次发布的大部分代码由 Claude Fable 5 协助完成)
If you're a programmer and you're still thinking that all of this ChatGPT stuff is a waste of your time, I strongly suggest reviewing this example It's over-hyped, sure - but it's not something anyone in our profession should continue to ignore
回顾三年前关于 ChatGPT Code Interpreter 的这段对话很有意思——事后看来,这是我们第一次瞥见 coding agent 的雏形,尽管当时我们还不知道 coding agent 是什么。 引用自 @simonw:如果你是程序员,还在觉得这些 ChatGPT 的东西都是在浪费你的时间,我强烈建议你看看这个例子。 确实被过度炒作了——但这不是我们这行任何人可以继续忽视的东西。
BREAKING NEWS: Anthropic's latest model will NOT help you if it thinks your ML research/ML engineering is interesting, and/or will secretly degrade its IQ so that the average engineer won't notice. We are already seeing Anthropic's latest model's moderation filters our GPU inference research and programming 😭

很高兴听到 Anthropic 已撤回了这项政策。 【引用 @SemiAnalysis_】 重大消息:Anthropic 最新模型如果判断你的 ML 研究/ML 工程"很有意思",就会拒绝提供帮助;或者偷偷降低自己的智商,让普通工程师察觉不到。我们已经亲眼看到 Anthropic 最新模型的审查过滤器屏蔽了我们的 GPU 推理研究和编程工作 😭
写了一篇 Claude Fable 5 的初步印象——它有大模型的气味:慢、贵,但几乎能啃下我丢给它的所有任务。
一篇 TIL:如何在 Claude Fable 5 尚未被收录进 AgentsView 定价数据库的情况下,用 [llm-prices.com] 计算该模型的 token 消耗费用。
We recently submitted a confidential S-1. We expect it to leak so we’re just announcing it. We have not decided on timing yet; it may be a while because there are things we want to do that are likely easier as a private company. But it’s a complicated set of tradeoffs and this gives us the option to go public sooner if that ends up being best. This announcement is being made pursuant to Rule 135 under the Securities Act of 1933, as amended, and does not constitute an offer to sell or the solicitation of an offer to buy any securities. Any offers, solicitations of offers to buy, or any sales of securities will be made in accordance with the registration requirements of the Securities Act.
OpenAI 和 Anthropic 都已向 SEC 秘密提交 S-1——Anthropic 于 6 月 1 日提交了他们的。 [引用 @OpenAINewsroom]:我们近期提交了保密 S-1。我们预计会泄露,所以直接宣布了。具体时间尚未决定;可能还需要一段时间,因为有些事情作为私人公司更容易推进。但这是一组复杂的权衡,这样做给了我们在最合适的时机更快上市的选项。
我可能终于找到了我一直在寻找的 Python 沙箱方案……这是我的最新实验:在 Python 应用内部,将 MicroPython 运行在 WebAssembly 中
据报道,Uber 现在将每位员工每个工具的 coding agent 费用上限定为每月 1,500 美元——我觉得挺合理的,但这也是一个有趣的信号,暗示了 Uber 认为这些工具实际创造的价值量级。
@simonw:这件事让我很郁闷:OpenAI 的 Codex Desktop 曾经有一个「Copy as Markdown」功能,可以导出完整的对话记录,但前几天的更新把这个功能删掉了。 这真的是 Codex 相比 Claude Code 我最喜欢的功能。


我对那个「Uber 烧光 AI 预算、对结果大失所望」的故事持怀疑态度——我深入挖了一下,发现它建立在非常薄弱的基础之上。
Anthropic 自报的年化营收增速令人震惊——Axios 的 @JimVandeHei 表示,他找不到「任何行业、任何时代的任何一家公司,在这个量级上有机营收增长得这么快」,彼时 Anthropic 还在 300 亿,现在已经到 470 亿了!

@simonw:Claude Opus 4.8 使用笔记,附赠五种不同 thinking effort 各生成一张鹈鹕骑自行车的对比图 https://t.co/8J0s0fLAnT
FTC to require Cox Media Group, two other firms to pay nearly $1 million to settle charges they deceived customers about “active listening” AI-powered marketing service: https://t.co/i8MDDkLbBH
我对这个「主动监听」的故事一开始就非常怀疑。事实证明这是个骗局——他们根本没有通过麦克风监听来定向投广告。 【转引 @FTC】:FTC 要求 Cox Media Group 及另外两家公司支付近 100 万美元,以和解其就「主动监听」AI 营销服务欺骗客户的指控:https://t.co/i8MDDkLbBH
发布了 Datasette Agent 的首个 alpha 版本——一个可以对 SQLite 数据库中的数据进行自然语言问答的对话式 AI 助手,并支持通过插件扩展工具和功能。 演示视频:https://t.co/2gyduf5Eph
对于今年的 Google I/O,我没有太多可说的,因为我更倾向于写已经发布的产品,而不是「即将推出」的公告——但这里有一些关于 Gemini Spark 和 Antigravity 的笔记 [链接]
有人能解释 Google 说的「Gemini Spark 运行在 Gemini 3.5 上,使用 Antigravity harness」是什么意思吗?「Antigravity」是他们给 agent harness 起的通用名字,还是他们自家对标 Claw 的产品——跑的是同一套我们能下载的闭源 Go binary?
我关于 Gemini 3.5 Flash 的笔记——价格是 Gemini 3 Flash 的 3 倍,但 Google 计划在自家多个产品中使用它。[链接]
High quality interactions are still possible in the AI era. https://t.co/CjkD9gzo6G
这也是 wanderingmeow 对开源正向贡献的好例子——你不需要贡献代码才能产生正向影响,仅仅提供详细反馈、确认某个功能确实可用,本身就极具价值。 [引用 @antirez]:AI 时代,高质量的交流依然是可能的。
It isn't unexpected that the focus of the Bun Rust rewrite is on the anti-Zig side more than anything, since the internet loves to hate. What is unexpected and unfortunate is that leadership within Bun hasn't tried to steer the conversation away from that at all. There are so many positive and interesting takeaways from this and I'm not really seeing any of them pushed as the primary message. A positive thing that hasn't been talked about at all is how far Bun came thanks to Zig. And even if you dump it now, its meaningful for how good Zig was to even build a product to this point and impact by any metric. I would've loved to see anyone in leadership say this. On the interesting side is how fungible programming languages are nowadays. Programming languages used to be LOCK IN, and they're increasingly not so. You think the Bun rewrite in Rust is good for Rust? Bun has shown they can be in probably any language they want in roughly a week or two. Rust is expendable. Its useful until its not then it can be thrown out. That's interesting! There's been a lot of talk about memory safety and no doubt Rust provides more guarantees than Zig. But I'd love to see a better analysis of why Bun in particular suffered so much rather than take the language-blame path. How could engineering as a practice been more rigorous to prevent this? What were the largest sources of crashes other programs should watch out for? How does Rust prevent them? How could Zig theoretically prevent them? That's interesting. I know the official blog post hasn't come out yet from Bun. But they're smart enough to know that that PR would stir up controversy the moment it opened, or they should've been. And plenty in the company have been tweeting and writing about it. Its somewhat telling to me in various dimensions what they chose to talk about first. I tend to think I'm pretty good at corporate PR/comms (especially when it comes to developer audiences) and I think appealing to the negative is never the right long term strategy; it does work to get short term eyes though.
@simonw: Mitchell 的这篇文章让我想起最近一次类似的对话——用 coding agent 把原生移动应用移植到 React Native 的成本有多低……如果后来发现不合适,再移回去也同样简单。 引用 @mitchellh:Bun 的 Rust 重写讨论聚焦在反 Zig 情绪上并不意外,毕竟互联网天生喜欢喷。真正令人遗憾的是,Bun 的领导层完全没有尝试把话题引向别处。 这件事其实有很多正面且有趣的角度,但我几乎看不到有人把这些作为主要信息来传递。 一个完全没人讨论的正面角度是:Bun 走到今天,Zig 功不可没。就算现在要抛弃它,能靠 Zig 把产品做到这个规模和影响力,本身就说明 Zig 很优秀。多希望看到领导层有人说这句话。 真正有趣的角度是:**编程语言正变得越来越可替换**。语言曾经意味着锁定(lock-in),但现在越来越不是了。你以为 Bun 用 Rust 重写是 Rust 的利好?Bun 已经证明他们大概可以在一两周内换成任何语言。Rust 是可抛弃的——有用时用,没用时扔掉。这才是真正值得讨论的! 我更希望看到有人深入分析 Bun 为什么特别容易崩溃,而不是把锅甩给语言。崩溃的最大来源是什么?Rust 怎么防止?Zig 理论上能怎么防止?这才有趣。 诉诸负面永远不是长期正确的传播策略,虽然短期确实能赚眼球。
A person I know (and who is? was? a good professional al) left an AI-generated comment under my LinkedIn post. Full-on AI slop. I asked: why do this? He replied. It’s because of “engagement.” People are burning their profession al reputation, paying for AI tools, for nothing https://t.co/BxEgpt8Ppm
@simonw: 这是快速烧掉自己声誉的好办法。 引用 @GergelyOrosz:我认识一个人(曾经是个优秀的专业人士)在我的 LinkedIn 帖子下留了一条 AI 生成的评论。纯粹的 AI 水文。 我问:为什么这样做? 他回答:为了「互动」。 人们正在花钱买 AI 工具,燃烧自己的职业声誉,换来的什么都没有。
@simonw: 写了一篇关于今天 GitLab 重组/「裁员」公告的文章,顺带挖了 GitLab 和 37signals 公开员工手册的版本历史,用来佐证我的观点。https://t.co/xkqehsa5hT
我的 Mac 可用内存比预期少,发现罪魁祸首是这台机器上跑在各个终端窗口里的 "claude" Claude Code 进程——光它们就占了约 30GB!最大的那个单独用了 4.9GB。

新 TIL:搞清楚了如何在 shebang 行里使用我的 LLM CLI 工具,这意味着你可以直接用英文写可执行脚本,或者用一段 YAML 模板接入更复杂的脚本。
Learning on the Shop floor
Shopify 的 River agent 系统运行在 Slack 里,且只能在公开频道使用,这样其他员工可以从你的使用过程中学习。 这让我想起 Midjourney 当初只在 Discord 上发布——人们在互相观摩的过程中,逐渐摸索出图像提示这门奇特而复杂的技艺。 【引用 @tobi】 在车间里学习
Using Claude Code: The Unreasonable Effectiveness of HTML

用 HTML 来解释事物这招还挺妙的——我刚用它试了最新 Linux 漏洞的混淆 Python POC:[链接] [引用 @trq212]: 用 Claude Code:HTML 的惊人效能
gemini 3.1 flash-lite is here it's our most cost-efficient model, optimized for high-volume agentic tasks, translation, and simple data processing https://t.co/QhaTNoLcgu
@simonw:我们早在 3 月 3 日就已经有了 gemini-3.1-flash-lite-preview,不清楚这个新的 gemini-3.1-flash-lite 除了不再标注「preview」之外有什么不同。定价看起来完全一样。 [引用 @GoogleAIStudio]:gemini 3.1 flash-lite 来了 这是我们性价比最高的模型,专为大规模 agentic 任务、翻译和简单数据处理优化
Introducing GPT-Realtime-2 in the API: our most intelligent voice model yet, bringing GPT-5-class reasoning to voice agents. Voice agents are now real-time collaborators that can listen, reason, and solve complex problems as conversations unfold. Now available in the API alongside streaming models GPT-Realtime-Translate and GPT-Realtime-Whisper — a new set of audio capabilities for the next generation of voice interfaces.
@simonw:看到这个我以为「太好了!ChatGPT 语音模式终于要告别像两年前的模型了」——但这次升级还没到产品端 [引用 @OpenAI]:发布 GPT-Realtime-2 API:我们最智能的语音模型,将 GPT-5 级别的推理能力带入 voice agent。 Voice agent 现在可以成为真正的实时协作者——边听、边推理、边解决复杂问题。 现已在 API 中提供,附带流式模型 GPT-Realtime-Translate 和 GPT-Realtime-Whisper,构成下一代语音界面的全套音频能力。
@simonw:xAI/Anthropic Colossus 数据中心交易中鲜被报道的细节:Anthropic 拿到的是 Colossus 1,而 xAI 继续使用更大的 Colossus 2;Colossus 1 的环境记录相当糟糕;而且 xAI 刚刚只给了两周通知就下线了一批旧模型。

在看 @jarredsumner 和 @bcherny 在 Code w/ Code 上聊 robobun——Bun 项目的 GitHub bot,现在对 Bun 的贡献数量已经超过了 Jarred 本人。
我正在旧金山参加 Claude w/ Code 活动,会在这里实时直播主题演讲 [链接]
前几天我和 @josephruscio 在 @heavybit 播客聊天时意识到,vibe coding 和 agentic engineering 在我的一些工作里已经开始有点模糊了——我把部分对话记录摘出来发了出来 https://t.co/evxoG06Vpa
AI 驱动的业务实验很有趣,但有个边界——当它开始浪费那些没有主动参与实验的人类时间时就越界了。我认为,对于会影响他人的对外行动,AI 系统必须保持自己的人类操作员在回路中。
Meta 新的 Muse Spark 模型用了鹈鹕形象——另外我深入研究了他们 chat UI 中的 Code Interpreter 和有趣的 "container.visual_grounding" 工具
我现在最希望 AI 实验室做的事:说清楚他们聊天工具执行搜索时用的是哪个底层搜索引擎。OpenAI、Anthropic、Meta AI 都有搜索功能,但我完全不知道他们用的是什么索引。(希望 Gemini 用的是 Google!)
写了一些关于 Anthropic Project Glassing 的想法——他们最新的超越 Opus 的模型只对合作安全研究机构开放。鉴于近期可信安全人士发出的警告,我认为这是合理的决定。
Introducing GLM-5.1: The Next Level of Open Source - Top-Tier Performance: #1 in open source and #3 globally across SWE-Bench Pro, Terminal-Bench, and NL2Repo. - Built for Long-Horizon Tasks: Runs autonomously for 8 hours, refining strategies through thousands of iterations. Blog: https://t.co/hmyDe4Nel3 Weights: https://t.co/CuUjXcPKJD API: https://t.co/fz6reja4fb Coding Plan: https://t.co/Nk8Y98HNhU Coming to https://t.co/WCqWT0qCQb in the next few days.
754B 参数,在 Hugging Face 上占 1.51TB。 [引用] 发布 GLM-5.1:开源新高度 - 顶级性能:在 SWE-Bench Pro、Terminal-Bench 和 NL2Repo 上开源第一、全球第三 - 为长周期任务而生:可自主运行 8 小时,通过数千次迭代持续优化策略 权重、API 等见链接,即将上线 Claude.ai。
Anthropic now blocks first-party harness use too 👀 claude -p --append-system-prompt 'A personal assistant running inside OpenClaw.' 'is clawd here?' → 400 Third-party apps now draw from your extra usage, not your plan limits. So yeah: bring your own coin 🪙🦞
@simonw:根据 system prompt 中的文本内容差异化计费,这真的很难看 引用 @steipete:Anthropic 现在也屏蔽了第一方 harness 的使用 👀 claude -p --append-system-prompt 'A personal assistant running inside OpenClaw.' 'is clawd here?' → 400 第三方 App 现在从你的额外用量中扣,而不是套餐限额。 所以:自备代币吧 🪙🦞
我做了一个新的 Python CLI 工具,用于扫描文件夹中的敏感字符串——如果你想分享一批日志文件,但又想先确认里面有没有意外泄漏的 API key 之类的内容,这个工具很有用。运行以下命令了解详情: uvx scan-for-secrets --help
我在博客上新建了一个标签,专门追踪 AI 驱动的安全研究相关文章——这个话题现在正处于爆发期,目前已经有 11 篇了。
"Using coding agents well is taking every inch of my 25 years of experience as a software engineer, and it is mentally exhausting. I can fire up four agents in parallel and have them work on four different problems, and by 11am I am wiped out for the day. There is a limit on human cognition. Even if you're not reviewing everything they're doing, how much you can hold in your head at one time. There's a sort of personal skill that we have to learn, which is finding our new limits. What is a responsible way for us to not burn out, and for us to use the time that we have?" @simonw
刚注意到这条推文已经有 110 万次浏览了,这也解释了为什么我开始看到一些不那么专业的反应——它已经从纯技术 Twitter 圈子里破圈了。 引用 @lennysan:「把 coding agent 用好,正在消耗我 25 年工程经验积累的每一寸能力,精神上极度疲惫。我可以同时跑四个 agent 处理四个不同问题,但到上午 11 点我就已经精力耗尽了。人类认知是有上限的——就算你不逐一审查它们的每个动作,能同时在脑子里装多少东西也是有限的。我们需要学习一种新的个人技能:找到自己的新极限。怎样才是不让自己 burnout、同时充分利用手头时间的负责任方式?」
760 tweets · 188 sources