@yetone 为何不直接分享具体的案例故事?更生动,也不需要解释为什么有价值。



说到 Yansu App 的 Hand-off 功能,最近发生了两件特别好玩的事: 首先,我们 CEO Bo 最近在准备旅行,Yansu 看到这个信息后,主动发出 Hand-off 提醒,说想帮他调研目的地的 Airbnb 房源。Bo 确认后,它给出了质量很高的推荐列表。 Bo 是英文用户,但 Yansu 最后用中文做了总结。Bo 问为什么用中文——发现是因为 Hand-off 之前,Bo 刚和我们开了一个全中文的会议,它就沿用了中文。 这件事还没完。Bo 刷推看到引用的这条推文,想把这个案例分享出来——Yansu 紧接着又发起了一个新的 Hand-off:「是否需要我帮你把这个案例写成推文?」Bo 点 OK 后,Yansu 一气呵成写出了推文。 这两件事真的震惊了我们。 [引用评论]:为何不直接分享具体案例故事?更生动,也不需要解释为什么有价值。
@yetone 为什么要把它变成一个skill,而不是直接让agent去读这篇文章呢?Learning is better than installing
很多人可能还是低估了 agent skill 作为 Agent 时代标准化交付物的两个核心能力:evolving(持续演进)和 shareable(可共享)。 一旦一个标准品被开源并进入协作网络,它就不再是一个静态产物,而会在持续使用、反馈和改造中自我演进,甚至超出原作者最初的设想。 更关键的是,agent skill 天然具备可共享、可复用、可传播的属性,这会让原本单点的内容和能力被不断放大,形成一个极其强大的杠杆效应。 [引用 @zty0826]:@yetone 为什么要把它变成一个 skill,而不是直接让 agent 去读这篇文章呢?Learning is better than installing
everything you need to know about how the team built the new @raycast from the ground up honestly worth a read 👉 https://t.co/vP4OUpIHSV there's nothing to hide
@yetone: 因为这篇文章太精彩,我把它变成了一个 Agent Skill。 大家可以在自己的 Coding Agent 里安装这个 Skill,用「最佳实践」轻松重构或开发一个既支持跨平台、又极度接近 Native 性能的桌面端应用。 引用 @peduarte:关于 @raycast 团队如何从头构建新版 Raycast 的完整记录——诚意推荐阅读,没有任何保留。
很开心向大家分享一下,这一年多以来最能够节省我时间的个人时尚单品: 1. --dangerously-skip-permissions 2. --dangerously-bypass-approvals-and-sandbox 3. /goal
DB base 和 file base,在 harness memory 系统中不是冲突的。只是 firstly 和 secondly 的区别。一切都是为了照顾 LLM 的喜好。至少在 2026 年,LLM 还仍然是个 Bash 爱好者。 这也是为什么大多数当代 Harness 都是多层记忆,我们的 Harness Memory 也是多层的,有基于 embedding db 的记忆,也有基于 file system 记忆。
@yetone: 没想到我昨天写的那个分布式文件系统底层就是 PostgreSQL——拼命把它实现成 filesystem 就是为了方便 LLM。做过 Coding Agent 开发的人都知道,LLM 有多爱用 Bash,按我的经验,它用 Bash 操作文件的意愿比用其他 tool 大几十倍不止。 我至今忘不了 Avante.nvim 迭代期间 Claude Sonnet 3.7 刚出来的那一刻——收到了大量用户吐槽:明明用了 Plan 模式,为什么还在改我的代码? 后来发现这个模型,即使你去掉所有 file tool 只留 Bash tool,然后在 system prompt 里反复强调只能读文件、不能改文件,它最终还是会疯狂用 Bash 调 cat + HereDoc 去修改文件。调用 bash tool 操作文件,就是 LLM 的膝跳反射。 [引用] DB-based 和 file-based 在 harness memory 系统里并不冲突,只是优先级先后的区别。一切都是为了迎合 LLM 的喜好。至少在 2026 年,LLM 仍然是个 Bash 爱好者。这也是为什么大多数当代 Harness 都采用多层记忆——我们的 Harness Memory 也是多层的,既有基于 embedding db 的记忆,也有基于 filesystem 的记忆。
Avarok Cybersecurity 开源了 Atlas,一个用 Rust + CUDA 从零写的大模型推理引擎。它不依赖 Python 和 PyTorch,项目方称 Docker 镜像约 2.5GB,冷启动不到 2 分钟,目前主要面向 NVIDIA DGX Spark 的 GB10 平台优化。 官网模型矩阵显示,Atlas 在单台 DGX Spark 上跑 Qwen3.5-35B-A3B 可到约 130 tok/s,跑 Qwen3.6-35B-A3B 约 71 tok/s。Atlas 官网和 Hugging Face 页面称,在同硬件下,Qwen3.5-35B 平均约 111 tok/s、峰值 130 tok/s,vLLM 约 37 至 38 tok/s。 这组「3 倍 vLLM」数据来自项目方公开基准。GitHub README 写明,测试使用的是「法国首都是哪」这类短 prompt,生成上限不超过 30 个 token,temperature 为 0.1。这个口径更接近短请求、低并发、快速响应场景,也正好对应 Atlas 想打的卖点:用更小镜像、更少依赖和更快冷启动,把本地大模型服务变得更轻。 Atlas 现在仍是早期项目,真实生产场景还要看后续长文本、高并发和复杂工具调用测试。GitHub 上已有用户反馈输出质量和工具调用稳定性问题,相关 Issue 截至 2026 年 5 月 11 日仍处于 Open 状态。对开发者来说,它更像一个值得关注的新推理底座,而不是已经能全面替代 vLLM 的成熟方案。
2.5GB 冷启动不到 2 分钟…… 我在前厂给大模型 serverless 部署做的优化是 8GB 冷启动不到 20 秒。 【引用】Avarok Cybersecurity 开源了 Atlas,一个用 Rust + CUDA 从零写的大模型推理引擎。不依赖 Python 和 PyTorch,Docker 镜像约 2.5GB,冷启动不到 2 分钟,主要面向 NVIDIA DGX Spark 的 GB10 平台优化。 官方 benchmark:单台 DGX Spark 跑 Qwen3.5-35B-A3B 约 130 tok/s,而 vLLM 约 37-38 tok/s,号称「3 倍 vLLM」。但这组数据口径是短 prompt、低并发、生成上限 30 token——正好对应其卖点:更小镜像、更少依赖、更快冷启动。 仍是早期项目,输出质量和工具调用稳定性有 Open Issue,更像值得关注的新推理底座,而非成熟的 vLLM 替代方案。
Alma 流式渲染:0 渲染卡顿 + 词级淡入 + 平滑滚动
357 tweets · 110 sources