Glean 拾遗
← 所有期号
#006 最新 6/29–7/5 7 月 5 日发布

循环即马具:模型被商品化,但系统才刚刚开始

本周,一场范式转移在工程社区中悄然完成:Agent 开发的重心已从「写好提示词」彻底转向「设计好循环」。那个 While 循环不再是技术细节——它决定系统能否收敛、何时刹车、成本是否失控。模型正在快速商品化,而马具——组装模型、工具、上下文、反馈与约束的循环系统——才是区分平庸与卓越的分水岭。24 篇 picks 从 Boris Cherny 的循环宣言、Claude Code 官方四种循环模式,到上下文缓存工程、Skill 设计哲学以及多模型协作的 Serving 层下沉,共同构成一套足以落地的施工蓝图。读完这期,你将不再关心哪个模型更强,而是关心:你的循环能跑过通宵、不烧预算、并且交付可用的结果吗?

24 篇 6 章 约 6 小时
章节 01

循环即系统:从提示到自治的工程化路线图

7 / 24
x.com · 8 min
01

循环工程:当提示不再是主角,Agent 系统的核心转向Loop Engineering: When Prompting Takes a Back Seat to the System

本文由 Claude Code 构建者 Boris Cherny 的观点切入,提出 Agent 开发的重心已从提示工程转向循环工程(Loop Engineering)。作者详细拆解了 Agent 循环的内核(一个简短的 while 循环),并指出真正的工程挑战集中在四个环节:如何准确判定任务完成(而非模型停用工具)、如何保持上下文清洁以防止“上下文腐烂”、如何设计让 Agent 能实际使用的工具(幂等性与面向 LLM 的错误信息)、以及如何在循环中引入独立的验证者(Critic)来避免模型自我认可。文章强调,模型正趋于同质化,围绕模型的“马具”(Harness)——即循环系统——才是工程师应投入精力的方向。适合 Agent 开发、AI 工程与系统设计的相关工程人员阅读。

x.com · 18 min
02

循环工程:构建不会在睡着时烧掉你预算的自动化循环技术路线图Loop Engineering: A Technical Roadmap for an Autonomous Loop

本文是一份构建可靠自主循环(autonomous loop)的技术路线图,作者强调循环不是prompt——prompt需要你手动触发,而循环自己驱动自己:设定目标后,系统自动查找工作、执行、检查、修复、重复直至完成。核心论点:决定上限的不是写prompt的技能,而是构建一个能收敛到真理而非变成昂贵随机漫步的循环。文章按严格顺序提供从Step 0到Step 7的实操指南,包含完整代码(Bash脚本)、每次迭代重建上下文的stateless设计原理(对付context rot)、不可被欺骗的check设计(独立oracle + reward hacking防御门 + 独立法官)、磁盘状态协议(human-readable STATUS.md + machine-parsable JSON)、隔离(worktree/container with --network none)、刹车(迭代上限、预算上限、重复检测器、liveness marker、结构化日志)、以及成本非线性增长分析。特别适合需要构建AI Agent自动化流水线的一线工程师阅读。

x.com · 7 min
03

从提示到自治:设计 AI 工作循环的五个阶段The 5 Levels of Loop Design: From Prompting to Autonomous Agents

Claude Code 的创造者声称自己几乎不再写提示词了——是循环在替他“提示”。本文提出一个清晰的五级框架,描述开发者与 AI 协同工作模式的演进:从 L1 的单轮问答,到 L2 的手动循环(重复“做-检查-修正”),再到 L3 的验证循环(用独立检查定义“完成”),然后到 L4 的自运行循环(靠 Goal 命令自主迭代),最终到 L5 的自主智能体系统(循环自触发、并行执行、经验回写入知识库持续改进)。每级都包含识别标志和具体升级行动。适合已感觉“聊胜于无”的 AI 用户,以及正在构建自动化 Agent 工作流的工程师。

claude.com · 8 min
04

Claude Code 循环模式:从手动检查到定时任务的工程化指南Getting started with loops

本文是 Claude Code 官方发布的工程指南,系统梳理了四种 agent 循环模式及其适用场景。Turn-based 循环适合探索性短任务,用户可通过编写 SKILL.md 将手动验证步骤编码为自动检查,例如要求 Claude 启动 dev server、截图并检查浏览器控制台。Goal-based 循环通过 /goal 命令设定确定性终止条件(如 Lighthouse 评分 ≥90),并强制 Claude 在达到阈值前持续迭代。Time-based 循环由 /loop(本地间隔轮询)和 /schedule(云端定时触发)支持,适合处理 PR review、CI 失败修复等重复性依赖外部系统的工作。Proactive 循环组合 /schedule、/goal、动态工作流和 auto mode,构建面向长期运行任务的生产线。文章还讨论了代码质量维护、token 用量管理策略,强调用脚本替代推理、用小模型处理例行任务、用 /usage 命令监控各技能和子 agent 的成本。适合正在将 Claude Code 嵌入日常开发流程的工程师。

cursor.com · 13 min
05

Cursor 代理框架的持续改进:从上下文管理到模型定制Continually Improving Our Agent Harness

Cursor 团队分享其代理框架(harness)的持续改进方法论。核心包括:上下文窗口从静态预填充演变为动态按需获取;通过离线基准(CursorBench)和在线 A/B 测试(基于代码留存率、用户意图识别)评估改动效果;建立工具调用错误分类体系(未知错误视为 bug,预期错误按原因归类)并利用异常检测与自动化日志分析(Cloud Agents)来追踪与修复退化;为不同模型定制工具格式与提示(如 OpenAI 的 patch 格式 vs Anthropic 的字符串替换),并处理模型特性(如“上下文焦虑”);支持会话中模型切换时自动切换对应框架并加入特殊指令避免工具混淆。最后展望多智能体架构——框架将负责智能体编排与结果缝合。适合一线 AI 工程、Agent 平台开发者阅读。

justinyan.me · 4 min
06

Superpowers:让AI Agent跑通宵且交付可用的秘诀Superpowers: How to Make an AI Agent Run All Night and Deliver Usable Results

本文作者分享了自己从最初失败的长任务Agent编排尝试,到发现并使用Superpowers这一Skill Set解决核心痛点的经验。Superpowers通过将开发流程拆解为“头脑风暴(brainstorming)→ 编写计划(writing-plans)→ 执行计划与Subagent驱动开发(executing-plans / subagent-driven-development)”三个阶段,确保长任务的可控性与交付质量。关键设计包括:用多个Prompt模板(implementer、spec-reviewer、code-quality-reviewer)分离执行与评审职责;为每个Task创建独立Subagent并禁止继承主Session Context,防止上下文污染;通过“Never/HARD-GATE”等强约束词防止AI跑偏;贯彻TDD、DRY、YAGNI等软件工程原则。作者认为,当前Frontier模型(Opus 4.8、Codex GPT-5.5)能力已足够,核心在于Harness设计——通过规约与流程让模型变得可靠。

blog.fsck.com · 8 min
07

Superpowers 6:用自动化研究循环将构建成本降低60%Superpowers 6: Cutting Build Cost 60% via Autoresearch Loop

Superpowers 6 发布,核心改进来自一次自动化研究(autoresearch)实验:作者利用 Anthropic 的 Fable 模型(短暂可用期间)对自身的 Subagent Driven Development 流程进行了系统优化。在 36 小时内、花费约 165 美元 token 运行了 25 次实验,最终实现 wall-clock 速度提升 50%、token 消耗降低 60%。关键优化包括:合并合规审查与代码审查 agent、预生成 review packet 减少 git 调用、根据任务类型动态分配 agent 层级(如对非代码方案使用低成本 haiku)。文中披露了多个已证伪的假设(如限制 controller 思考时长适得其反),并强调 eval 套件在差异化测量中的关键作用。适合关注 AI 编码 agent 成本优化和 engineering productivity 的读者。

章节 02

上下文即架构:对抗记忆衰减与上下文腐烂

3 / 24
x.com · 21 min
08

AI Agent 上下文工程完全手册:为什么你的 Agent 在第 15 步开始变糟Context Engineering for AI Agents: The Complete Playbook

本文系统阐述了上下文工程在构建 AI Agent 中的核心地位,指出 Agent 行为退化往往不是模型问题,而是上下文窗口管理不当。文章指出,Agent 的上下文窗口如同 RAM,随着工具调用、检索结果和对话历史累积,模型注意力会衰减,出现“中间丢失”和上下文腐败。作者给出了四大策略:Write(持久化信息到外部)、Select(按需检索)、Compress(压缩上下文)、Isolate(隔离不同任务的上下文),并详细分析了 4 种失败模式(中毒、分心、混淆、冲突)。文章还提供了具体数据:Chroma 基准测试表明所有模型在输入长度增加时性能连续下降,RAG‑MCP 将工具选择准确率从 14% 提升至 43% 且令牌用量减半,KV‑cache 缓存命中可使成本降低 10 倍。最后给出了一个在 7 小时内向 Rust 代码库提交约 35,000 行代码的实战工作流,适合所有需要构建可靠生产级 Agent 的工程师阅读。

x.com · 21 min
09

打造优秀垂直 Agent:用缓存层级组织上下文Building a Good Vertical Agent: Context as a Cache Hierarchy

本文提出一个核心观点:优秀的垂直 Agent 是对任务分布的有损压缩,其上下文应像 CPU 缓存一样分为 L1/L2/L3 三层。作者以自己构建的 Shortcut 电子表格 Agent 为例,详细展示了如何极度优化高频操作:读取时通过 R1C1 范式化和别名将 500 个公式压缩为一行动态;写入后返回分组、采样、分类的 diff,并将 #REF! 等错误标记为 MUST FIX。第二层是按需拉取的英文规范文档,例如透视表规范教会模型 suspendLayout/resumeLayout 和聚合参数必须传原始整数 8;第三层是完整的原始 API 参考,配一个 100 行的 grep 技能让模型能自行挖出所需签名。整篇文章提供了具体的代码片段、prompt 预算分配和可迁移的设计原则,适合所有需要构建高可靠 Agent 的工程师。

www.aihero.dev · 5 min
10

如何让代码库成为AI代理的“理想家园”——深模块设计实践How To Make Codebases AI Agents Love

本文作者提出,代码库的结构远比提示词或AGENTS.md文件更能影响AI代理的输出质量。核心观点是采用《软件设计哲学》中的“深模块”原则:每个模块通过简单接口暴露大量实现逻辑,AI代理只需理解接口,无需深入内部。作者进一步提出“灰盒模块”概念——开发者定义并锁定接口行为(通过测试),AI负责实现内部细节。这种方式能改善AI的反馈循环(测试即反馈)、导航效率(文件系统直接映射心智模型)并降低认知负担(开发者只需关注7-8个模块边界)。文章也指出TypeScript中强制边界不易,推荐使用Effect库。适合正在优化AI编码工作流的工程师阅读。

章节 03

技能即产品:封装专家经验的工程化复用

4 / 24
www.aihero.dev · 8 min
11

每日必用的5个Agent技能:编码你的开发流程5 Agent Skills I Use Every Day to Encode My Development Process

资深工程师 Matt Pocock 分享了他在日常开发中频繁使用的5个 Agent 技能(Skills),旨在将人类的开发流程编码成严格可复用的指令,解决 LLM 无记忆、易跑偏的核心缺陷。文章围绕一套技能套件展开:grill-me 通过穷举式提问确保与模型达成共识后再动手;to-prd 将讨论转化为产品需求文档;to-issues 将 PRD 拆解为可独立执行的垂直切片任务;tdd 强制模型遵循红-绿-重构循环,显著提升输出代码质量;improve-codebase-architecture 则定期审视代码库结构,识别“浅模块”并给出深化建议。作者强调技能不必冗长,选对措辞和时机即可带来质变。适合使用 Claude Code 等 Agent 化工具的开发者阅读,尤其是正在为 Agent 输出质量不稳定的团队。

x.com · 13 min
12

做了些爆款 Skills 后,我对 Skills 的看法What I Learned About Agent Skills from Building Popular Ones

作者基于自己开发的 PPT、社交媒体卡片、Logo 生成器、AI Desk Card 等爆款 Skill,提出 Agent 并非抹平能力差距,而是放大差距。Skill 是封装专家经验、工作流、品味和工具调用的可复用能力单元,能弥合使用差距。文章深入讨论了 Skill 的核心——把人的经验外化,设计 Skill 是把品味变成可执行的约束;架构上应遵循“中心短、辐射厚”,SKILL.md 只放高信号流程,重文档按需读取;质量需像代码一样维护,gotchas 来自真实失败最有价值;生态不应是仓库列表,每个 Skill 应像软件功能页展示结果和场景;分发策略是 GitHub 打基础,内容平台做传播,形成“文章、产品、案例互相喂养”的复利飞轮。最后给出完整生命周期:从真实需求出发,经过高质量产物、抽象流程、工程化模板、跨模型测试、发布分发到反馈迭代。本文适合 AI Agent 开发者、产品经理和内容创作者,提供了大量具体案例和可操作的设计原则。

claude.com · 11 min
13

Claude Code 配置深度指南:规则、技能、子代理与钩子全解析Steering Claude Code: CLAUDE.md, skills, hooks, rules, subagents and more

本文是 Claude Code 官方发布的配置机制深度指南,系统梳理了 CLAUDE.md、规则(Rules,支持路径作用域)、技能(Skills,动态加载)、子代理(Subagents,隔离上下文)、钩子(Hooks,确定性触发)、输出样式(Output Styles)以及追加系统提示(append-system-prompt)七种指令注入方式。文章详细解释了每种机制的加载时机、上下文成本、适用范围和典型场景,尤其强调路径作用域规则避免 Token 浪费、子代理的完全隔离适合副作用任务、钩子的低上下文成本适合强制性校验。结尾给出实用建议:频繁出现的确定性行为应使用钩子而非 CLAUDE.md,长时间流程应放入技能中,绝对禁止的行为需使用钩子或托管策略而非指令。适合所有 Claude Code 用户,尤其是需要深度定制开发工作流的工程团队。

justinyan.me · 3 min
14

从Superpowers转向mattpocock/skills:更省token、更可控的Agent工程实践Switching from Superpowers to mattpocock/skills: Less Token Waste, More Control

作者分享了从Superpowers切换至mattpocock/skills的实际体验与对比。Superpowers通过hooks强制规范流程,适合新手但易将简单问题复杂化且消耗大量token。mattpocock/skills的设计理念更贴近“真实工程师”,将决策权交还给用户,通过/grill-with-docs、/to-prd、/to-issues、/implement等明确步骤实现高效迭代。核心优势包括:token消耗更低、具备/tdd和/diagnosing-bugs等debug skill、支持/handoff跨模型交接、以及/improve-codebase-architecture用于重构。作者还提到与Fable 5、Codex 5.5等模型配合使用,并将PRD和issues存储在GitHub以便追溯。文章适合关注Agent工程、AI编程效率及工具选型的工程师。

章节 04

Agent 的双手:浏览器操控与设计自动化的务实之道

3 / 24
github.com · 64 min
15

AI 智能体浏览器自动化 CLIBrowser Automation CLI for AI Agents

agent-browser 是一个基于 Rust 原生的命令行工具,专为 AI 智能体(如 Claude Code、Cursor 等)提供浏览器自动化能力。它采用客户端-守护进程架构,核心是一个纯 Rust 的守护进程,通过 Chrome DevTools Protocol (CDP) 直接操控浏览器,无需 Node.js 环境。项目提供了丰富的命令集,包括导航、元素交互(支持 ref、CSS、XPath 选择器)、快照、截图、网络请求拦截、会话管理、认证状态持久化等。特别设计了安全机制(域名白名单、操作策略、加密状态存储)和对 AI 工作流的优化(可获取无障碍树快照、带编号标注的截图、MCP 服务器支持),使得 LLM 能可靠地通过命令行控制浏览器执行复杂网页任务。适合开发 AI Agent、自动化测试、网页数据抓取及需要让大模型操控网页的工程师。

github.com · 7 min
16

让 LLM 直接操控真实浏览器的自适应 CDP 工具Self-Healing Browser Harness That Lets LLMs Drive Any Real Browser

Browser Harness 是一个薄层自愈浏览器操控工具,让 LLM(如 Claude Code、Codex)通过 CDP 协议直接连接真实 Chrome 浏览器,完成任意网页任务。核心设计是“代理在运行中编写缺失的辅助代码”,即当代理遇到文件上传、跨域 iframe、滚动等场景时,自动生成可复用的 helper 函数并存储至 agent-workspace,下次同类操作无需重新探索。整个项目仅约 1000 行核心代码,无中间层,通过纯 WebSocket 直连浏览器 CDP 端点,赋予 LLM 完全的浏览器操控自由。适合需要让 AI 代理做真实网页操作(如数据抓取、自动化填写、复杂交互)的开发者。

github.com · 35 min
17

开源本地优先的设计工作台,兼容 22 种编程代理与 150+ 设计系统Local-first, agentic design workspace with 22 CLI agents and 150+ brand systems

Open Design 是一款本地优先、开源的代理原生设计工作台,志在成为 Anthropic Claude Design 的开源替代。它不内置代理,而是与本地已有的编程代理(Claude Code、Codex、Cursor、Copilot 等 22 种 CLI)协作,利用 MCP 协议让它们读取设计系统、技能和插件,直接在终端生成原型、仪表盘、演示文稿、图像/视频等制品。支持 BYOK(自带密钥)兼容任意 OpenAI 端点,提供 macOS/Windows 原生桌面应用。内置 100+ 技能、150+ 品牌级 DESIGN.md 系统、261 款插件,适合追求品牌一致性与开发流程可控的设计师与前端工程师。

章节 05

多模型协作:在服务层超越单一前沿模型

4 / 24
vllm.ai · 14 min
18

微代理:在模型API层内协作,超越前沿模型Micro-Agent: Beat Frontier Models with Collaboration inside Model API

vLLM Semantic Router 提出了一个不同寻常的视角:路由器不只是请求分发器,更是模型能力的放大器。其核心思想是将多个模型的协作封装在同一个模型 API 调用内,用户看到的仍然是一个普通模型端点(vllm-sr/auto),但背后路由器可以根据任务自动选择协作模式——从成本感知的串行升级(Confidence)、并行聚合(Ratings),到多轮推理合成(ReMoM)、分歧发现(Fusion),乃至带资源预算的微代理工作流(Workflows)。这些模式都是可控、可配、可观测的运行时,而非应用层胶水代码。评测显示,在 LiveCodeBench、GPQA-Diamond、Humanity's Last Exam 三个硬基准上,这套闭源模型协作方案(VSR Closed)分别达到 92.6%、96.0%、50.0%,持平或超过了 Fugu Ultra、GPT-5.5 等单一前沿模型。这篇博文的价值在于,它首次把“多模型协作”从产品端或应用端下沉到了 serving 基础设施层,并且坚持以一个模型身份暴露,极大降低了接入成本。适合正在构建推理路由、多模型策略或成本优化方案的工程师阅读。

x.com · 9 min
19

Claude Opus 4.8 配置指南:投入产出比的精确控制The Claude Opus 4.8 Setup Guide: How to Get Maximum Quality for Minimum Cost (Exact Config Inside)

作者在 Claude Opus 4.8 发布次日撰写了这份配置指南,重点不在模型本身的基准提升(SWE-bench 从 87.6% 到 88.6%),而是伴随发布的三项操作特性:Effort Control 允许按任务设置思考深度(Low/Medium/High/Max/Ultracode),Fast Mode 以原先 1/3 的价格提供 2.5 倍速度,Dynamic Workflows 支持单次会话并行调用最多 1000 个子 agent。文章给出了一个完整的成本优化矩阵,按任务类型将请求路由到 Haiku、Sonnet、Opus 及不同 effort 等级,宣称可将重度用户的月成本从 $400-600 降至约 $205。文末提供了可直接复制使用的环境变量和 settings.json 配置,内容偏向实用操作手册,适合已在使用 Claude Code 并希望控制成本的开发者。

magazine.sebastianraschka.com · 45 min
20

手把手搭建本地编程智能体:Qwen3.6、Codex与Claude Code的实践指南Practical Guide to Setting Up a Local Coding Agent Stack with Open-Weight Models

本文提供从零搭建全本地编程智能体的详细教程。作者 Sebastian Raschka 以 Qwen3.6 35B-A3B 模型和 Qwen-Code 框架为主线,覆盖模型下载(Ollama)、推理速度与内存基准测试、自定义任务评估、安全审计要点等环节。文章还对比了同一模型在 Qwen-Code、Codex(开源)和 Claude Code 三种 harness 下的任务完成率与 token 消耗,发现 Codex 在同等成功率下 token 用量仅为 Claude Code 的一半。最后介绍了通过 SSH 隧道将模型部署在独立机器(如 DGX Spark)供主力机使用的方法。适合具备一定命令行经验、自建办公机或拥有独立 GPU/ARM 算力的系统/数据工程师阅读。

claude.com · 16 min
21

人类与AI智能体组队协作的四个关键原则Building effective human-agent teams

Anthropic 基于内部数月实践,分享了构建人类与AI智能体混合团队的四条经验。作者指出,传统“单玩家”模式——一人一AI完成独立任务——正在被“多玩家”模式取代:具有独立凭证、持久记忆和广泛信息访问权限的智能体,可以像正式成员一样加入 Slack 频道、参与项目讨论、主动推进工作。文章的核心在于,优秀的人机协作不是技术问题,而是组织合作规范的重塑——公开工作流让智能体获得上下文、为每个成员(人类和智能体)定义明确的角色与工具、设定“北极星”目标激发智能体主动提议、通过逐步扩大自主权建立信任。文章还列出了团队启动前应自我审视的关键问题。适合正在尝试将AI智能体嵌入团队工作流的工程师和管理者阅读。

章节 06

元思维:研究、选择与成长的超线性路径

3 / 24
x.com · 10 min
22

研究者的可训练技能栈:从挑选问题到刻意犯错how to be good at research

本文由 @itsreallyvivek 撰写,提出研究能力并非天赋,而是一套可被刻意训练的次级技能栈。核心论点包括:挑选自己真正关心的问题以制造原创性,升级信息源(读旧材料、跨领域、读原文而非线程摘要)以打破共识,将想法写下来以暴露认知漏洞,通过脚本化工具和低代价实验收紧反馈循环,直接盯着失败案例而非只看损失曲线,有目的地游走多个子领域以找到个人独特性优势,并找到能告诉你想法很糟糕的同伴。文章大量引用 Hamming、Schulman、Feynman、Darwin、Karpathy、Andrew Ng 等人的具体方法论,强调可操作的实践(如预测实验结果、过拟合单个 batch、手动分析百个失败案例),而非抽象建议。适合希望从表面模仿转向实质生产力的研究工程师和博士生,尤其适用于机器学习与系统工程交叉领域的一线实践者。

www.paulgraham.com · 25 min
23

超线性回报:理解世界的真正驱动力Superlinear Returns

Paul Graham 在这篇文章中深入探讨了“超线性回报”这一核心概念:为什么在现实世界中,表现得更好一点,回报却会好得多。他认为,教师和教练常说的“一分耕耘,一分收获”是误导——在商业、科学、政治、艺术等领域,回报是非线性的。文章将超线性回报的根源归结为两种机制:指数增长(如知识、创业公司、细菌培养)和阈值效应(如体育比赛、科学发现)。P G 指出,技术在进步、组织重要性在下降,使得越来越多人有机会独立追求超线性回报。他给出了实用的行动指南:做自己真正感兴趣的工作、不断学习、敢于冒险、做“难事”而非“可做的事”,并特别强调了好奇心比野心更能引领你进入新领域。文章结合 YC 的创业经验、科学史上的案例(牛顿、达尔文)以及艺术家的自由,论证了一种世界观:越是能独立、冒险、深入学习的人,越能撬动巨大的回报。适合所有追求卓越的工程师、创业者、科学家和创造者阅读。

www.paulgraham.com · 1 min
24

编程语言都在解决什么问题?What Languages Fix

Paul Graham 通过 Kevin Kelleher 提出的视角,以“修复的问题”来描述每种编程语言的设计初衷,揭示了语言演化的历史脉络。从 Algol 到 Ruby,每个语言都是针对前代缺陷或特定需求的回应。这种简洁的对比不仅幽默,也为工程师理解语言选择提供了独特视角。适合对编程语言历史与设计感兴趣的读者。