Glean 拾遗
← 所有期号
#003 最新 6/8–6/14 6 月 14 日发布

代理系统的复利:从单次对话到自我进化的工程跨越

本周的技术信号高度聚集:AI 代理正走过“能对话”的青春期,迈向需要工程系统支撑的成人礼。成熟的标准不再是输出质量,而是代理能否在长周期任务中自我校正、积累记忆、并让人类从执行者进阶为架构师。本期的线索层层递进——从模型能力的跃迁(Fable 5),到编码智能体编排的认知瓶颈(编排税),再到伴随记忆与循环设计而生的工程方法(AGENTS.md 写作十诫、动态工作流、跨会话记忆)。最终,我们观察到一套“复利”法则正在浮现:真正的效率并非来自启动更多代理,而是让上一次运行的失败、经验与规则,成为下一次训练的起点。这也是从“提示词驱动”迈向“系统设计驱动”的分水岭。

22 篇 5 章 约 6 小时
章节 01

模型跃迁:从神话级的算力到可驾驭的工具

5 / 22
www.anthropic.com · 26 min
01

Anthropic 发布 Mythos 级模型 Claude Fable 5:能力最强,但带着更多安全限制Claude Fable 5 and Claude Mythos 5

Anthropic 发布了一款能力超越所有前代公开模型的 Claude Fable 5,并将其定级为“Mythos 级”。Fable 5 在几乎所有基准测试中表现领先,尤其在长周期、复杂任务上优势明显,覆盖软件工程、知识工作、视觉、科研等领域。为应对 Mythos 级模型在网络安全和生物学领域的严重滥用风险,Anthropic 内置了保守的安全分类器,会将敏感请求(如网络攻击相关)转交给 Opus 4.8,触发率约 5%。同时,他们为特定用户群发布了解除限制的 Claude Mythos 5,用于网络防御和生物医学研究,并推出了新的 30 天业务数据留存政策。文章展示了 Stripe 在 5000 万行 Ruby 代码库中一天完成两个月工作的案例、Slay the Spire 和 Pokémon 测试中的自主性能提升,以及蛋白质设计和分子生物学假设生成方面的突破。定价为每百万输入 token 10 美元,输出 50 美元。适合关注前沿 AI 能力、安全实践和工程应用的开发者与研究人员。

x.com · 12 min
02

用奖励函数替代标注数据:GRPO 将 Qwen3-8B 的 JSON 结构输出有效性从 62% 提升至 82%Training an LLM to Generate Reliable Structured Output Using GRPO and a Reward Function

本文是一线实操记录,作者将 DeepSeek-R1 采用的 GRPO(群体相对策略优化)方法用于一个具体任务:训练 Qwen3-8B 从发票文本中提取结构化的 JSON 字段。传统 SFT(监督微调)通过模仿范例来训练,其在 token 级别的损失函数无法有效惩罚格式错误,导致模型在结构合规性上很快触及天花板。作者的核心论点是,只要能用代码定义“正确性”(例如 JSON 能否解析且符合 schema),就可以用一个 Python 奖励函数替代标注数据,驱动模型自我对抗学习。实操中,奖励函数对不合法 JSON 给 0 分,对合法但不符合 schema 的给 0.5 分,对完全合规的给 1 分,这一中间分值提供了关键的学习梯度。训练在 Fireworks 平台的 H200 上运行,最终在 50 个模型未见过的评估样本上,schema 合规率从基线的 62% 提升至 82%,超越了 GPT-4.1 的 58%,且推理成本和延迟更低。文章适用于需要模型可靠生成结构化输出(如 SQL、API 响应、工具调用)的工程师,提供了完整的奖励函数、数据集和训练配置代码。

x.com · 5 min
03

Claude API 新增自动缓存:用 cache_control 参数一行切到 1/10 成本Claude API adds auto-caching: single cache_control param cuts input cost to 10%

Anthropic 为 Claude 消息 API 增加了 prompt auto-caching 功能。此前缓存需要手动在不同对话轮次移动断点,现在只需在请求顶层加一个 cache_control: {type: 'ephemeral'},断点会自动跟随对话末尾的可缓存块移动。命中缓存的 token 成本仅为基准价格的 10%,同时减少 prefill 延迟。适用:所有对话轮次中重复携带大量上下文的应用,如 AI Agent、代码助手等长运行、高 token 消耗场景。文中还引用了 Manus 创始人 @peakji 将缓存命中率视为生产 Agent 最关键指标的观点,以及 Claude Code 在缓存友好型 prompt 设计上的实践。

x.com · 7 min
04

Headless Tools:让智能体直接在浏览器和桌面应用里执行动作The Missing Link Between Agents and Applications

这篇文章提出了一种名为 Headless Tools 的新机制,解决了智能体(Agent)无法直接操控用户端运行环境的问题。 作者指出,当前大多数 Agent 工具运行在服务端,可以调用 API,但无法访问浏览器、应用状态或设备能力(如剪贴板、定位、本地存储)。Headless Tools 将客户端能力(如 navigator.geolocation、IndexedDB、应用内导航)封装为模型可以调用的标准工具,模型感知不到工具实际执行的位置,服务端和客户端负责协调,使 Agent 能直接作用于用户所在的浏览器或桌面应用。文章提供了 TypeScript 代码示例,并展示了在 Slidev 演示框架和浏览器本地记忆中的具体应用。这一设计同时带来了隐私优势,因为敏感数据可以默认留在本地,无需发送到后端。本文适合需要构建深度集成前端应用的 Agent 系统的工程师阅读,特别是那些在 Figma 插件、富文本编辑器或桌面工具中嵌入 AI 能力的团队。

x.com · 28 min
05

用14个步骤在Fable 5上构建自我进化的智能体系统Build a Self-Improving Agent System with Claude Fable 5 in 14 Steps

本文是一份基于Anthropic工程团队公开文档和实验构建的Fable 5实操指南。作者指出,绝大多数用户仅将Fable 5当作上下文窗口更大的Sonnet 4.6使用,未能发挥其“神话级”模型的设计潜力。文章详细阐述了一套让系统输出随时间复合增长的架构,包含四大层次:基础原语(模型、子智能体、工作树)、编排(/goal与Outcomes自纠正循环、动态工作流、云端例程)、记忆(状态文件、可进化的技能),以及自我改进(视觉自检、评估循环、规则蒸馏)。核心方法论包括用独立的验证智能体替代自我批判、通过Git工作树确保并行安全性、通过例程在关闭笔记本电脑后仍能运行数天的任务、以及一套从记录故障到蒸馏通用规则的五阶段记忆进阶模型。文章为愿意将Fable 5从五分钟的聊天工具转变为一个可自我增强的系统架构师提供了具体、可操作的模式和配置示例。

章节 02

认知超载与人为瓶颈:重拾工程学科的第一性原理

5 / 22
x.com · 9 min
06

AI 代理的编排税:为什么开 20 个 agent 不等于 20 倍产出The Orchestration Tax: Why 20 AI Agents Don't Mean 20x Output

Addy Osmani 提出「编排税」概念:启动 AI 代理很便宜,但验证、合并、做判断的环节是串行的——你的认知带宽无法并行化。他用 Amdahl 定律和 Python GIL 做类比:你就是系统中的单线程瓶颈,代理再多也只能排队等待你的判断。文章给出了具体应对策略:按 review rate 限制并行数、把任务分成「可异步委托」和「复杂判断」两类、批量做代码审查、让代理自证而非靠你验证。适合已经在日常使用 AI 代理、感到「忙但不出活」的一线工程师。

x.com · 24 min
07

AGENTS.md 写作十诫:让 AI 编码代理真正听懂你的项目10 Lessons for Writing a Good AGENTS.md for Codex and Claude Code

作者从同时使用 Codex 与 Claude Code 的实战中提炼 10 条教训:根文件控制在 200 行以内、写出禁止引入的技术栈比列出使用的更重要、规则必须能被工具直接校验而不是口号式的“保持简洁”、AGENTS.md 应作为路由器而非文档仓库、长任务借 PLANS.md 拆解后可在隔离 worktree 中运行、高风险目录加本地 AGENTS.md 加护栏、意图层 / 拦截层 / 权限层 / 隔离层分层执行而非只靠文件约定、长期记忆放进可审计的 MEMORY.md 且设置 30 天最低留存门槛、将个人风格 / 团队约定 / 机器权限三层拆分开、最后让 AGENTS.md 作为唯一真理源并让 CLAUDE.md 单行导入。全文含大量可直接粘贴的配置片段和对应陷阱,适合常借助编码代理完成复杂任务、并希望降低“代理跑偏”概率的资深工程师。

github.com · 14 min
08

给工程师的 AI 编码工作流:一组可组合的 Agent SkillsComposable Agent Skills for Real Engineering Workflows

Matt Pocock 从自身 .claude 目录公开分享了用于 Claude Code、Codex 等编码智能体的技能集。这些技能并非“写代码”,而是针对 AI 辅助开发中的四大典型失败模式(需求对齐错误、上下文冗长、代码不可用、架构熵增)给出工程化对策。核心包括:通过盘问式对话对齐需求的 /grill-me 与 /grill-with-docs;通过红-绿-重构循环保证代码质量的 /tdd;以及维护领域语言与架构的 /improve-codebase-architecture。项目强调“小、可适配、可组合”,适用于任何模型。适合希望将 AI 编码工具纳入严谨工程实践的一线开发者。

x.com · 28 min
09

我的 Agentic 工程实战技巧(2026年6月版)Every Agentic Engineering Hack I Know (June 2026)

作者分享了在 Claude Code 与 Codex 上进行 Agentic 工程的 22 条实战技巧。核心是“先规划后执行”:用 /ce-plan 生成 plan.md 约束 AI,人只需略读或提问,而非阅读全文。具体包括:以语音(Monologue/Wispr Flow)替代键盘输入,利用 LLM 理解不完美转录;在 cmux 中同时打开 4-6 个标签页,各自运行独立 Agent 任务;设终端默认启动为 Claude Code,跳过所有权限提示并以声音提醒任务完成;通过 AgentMail 为 Claude 配置邮箱,实现远程邮件触发新会话;用 last30days 在规划前并行搜索社区、视频和新闻,获取实时信息;将重复操作封装为可复用 Skill,持续扩展 Agent 能力。此外,他强调人类在循环中的核心价值是提供品味与方向,而非亲自编码,并警示 AI 开发成瘾的风险。全文包含大量可复制的配置片段与具体工具,适合重度使用 AI 辅助开发的工程师。

x.com · 16 min
10

Claude Projects 深度指南:25 个被低估的特性、工作流与技巧25 Claude Features, Workflows, and Tricks That Most Users Don't Know

本文由 @eng_khairallah1 撰写,系统梳理了 Claude Projects 从基础配置到高级策略的 25 个实战技巧。核心观点在于,Projects 不应被当作一次性对话工具,而是需要通过结构化指令模板、分类知识库上传和持续校准,将其打造成一个随时间不断进化的持久化工作区。文中提供了具体可操作的模板,如 'ROLE/CONTEXT/RULES/OUTPUT' 指令框架、'竞争力情报中心' 和 '客户专属项目' 的设置方法,并强调了通过 '反馈日志' 和 '季度刷新' 实现指令的复利优化。本文适合希望摆脱重复向 Claude 解释背景、寻求更高效和个性化 AI 协作方式的深度用户阅读。

章节 03

循环、记忆与验证:构筑代理的复利飞轮

6 / 22
x.com · 18 min
11

设计一个自行驱动 Agent 的多步任务循环How to Design a Loop That Prompts Your Agent

本文提出了一个让 AI Agent 自主完成多步任务的循环架构,核心在于用代码构建一个自动化的提示生成系统,而非手动编写单个提示。文章详细拆解了该循环的五个组成部分:定义验收标准(done check)、从状态构建上下文而非每次手写指令、执行操作并捕获所有输出、将失败结果作为反馈闭合到下一轮提示中,以及设置硬性停止条件(最大轮次、成本上限)。作者通过一个修复登录Bug的实例展示了循环如何运行,并指出实际开销来自多轮调用,而非单次代码生成,因此止损条件至关重要。此外,将反复出现的操作封装为可复用技能是提升长期价值的关键,而初学者常犯的错误包括缺乏退出条件、手动干预提示和丢弃失败输出。适合希望从单次提示工程转向构建Agent控制流的开发者阅读。

x.com · 14 min
12

循环工程:让代码智能体在后台自主运行,而你设计的是循环本身Loop Engineering: Designing the System That Prompts Your Coding Agents

本文来自 Addy Osmani 对编码智能体未来工作模式的深度观察。核心观点是,与编码智能体交互的方式正从直接的提示词工程转向循环工程:工程师不再亲自写每一步提示词,而是设计一个包含定时自动化、并行工作树、项目技能、连接器插件和子智能体检查者的闭环系统,让系统自己去发现任务、分配工作、验证结果。文章详细拆解了这五个构建块及其在 Claude Code 和 Codex 中的对应实现,并强调了循环运行中必须持续关注验证、理解债务和认知舒适区的陷阱。适合正在探索如何将 AI 编码工具从一次性助手升级为持续后台工作者的资深工程师,尤其是那些关心代码质量、认知负担和成本控制的团队。

x.com · 17 min
13

Claude Code 动态工作流实战:6 种模式与 14 步完整指南How to Master Dynamic Workflows in Claude Code: 6 Patterns and 14 Steps

本文系统梳理了 Claude Code 于 2026 年 5 月底发布的 Dynamic Workflows 功能。不同于手动串联 prompts 或编写死板的静态 harness,动态工作流让 Claude 为特定任务即时生成定制的 JavaScript 控制程序。文章从底层思维模型切入,解释了工作流如何从结构上解决单一上下文窗口面临的三类失效:智能体惰性(提前终止)、自我偏好偏差(无法客观验证自身输出)及目标漂移(长对话后丢失约束)。随后逐一拆解 6 种核心模式:分类后路由(classify-and-act)、扇出后综合(fan-out-and-synthesize)、对抗性验证(adversarial verification)、生成后筛选(generate-and-filter)、竞标赛排序(tournament)以及循环至完成(loop until done),并提供了实际的代码骨架。最后,文章展示了如何组合这些模式来解决迁移重构、深度研究、大规模分诊、代码评审等真实场景的问题,同时强调了使用 /goal、/loop 及 token 预算控制成本、用隔离模式防范来自不可信输入的提示注入风险、以及将成功的工作流保存并打包为 Skill 分发的实操技巧。适合已在使用 Claude Code 并希望突破单 agent 限制,处理长周期、高并行或需要严格校验的复杂任务的工程师阅读。

x.com · 5 min
14

Claude Fable 5 实战:用自校正循环和跨会话记忆打磨代理任务Designing loops with Fable 5: self-correction and memory in agentic workflows

作者分享了使用 Anthropic 的 Claude Fable 5 模型提升代理工作效能的两个实战方向:自校正循环和跨会话记忆。在自校正循环实验中,作者用 Parameter Golf——一个要求在 16MB 模型体积、8xH100 GPU 上 10 分钟内训练最佳模型的公开挑战——比较了 Fable 5 与 Opus 4.7 的表现。通过 Claude Managed Agents 提供的 Outcomes 原语,由独立验证子代理根据九项可检查标准评分,Fable 5 对训练管线的改进幅度约为 Opus 4.7 的 6 倍。Fable 5 更倾向于做结构性改动,并在遇到量化性能回退时展现出韧性,而 Opus 4.7 则停留在调整标量超参数的模板上。在记忆实验中,作者使用 Continual Learning Bench 1.0 中的 SQL 问答任务,对比了 Fable 5、Opus 4.7 和 Sonnet 4.6 利用文件系统跨会话记忆的能力。Sonnet 4.6 仅记录失败和未验证猜测,Opus 4.7 能创建带不确定性标记的 schema 参考但验证覆盖率中位数仅 17%;Fable 5 最强运行中验证覆盖率达 73% 并将学习提炼为通用规则。文章适合关注代理架构设计和模型能力边界的工程师阅读。

x.com · 21 min
15

2026 年如何构建真正可用的 AI Agent:从认知模型到代码实操How To Build AI Agents in 2026 (That Actually Work)

本文系统地拆解了构建实用 AI Agent 的核心架构与工程实践。作者首先厘清了聊天机器人、AI Agent 与 Agentic AI 的边界,指出真正 Agent 的本质是持续执行直到目标达成的循环系统,而非一次性问答。文章深入阐述了 Agent 运行的 ReAct 循环(思考-行动-观察-反思),并分解出 Agent 的五大基石:LLM 大脑、工具(手)、记忆(短期与长期)、自校正回路及验证环节。作者以“构建一个挖掘健身领域痛点创业想法的研究 Agent”为例,展示了从设定目标、赋予工具、引入循环、构建记忆到增加批评 Agent 的完整构建步骤,并附带了可直接使用的 5 种 Agent 系统提示。文章还总结了导致 Agent 失败的 6 个核心原因(如缺乏记忆、无停止条件等),并推荐了 Claude Code、LangGraph、MCP 等当前技术栈。适合希望从 Prompt 工程转向 Agent 系统工程的一线开发者阅读,提供从 50 行 Python 代码起步的周末实践路线图。

github.com · 19 min
16

面向投资银行、研究、私募等金融场景的 Claude 智能体与技能集Claude Agents & Skills for Investment Banking, Research, PE, and Wealth Management

Anthropic 官方发布的金融领域 Claude 智能体参考实现,提供 9 个覆盖投行、研究、私募、财富管理等核心场景的端到端工作流代理,以及 8 个垂直技能包和 12+ MCP 数据连接器。所有内容均为 Markdown/YAML 配置,可一键安装为 Claude Cowork 插件或通过 Managed Agents API 部署到自有工作流引擎。适合需要快速构建金融 AI 应用、但又希望保留定制空间的技术团队。

章节 04

代理的落地:从个人提效到团队流程的重塑

5 / 22
claude.com · 9 min
17

Anthropic 销售用 Claude Code 从零编程构建内部工具套件How an Anthropic seller rebuilt his team's workflows with Claude Code

本文记录 Anhtropic 前客户经理 Jared Sires 利用 Claude Code 从零编程经验起步,构建 GTM 团队内部工具的过程。他开发的 CLAFTS 应用内嵌于 Gmail,能根据最新产品文档和用户写作风格草拟邮件回复,每周节省 10-15 小时。在此基础上,他进一步构建了每日简报、每日复盘及销售插件,通过 MCP 服务器连接 Salesforce、Gong 等系统,自动化客户背景调研和后续跟进。目前约 80% 的 Anhtropic 销售团队使用该插件。文章展示了无技术背景的业务人员如何通过 AI 编程工具消除技术壁垒,直接设计并交付解决实际工作流程问题的软件方案,适合关注 AI 编程工具赋能非技术角色及销售自动化实践的读者。

github.com · 29 min
18

产品经理的 AI 技能市场:100+ 结构化工作流,从发现到增长AI Skills Marketplace for Product Managers: 100+ Structured Workflows from Discovery to Growth

pm-skills 是一个面向产品经理的 AI 技能市场,包含了 100 多个经过编码的 PM 技能和 42 个链式工作流。它解决了通用 AI 只生成文本、缺乏产品实践风格问题,将 Teresa Torres、Marty Cagan 等大师的产品方法论封装成可执行的、分步骤的 AI 指令。项目以 9 个可独立安装的插件形式,覆盖产品发现、策略、执行、GTM 和分析等全周期,通过 `/discover`、`/write-prd` 等命令行工具触发。适合希望将 AI 深度嵌入产品决策流程,而不仅仅是用来生成文档的产品经理和创始人。

github.com · 27 min
19

AI 代理技能:跨平台社交搜索与 30 天舆情简报AI Agent Skill: Cross-Platform Social Search and 30-Day Synthesis

/last30days 是一个 AI 代理技能,能将 Reddit、X、YouTube、TikTok、Hacker News 等多个社交平台的最新内容聚合为一份 30 天内的舆情简报。它通过实体预解析(pre-research)智能识别关键人物、社区和话题,并行搜索并依据真实用户的点赞、转发和投入(而非 SEO 排名)进行评分排序,最终由 AI 合成有引用的深度摘要。项目以 MIT 开源,支持 Claude Code 等 50+ 代理框架,适合需要在会前快速了解某人或某话题最新动态的工程师、产品经理和研究者。

x.com · 17 min
20

AI Agent 实战:从理论光谱到零代码构建 Telegram 机器人AI Agents: What They Are and How to Build a Telegram Bot with Claude Code

本文解析了 AI agent 的真正定义——它不是一种类别,而是一个从简单问答到自主任务执行的光谱。作者详细对比了普通聊天与 agent 的关键差异:工具、记忆和循环。随后提供了一份无需编程的实战指南:使用 Claude Code 构建一个运行在 VPS 上的 Telegram 机器人,包含完整的系统提示词模板、systemd 部署、持久化记忆、成本追踪等实用技能,并针对 agent 常见的上下文丢失问题给出了具体的解决策略。适合想亲手搭建 agent 的工程师和 AI 爱好者。

github.com · 9 min
21

Maple:基于 OpenTelemetry + ClickHouse 的开源可观测性平台Maple: An Open-Source Observability Platform Built on OpenTelemetry and ClickHouse

Maple 是一个开源可观测性平台,提供 traces、logs、metrics 的采集、存储与可视化能力。它采用 OpenTelemetry 标准与 ClickHouse 存储,采用 Effect 驱动的后端 API 和 TanStack SPA 前端。项目以 monorepo 形式组织,包含 OTLP 数据摄取网关、告警引擎、仪表板持久化等组件,支持 Clerk 或自托管认证,适合希望自建可观测性栈且偏好 TypeScript 工程体系的团队。

章节 05

其他

1 / 22
x.com · 5 min
22

如何为 Claude Fable 5 设计循环:自校正与跨会话记忆Designing loops with Fable 5: self-correction and cross-session memory

R. Lance Martin 分享了针对 Anthropic 最新模型 Fable 5 的两类循环设计实验:自校正和工作记忆。在自校正环节,他用 Parameter Golf 挑战(训练一个能塞进 16MB、在 8xH100 上 10 分钟内跑完的模型)对比了 Fable 5 和 Opus 4.7。在 Claude Managed Agents (CMA) 环境下,Fable 5 通过 Outcomes 生成的 grading 子 agent 做独立验证,训练流水线的改进幅度是 Opus 4.7 的约 6 倍,且更敢于做结构性变更而非只调标量参数。在工作记忆实验中,基于 Continual Learning Bench 1.0 的任务,Fable 5 在连续 SQL 问答中展现出一条从记录失败、调查原因、交叉验证到抽象为通用规则的完整记忆链,验证覆盖率达到 73%,显著超过 Opus 4.7 和 Sonnet 4.6。文章适合正在为强模型设计 agent 循环的工程师阅读,核心主张是提供环境和反馈让模型自行爬坡,比直接提示更有效。