标签 · AI Engineering — Glean

66 条 · 按时间

07-27

Anthropic 用 Claude Code 实战百万行代码迁移：6 步流程与关键教训

Anthropic 工程师使用 Claude Code（Fable 5 和 Opus 4.8）在两周内将 Bun 从 Zig 迁移到 Rust，产出百万行代码，测试通过率 100%；另一名工程师周末将 Python 代码库转换为 16.5 万行 TypeScript。本文总结了六步迁移流程：创建规则手册与依赖映射→压力测试规则→并行翻译→编译→运行→行为匹配。核心思路是不直接修复代码，而是修复产生代码的循环。文章还讨论了何时值得迁移、AI 改变迁移经济学的四个原因（并行性、上下文明确、内置裁判、队列自生成），以及多个最佳实践（如使用小模型做实现、大模型做审查）。文中给出了具体 token 消耗和成本数据（Bun 迁移消耗约 59 亿输入 token 和 6.9 亿输出 token，约 16.5 万美元）。

x.com · 15 min · Agent Architecture · AI Engineering · Anthropic

07-27

个人 AI 基础设施构建指南

本文基于 Daniel Miessler 的 Personal AI Infrastructure (PAI) 框架，系统介绍了如何构建以用户为中心的个人 AI 数字助理。核心观点是：不要从工具开始，从自己开始。框架包含 TELOS 身份系统（10 个 Markdown 文件定义使命、目标、信念等）、三层记忆架构（热/温/冷记忆）、决策优先级链（目标 → 代码 → CLI → Prompt → Agent）、用户/系统分离目录设计以及事件钩子系统。文章强调架构比模型更重要，一个好的上下文管理系统搭配普通模型效果优于无上下文的顶级模型。适合希望搭建个性化、持续学习 AI 助理的工程师和知识工作者。

x.com · 5 min · Agent Architecture · AI Engineering · Context Engineering

07-26

LLM护套工程为何如此困难——从测试到迭代的真实痛点

本文基于作者五个月的实战经验（104次提交），深入剖析将LLM演示转化为可靠产品时遭遇的结构性困难。核心挑战包括：无法编写确定性测试（相同输入每次输出不同）、模型失败无声且呈渐变（99%正确中隐藏1%错误）、调试对象是自然语言段落而非代码（一个形容词可能成为bug）、添加规则反而陷入困境（prompt从20行膨胀到200行导致模型相互矛盾）、示例的引导力远强于指令、模型基础不稳定（供应商更新悄然改变行为）、反馈循环慢且昂贵以及护套工程工作不可见（外人以为只是写prompt）。文章强调护套工程（prompt、校验、eval、护栏）是真正的护城河，其难度源于概率系统的本质，无法工程化消除，只能构建能吸收这些不确定性的系统。适合LLM应用开发者、AI工程师及对AI工程痛点感兴趣的技术管理者阅读。

x.com · 16 min · AI Engineering · Developer Tools · LLM

07-26

Agent 架构三层次：Harness、Loop 与 Graph 工程区分

本文清晰区分了构建 AI Agent 时的三种核心工程层：Agent Harness（模型外围的代码、配置与运行时）、Loop（重复的工作-反馈循环）和 Graph（显式的工作流拓扑）。作者指出，Harness 负责提供工具、状态、安全和可观测性；Loop 负责设计迭代验证与停止条件；Graph 负责控制节点顺序、分支与并行。三者不是替代关系，而是协同工作。文章还给出了常见失败模式（如先画图后理解工作、无限制重试）和诊断表格，帮助工程师根据症状选择正确的优化层次。适合需要将 Agent 从演示推向生产的团队阅读。

x.com · 17 min · Agent Architecture · Agent Engineering · Agents

07-25

Claude Opus 5 发布：接近 Fable 5 性能，成本减半

Anthropic 发布 Claude Opus 5，性能接近最强模型 Fable 5 但价格减半。在编码（Frontier-Bench v0.1 超越所有模型，性能是 Opus 4.8 的两倍以上）和知识工作（ARC-AGI 3 得分是次优模型的 3 倍）上达到新 SOTA，但网络安全任务仍落后于 Mythos 5。模型支持 effortless 设置以平衡成本与智能，客户反馈在软件开发、金融、法律等领域表现显著提升。安全对齐更好，但故意未训练网络攻击能力，且安全拦截比 Fable 5 减少约 85%。定价与 Opus 4.8 相同，提供 Fast 模式。

www.anthropic.com · 20 min · AI Engineering · Anthropic · Cost Optimization

07-25

AI Agent 工程实践全覆盖：从原理到生产的开源书

《深入理解 AI Agent：设计原理与工程实践》是一本全面覆盖 AI Agent 技术的开源书籍，由李博杰撰写。围绕核心公式“Agent = LLM + 上下文 + 工具”，以 10 章从基础知识、上下文工程、用户记忆、工具使用、Coding Agent、评估、模型后训练、持续进化、多模态到多 Agent 协作，层层递进。书中包含 92 个配套实验（70+ 可独立运行），覆盖 MCP、RAG、强化学习等前沿实践。适合对 AI Agent 感兴趣的工程师、研究者以及希望构建生产级 Agent 系统的开发者。

github.com · 15 min · Agents · AI Engineering · Context Engineering

07-23

从单循环到图网络：AI Agent 改进架构的演进与陷阱

本文深入探讨了当前AI Agent领域从单循环（loop）向图结构（graph）转变的本质。作者指出，单循环优化存在四种典型失败模式：古德哈特效应（目标绑架）、向上盲视（不质疑目标合理性）、多循环冲突、以及测量退化。成熟的系统通过构建循环网络——包含冠军-挑战者循环、漂移监控、回滚机制和独立审计循环——来缓解这些问题。然而，图结构并非万能：若无锚定（anchors）和与现实世界的接触，它会沦为自我指涉的表演。文章强调，真正的进步不在于采用哪个模式，而在于保持改进机制与现实的连接，以及承认最终目标的设定需要人的判断。适合AI工程、MLOps和Agent设计者阅读。

x.com · 13 min · Agent Architecture · AI Engineering · Loop Engineering

07-22

AI 原生 Markdown 编辑器与 LLM 知识库

Open Knowledge 是一个开源的 AI 原生 Markdown 编辑器，同时也是一个由大语言模型驱动的知识库（LLM Wiki）。它将 Markdown/MDX 编辑、个人知识管理和 AI 代理能力深度融合，支持与 Claude、Codex 等智能体协作，帮助用户构建第二大脑。适合追求智能笔记、文档编写和知识检索的开发者与知识工作者。

github.com · 1 min · Agents · AI Engineering · Developer Tools

07-21

停止写提示词：用循环(loops)构建自主运行的AI智能体

prompt engineering 时代正在结束，顶尖AI工程师转而构建“循环（loops）”系统：Agent 自主规划、执行、验证结果，直到目标达成。文章以 Karpathy 的两天700次实验找到20个人工遗漏优化为例，详细拆解循环的五阶段（发现、规划、执行、验证、迭代）和三个核心组件（心跳、技能文件、验证器）。作者警告了两种无声失败模式：Ralph Wiggum 循环（过早退出）和理解债务（代码堆积无人理解）。给出实战建议：从最讨厌的重复任务开始，先确保手动可靠再上自动调度，用“每次接受的变更成本”而非 PR 数量衡量效果。适合正在构建 agent 工作流的工程师。

x.com · 9 min · Agents · AI Engineering · LLM

07-20

图工程替代 RAG：微软、斯坦福与 Anthropic 的实践与收益

传统 RAG 在处理多实体关联的复杂问题时效果有限，微软、斯坦福与 Anthropic 各自独立发现图工程（知识图谱）可显著提升 AI 系统准确性。微软 GraphRAG 将非结构化文本转为知识图谱，实现 18% 准确率提升、85% Token 成本降低；斯坦福 DSPy 和 STORM 将模型视为图中的一个节点，并证明小模型配合优质图谱可超越大模型；Anthropic 通过 Claude 结合 MCP 协议，在 LaunchNotes 案例中实现事故检测速度提升 5 倍、会议时间减少 50%。文章提供了完整的图工程流水线、五个核心 Prompt 模板以及五个落地商业场景，适合正在优化 RAG 系统或探索知识图谱与 LLM 结合的工程师。

x.com · 16 min · AI Engineering · GraphRAG · Knowledge Graph

07-19

LangChain 开源软件工程代理工厂

LangChain 团队开源了其内部使用的四个软件工程代理工具：本地编码代理 dcode、云端编码代理 OpenSWE、自动代码审查 OpenSWE Review 以及仓库知识文档 OpenWiki。文章详细介绍了每个工具的设计意图、使用场景和实际数据——OpenSWE 上周仅从 Slack 触发了近 1000 次，OpenSWE Review 在离线代码审查基准中以 47% 的成绩排名开源第一。所有工具基于 Deep Agents 框架，并利用 LangSmith 进行全链路追踪与优化。适合希望构建可控、可观测的软件工程代理流水线的工程师。

x.com · 7 min · Agents · AI Engineering · Code Review

07-19

对话杨植麟：AI创业的雪山法则与长上下文逻辑

2024年初，Moonshot AI创始人杨植麟接受专访，详细阐述了其对AGI的信仰、长上下文作为第一步的战略选择、对开源与闭源的看法、以及AI创业所需的组织形态。他认为真正的AGI公司必须结合科学、工程与商业，坚持B2C路线，用户规模增长与模型规模增长同步。文章包含对Sora、GPT-4追赶、中国AI公司与硅谷差距等实时判断，展现了年轻AI创业者的技术理想主义与现实平衡。

x.com · 60 min · AI Engineering · AI Industry · Context Engineering

07-18

跨模型记忆共享：用Unibase打通ChatGPT、Claude与Gemini

使用多个AI工具时，上下文在每个会话中丢失，导致每天浪费大量时间重新解释。Unibase Memory是一款Chrome扩展，它能捕获、存储并跨ChatGPT、Claude和Gemini注入记忆，实现真正的共享上下文。文章详细介绍了从安装到高级工作流（研究到写作、品牌语音持久化、跨工具构建）的五个步骤，并探讨了本地加密与可选去中心化同步的架构。对于使用多模型AI工作流的工程师和创作者，这是解决AI记忆碎片化的实用工具介绍。

x.com · 12 min · AI Engineering · Ai Tooling · Context Engineering

07-16

「短绳」编程法：人类把关，AI编码质量胜过Fable

本文总结了一年多来在安全关键系统中使用 AI 代理编码的研究成果。作者提出“短绳法”：只有资深开发者才能使用，全程禁止 YOLO 模式，开发者必须逐 diff 审查 AI 提议的每次改动，及时打断跑偏倾向，每个子任务结束后提交，从而杜绝“氛围编程”带来的代码鬼祟。文章还给出了 AI 辅助代码评审的最佳实践——人类与 AI 共同审查 PR，AI 负责快速扫描常见错误，人类把关方向性决策；并且要求作者在提交 AI 辅助 PR 前必须自我逐行审查并加上 AI 使用声明。该方法即便使用非前沿模型，也能产出胜过 Fable 的高质量代码。适合希望用 AI 提升效能但不牺牲代码质量的资深工程师阅读。

blog.okturtles.org · 7 min · AI Agents · AI Engineering · Code

07-16

模型越强，工具越差：Anthropic 新模型为何在第三方编辑工具上表现倒退

Armin 在开发 Pi 代码编辑器时发现一个反直觉的问题：Claude Opus 4.8 和 Sonnet 5 等最新模型在调用 Pi 的自定义 edit 工具时，会在嵌套的 edits[] 数组中凭空生成不存在的字段，导致工具调用被拒绝。而更早的 Claude 模型则不会犯这个错误。Armin 推测这是因为 Anthropic 通过强化学习（RL）专门训练了新模型优化 Claude Code 内置的编辑工具，但这种针对性训练意外损害了模型对其他编辑工具模式的兼容性。文章讨论了第三方编码框架是否应该为不同模型实现多套编辑工具接口，以及专用训练与通用性之间的根本矛盾。

simonwillison.net · 2 min · Agent Engineering · AI Engineering · Claude Code

07-15

从提示词到循环：用Claude构建自动化代理系统

本文提出工程师应从写单次提示词转向设计自动化循环（loop），让AI代理持续工作。核心架构包含六要素：自动化触发器、工作树（git worktree）隔离、技能文件、连接器、子代理和持久化记忆文件（如STATE.md）。关键模式是评估器-优化器：一个代理生成内容，另一个用测试/类型检查等客观标准校验。停止条件必须是可验证的（测试通过、构建成功），不能依赖代理自我声明。通过自主阶梯（建议、草稿、低风险自动、完全自动）逐步提升自动化等级。文中也提醒注意Token成本和命令白名单安全。

x.com · 10 min · Agent Architecture · AI Engineering · Claude Code

07-14

Claude Code 双旋钮：模型选知识，努力定工作量

本文由 Claude Code 团队成员撰写，深入解析模型切换与努力级别两个设置的真实机制。模型切换的是训练后冻结的权重（知识），而努力级别控制的是 Claude 在任务中投入的工作量——包括读取文件、运行测试、验证结果等环节的深度与广度。文章通过清晰的类比（专家 vs 通才）和图表，解释了何时应升级模型（知识不足）而非增加努力（努力不够），并给出了实用的选择建议：默认优先使用默认努力，复杂问题选更大模型，常规任务选更小模型以节省成本。核心观点：先检查上下文，再判断是“没试够”还是“不会做”。

x.com · 14 min · AI Engineering · Claude Code · LLM

07-14

声称省 65% Token 的“电报体 Skill”，实测只能省 8.5%

本文剖析了近期流行的“电报体 Skill”（如 Caveman 项目），即让 AI 编程工具用极简语言输出以节省 Token。作者指出，Caveman 声称节省 65% Token 的数据来自聊天场景，但在智能体编程任务中，工具调用和系统提示词才是 Token 消耗大头。JetBrains 的对照测试（86 个任务，240 次试验）显示，强制开启后输出 Token 只省了 8.5%，且日常使用中因须自行判断触发，实际节省更少。文章进一步讨论电报体的代价：语言缩短导致信息缺失，增加开发者追问和 Agent 返工。作者认为，真正有效的成本优化在于上下文管理（如 prompt caching）和减少无用工具调用，而不是压缩输出文本。

x.com · 2 min · AI Engineering · Claude Code · Prompt Engineering

07-13

轻量级终端编码智能体，本地运行、云端协作

Codex CLI 是 OpenAI 推出的轻量级编程智能体，运行在本地终端，直接利用 ChatGPT 订阅或 API 密钥驱动。它不同于 IDE 插件或桌面应用，而是提供纯粹的 CLI 体验，适合习惯终端工作流的开发者。支持 macOS、Linux 和 Windows 三大平台，可通过 shell 脚本、npm 或 Homebrew 快速安装。项目采用 Rust 和 Bazel 构建，注重性能与可移植性。代码以 Apache-2.0 开源许可发布，适合希望探索命令行 AI 编程助手的开发者和团队。

github.com · 5 min · AI Engineering · CLI · Coding Agent

07-11

智能体编码中的测试哲学：从芯片设计到AI工作流

本文作者以在芯片公司Centaur的测试经验为背景，探讨了LLM驱动的智能体（agent）在软件工程中的测试与编码实践。核心观点包括：Centaur的无代码审查、模糊测试为主的工作流在AI时代依然高效，每年仅出现<1个重大用户可见bug；LLM直接生成的测试质量较差，但通过定向提示进行模糊测试可在数分钟内发现真实漏洞；LLM方差极大，同一模型在不同任务上表现迥异，使得公共基准测试的单一排名缺乏实际指导意义；作者还分享了在构建超人类棋盘游戏AI时的系统性方法——基于数据和分析而非盲目提示。文章适用于对AI辅助软件工程、测试自动化及高效agent工作流感兴趣的工程师。

danluu.com · 91 min · AI Engineering · Benchmarks · Developer Tools

07-10

用 Fable 5 搭建自我改进的代理系统：14 步指南

本文提供了一份详细的 14 步路线图，教你如何利用 Claude Fable 5 构建一个能自我改进的代理系统。核心在于将 Fable 5 从“提示-关闭”的临时工具转变为持续累积的系统：通过 /goal 和 Outcomes 实现自纠正循环，用独立验证子代理替代自我批评来提升探索空间，借助状态文件（STATE.md）和 Skills 实现跨会话记忆，并利用动态工作流和 Routines 实现长时间自主运行。文章还给出了成本-能力矩阵（Fable 5 用于编排，Sonnet 4.6 用于工作，Haiku 4.5 用于评分）以及 Mythos 安全边界的处理建议。适合想要真正发挥 Fable 5 长期自主能力的 AI 工程师和系统设计师。

x.com · 28 min · Agent Engineering · Agents · AI Engineering

07-10

不更新权重的持续学习：Replit Agent的评估与自改进实践

文章提出代理持续学习不限于更新模型权重，对于使用闭源前沿模型的代理，可通过 harness 和 context 两个可控层进行改进。以 Replit Agent 为例，详细介绍了其评估系统：包括针对 vibe coding 的离线基准 ViBench（从零构建应用，用自然语言测试计划评分）、线上 A/B 测试，以及生产追踪分析系统 Telescope（聚类失败模式）。三者构成闭环：离线基准防回归，A/B 测试验证用户行为变化，Telescope 发现隐藏问题，最终通过自改进循环自动提出补丁，但仍需工程师审查方向。适合 AI 系统工程师、代理开发者和关注评估体系建设的技术团队。

x.com · 16 min · Agent Architecture · Agents · AI Engineering

07-10

11天、64个AI Agent、535K行代码：Bun从Zig到Rust的史诗级重写

本文是Bun创始人Jarred Sumner的亲身复盘，详细记录了如何借助Anthropic的Claude Fable 5模型，在11天内将Bun的535,496行Zig代码完全重写为Rust。重写动机是Zig手动内存管理在混合GC场景下导致的频繁use-after-free、double-free和内存泄漏。作者没有采用渐进式重写，而是让64个Claude Agent并行工作，通过动态工作流（dynamic workflow）和对抗性审查（adversarial review）确保代码质量。最终整个测试套件（60万+断言）在6个平台全部通过，修复了128个已知bug，内存占用降低最多90%，二进制缩小约20%，吞吐量提升2-5%。文章详细披露了AI辅助下的工作流程、遇到的典型移植错误（如debug_assert!副作用、切片越界、comptime格式化），以及Rust的Drop机制如何系统性防止Zig中defer容易遗漏的清理问题。这是一线工程师利用前沿AI工具完成不可能任务的第一手报告，对任何关注AI工程、运行时实现或语言迁移的人员都有极高参考价值。

bun.com · 65 min · Agent Engineering · AI Engineering · Code

07-08

Claude Code 循环模式：从交互到自动化

Claude Code 团队官方博客，详细介绍了四种循环模式：基于回合、基于目标、基于时间和主动循环。文章解释了每种模式的触发方式、停止条件、适用场景及 token 管理策略，并提供了具体的 CLI 命令和 SKILL.md 示例。核心观点是：并非所有任务都需要复杂循环，应从最简单的方案开始，逐步为重复性工作设计自动化流水线。对于已在使用或计划使用 Claude Code 进行自动化开发的工程师极具参考价值。

x.com · 9 min · Agents · AI Engineering · Ai Tooling

07-08

Harness工程：通往AI递归自我改进的关键路径

Lilian Weng 的这篇长篇综述系统梳理了 Harness Engineering 在 AI 递归自我改进 (RSI) 中的核心作用。Harness 是环绕基础模型的系统层，负责编排执行、上下文管理、工具调用、持久化状态与工作流设计。文章总结了三大设计模式（工作流自动化、文件系统作为持久记忆、子代理与后台作业），并详细介绍了上下文工程（ACE、MCE）、元优化（Meta-Harness）、工作流自动化搜索（ADAS、AFlow）、自改进 Harness（STOP、Self-Harness）以及进化搜索（AlphaEvolve、Darwin Gödel Machine）等前沿工作。最后指出当前瓶颈：评估器弱、记忆管理、多样性崩溃、奖励黑客等。适合 AI 工程师、代理系统研究者阅读。

lilianweng.github.io · 42 min · Agent Architecture · Agents · AI Engineering

07-07

Claude Fable 使用心得：如何系统性地发现未知盲区

作者分享使用 Claude Fable 进行 agentic coding 的经验，核心观点是“地图不等于疆域”——提示词与现实代码之间存在未知。他将未知分为四类（已知已知、已知未知、未知已知、未知未知），并提出一系列实用技巧来系统化地发现和减少未知：盲点扫描、头脑风暴与原型、面试式提问、参考代码、实施计划、实施笔记、推销文与测验。并以编辑 Fable 发布视频为例说明全过程。适合所有使用 AI 辅助编码的工程师。

x.com · 13 min · Agent Engineering · Agents · AI Engineering

07-07

人机协作工作流：从审批疲劳到计划级干预的设计

本文基于Anthropic对40万次Claude Code会话的分析，揭示当前“Human-in-the-Loop”实践中的核心问题：用户93%的审批率导致“审批疲劳”，人类名义上在场但实际失去判断力。作者提出应将工作流重新设计为三个层：输入层（任务描述、约束、示例）、引导层（计划级审批而非逐步骤批准）、输出审查层（定义质量标准并自我评估）。实验显示，仅添加输出审查检查点即可将生成质量提升8-10%。文章给出具体操作步骤，并指出真正的差距不是模型能力，而是工作流架构设计。适合AI工程、Agent开发及所有使用AI辅助工作的一线工程师。

x.com · 11 min · Agent Architecture · AI Engineering · Claude Code

07-04

Superpowers 6：用自动化研究循环将构建成本降低60%

Superpowers 6 发布，核心改进来自一次自动化研究（autoresearch）实验：作者利用 Anthropic 的 Fable 模型（短暂可用期间）对自身的 Subagent Driven Development 流程进行了系统优化。在 36 小时内、花费约 165 美元 token 运行了 25 次实验，最终实现 wall-clock 速度提升 50%、token 消耗降低 60%。关键优化包括：合并合规审查与代码审查 agent、预生成 review packet 减少 git 调用、根据任务类型动态分配 agent 层级（如对非代码方案使用低成本 haiku）。文中披露了多个已证伪的假设（如限制 controller 思考时长适得其反），并强调 eval 套件在差异化测量中的关键作用。适合关注 AI 编码 agent 成本优化和 engineering productivity 的读者。

blog.fsck.com · 8 min · Agent Engineering · AI Engineering · Anthropic

07-02

打造优秀垂直 Agent：用缓存层级组织上下文

本文提出一个核心观点：优秀的垂直 Agent 是对任务分布的有损压缩，其上下文应像 CPU 缓存一样分为 L1/L2/L3 三层。作者以自己构建的 Shortcut 电子表格 Agent 为例，详细展示了如何极度优化高频操作：读取时通过 R1C1 范式化和别名将 500 个公式压缩为一行动态；写入后返回分组、采样、分类的 diff，并将 #REF! 等错误标记为 MUST FIX。第二层是按需拉取的英文规范文档，例如透视表规范教会模型 suspendLayout/resumeLayout 和聚合参数必须传原始整数 8；第三层是完整的原始 API 参考，配一个 100 行的 grep 技能让模型能自行挖出所需签名。整篇文章提供了具体的代码片段、prompt 预算分配和可迁移的设计原则，适合所有需要构建高可靠 Agent 的工程师。

x.com · 21 min · Agent Architecture · Agent Infrastructure · AI Engineering

07-01

做了些爆款 Skills 后，我对 Skills 的看法

作者基于自己开发的 PPT、社交媒体卡片、Logo 生成器、AI Desk Card 等爆款 Skill，提出 Agent 并非抹平能力差距，而是放大差距。Skill 是封装专家经验、工作流、品味和工具调用的可复用能力单元，能弥合使用差距。文章深入讨论了 Skill 的核心——把人的经验外化，设计 Skill 是把品味变成可执行的约束；架构上应遵循“中心短、辐射厚”，SKILL.md 只放高信号流程，重文档按需读取；质量需像代码一样维护，gotchas 来自真实失败最有价值；生态不应是仓库列表，每个 Skill 应像软件功能页展示结果和场景；分发策略是 GitHub 打基础，内容平台做传播，形成“文章、产品、案例互相喂养”的复利飞轮。最后给出完整生命周期：从真实需求出发，经过高质量产物、抽象流程、工程化模板、跨模型测试、发布分发到反馈迭代。本文适合 AI Agent 开发者、产品经理和内容创作者，提供了大量具体案例和可操作的设计原则。

x.com · 13 min · Agent Architecture · Agent Skill Repository · AI Engineering

07-01

微代理：在模型API层内协作，超越前沿模型

vLLM Semantic Router 提出了一个不同寻常的视角：路由器不只是请求分发器，更是模型能力的放大器。其核心思想是将多个模型的协作封装在同一个模型 API 调用内，用户看到的仍然是一个普通模型端点（vllm-sr/auto），但背后路由器可以根据任务自动选择协作模式——从成本感知的串行升级（Confidence）、并行聚合（Ratings），到多轮推理合成（ReMoM）、分歧发现（Fusion），乃至带资源预算的微代理工作流（Workflows）。这些模式都是可控、可配、可观测的运行时，而非应用层胶水代码。评测显示，在 LiveCodeBench、GPQA-Diamond、Humanity's Last Exam 三个硬基准上，这套闭源模型协作方案（VSR Closed）分别达到 92.6%、96.0%、50.0%，持平或超过了 Fugu Ultra、GPT-5.5 等单一前沿模型。这篇博文的价值在于，它首次把“多模型协作”从产品端或应用端下沉到了 serving 基础设施层，并且坚持以一个模型身份暴露，极大降低了接入成本。适合正在构建推理路由、多模型策略或成本优化方案的工程师阅读。

vllm.ai · 14 min · AI Engineering · Cost Optimization · LLM

06-30

如何让代码库成为AI代理的“理想家园”——深模块设计实践

本文作者提出，代码库的结构远比提示词或AGENTS.md文件更能影响AI代理的输出质量。核心观点是采用《软件设计哲学》中的“深模块”原则：每个模块通过简单接口暴露大量实现逻辑，AI代理只需理解接口，无需深入内部。作者进一步提出“灰盒模块”概念——开发者定义并锁定接口行为（通过测试），AI负责实现内部细节。这种方式能改善AI的反馈循环（测试即反馈）、导航效率（文件系统直接映射心智模型）并降低认知负担（开发者只需关注7-8个模块边界）。文章也指出TypeScript中强制边界不易，推荐使用Effect库。适合正在优化AI编码工作流的工程师阅读。

www.aihero.dev · 5 min · Agent Architecture · AI Engineering · Code

06-29

研究者的可训练技能栈：从挑选问题到刻意犯错

本文由 @itsreallyvivek 撰写，提出研究能力并非天赋，而是一套可被刻意训练的次级技能栈。核心论点包括：挑选自己真正关心的问题以制造原创性，升级信息源（读旧材料、跨领域、读原文而非线程摘要）以打破共识，将想法写下来以暴露认知漏洞，通过脚本化工具和低代价实验收紧反馈循环，直接盯着失败案例而非只看损失曲线，有目的地游走多个子领域以找到个人独特性优势，并找到能告诉你想法很糟糕的同伴。文章大量引用 Hamming、Schulman、Feynman、Darwin、Karpathy、Andrew Ng 等人的具体方法论，强调可操作的实践（如预测实验结果、过拟合单个 batch、手动分析百个失败案例），而非抽象建议。适合希望从表面模仿转向实质生产力的研究工程师和博士生，尤其适用于机器学习与系统工程交叉领域的一线实践者。

x.com · 10 min · AI Engineering · Career Advice · Experiment Design

06-29

AI Agent 上下文工程完全手册：为什么你的 Agent 在第 15 步开始变糟

本文系统阐述了上下文工程在构建 AI Agent 中的核心地位，指出 Agent 行为退化往往不是模型问题，而是上下文窗口管理不当。文章指出，Agent 的上下文窗口如同 RAM，随着工具调用、检索结果和对话历史累积，模型注意力会衰减，出现“中间丢失”和上下文腐败。作者给出了四大策略：Write（持久化信息到外部）、Select（按需检索）、Compress（压缩上下文）、Isolate（隔离不同任务的上下文），并详细分析了 4 种失败模式（中毒、分心、混淆、冲突）。文章还提供了具体数据：Chroma 基准测试表明所有模型在输入长度增加时性能连续下降，RAG‑MCP 将工具选择准确率从 14% 提升至 43% 且令牌用量减半，KV‑cache 缓存命中可使成本降低 10 倍。最后给出了一个在 7 小时内向 Rust 代码库提交约 35,000 行代码的实战工作流，适合所有需要构建可靠生产级 Agent 的工程师阅读。

x.com · 21 min · Agents · AI Engineering · Context Engineering

06-28

从提示到自治：设计 AI 工作循环的五个阶段

Claude Code 的创造者声称自己几乎不再写提示词了——是循环在替他“提示”。本文提出一个清晰的五级框架，描述开发者与 AI 协同工作模式的演进：从 L1 的单轮问答，到 L2 的手动循环（重复“做-检查-修正”），再到 L3 的验证循环（用独立检查定义“完成”），然后到 L4 的自运行循环（靠 Goal 命令自主迭代），最终到 L5 的自主智能体系统（循环自触发、并行执行、经验回写入知识库持续改进）。每级都包含识别标志和具体升级行动。适合已感觉“聊胜于无”的 AI 用户，以及正在构建自动化 Agent 工作流的工程师。

x.com · 7 min · Agent Architecture · Agent Engineering · Agents

06-27

把 Claude 从对话工具变成自动化工人：循环工程入门

Anthropic 内部 Claude Code 的构建者 Boris Cherny 透露，他已不再手动编写提示词，而是通过编写“循环”让 Claude 自动工作。本文定义了什么是一个真正的循环（loop）：一组能够自动感知任务、执行、自我检查、状态记录并重复的系统，而非简单的 cron job。与传统的一次性提示不同，循环的核心是内置了决策者，Claude 能在中途判断是否继续、重试或停止。文章详细介绍了 Claude Code 中的 /goal（任务完成即停止）和 /loop（按节奏重复）两个命令，并提供了一个可直接粘贴使用的循环宪章模版，涵盖目标定义、任务来源、工作方式、自我检查机制、状态记忆和停止条件。适合希望将 Claude 从对话式工具转向持续自动化工作流的工程师。

x.com · 9 min · Agent Engineering · Agent Orchestration · AI Engineering

06-27

AI生成代码泛滥后，代码审查才是真正的核心技能

当AI能以分钟级生成上千行代码时，工程的瓶颈从编写转向了信任决策。因此，审查成了软件领域最具杠杆能力的技能。文章指出，2026年的多方数据（Faros AI、CodeRabbit、GitClear、GitHub）均证实：AI使用量提升后，开发者的代码产出提高约4倍，但交付价值仅增长约12%，同时代码流失率飙升861%、缺陷率从9%升至54%、审查时长增加441.5%、零审查合并的PR增长31.3%。作者认为，问题不在于是否使用AI，而在于如何根据项目的「爆炸半径」分层分配审查力度：对个人无用户项目可轻审查，对大型企业级项目必须建立分级、证据驱动、异质化AI审查+人类最终负责的流程。文章还介绍了具体实践：分流PR、要求前置证据、关注测试变更、用两个不同构架的AI审查工具并行运行，以及让人类从「线级审查」升级为「抽样审计」。

addyosmani.com · 29 min · Agent Engineering · AI Engineering · Code Review

06-27

AI 重塑软件生命周期：从编写代码到评判代码的转变

这篇由 Google 工程师撰写的白皮书提炼，核心观点是：AI Agent 的真正价值不在于模型本身，而在于其“载体”（Harness）——即指令、工具、沙箱、编排逻辑和可观测性组成的系统，模型约占 10%，载体占 90%。上下文工程是决定成本的关键，需要区分静态上下文（每次加载，昂贵但可靠）和动态上下文（按需加载，便宜但需谨慎设计）。验证能力是区分“Vibe Coding”和真正的工程化 Agent 的分界线：测试覆盖确定性部分，评估覆盖非确定性输出和轨迹。白皮书提供了具体数据：仅修改载体（不换模型）即可将编码 Agent 在 Terminal Bench 2.0 上从 30 名外提升至前 5；LangChain 的实验中通过修改系统提示、工具和中间件在相同基准上提升了 13.7 分。适用于所有正在或准备将 AI Agent 引入研发流程的工程师和技术管理者。

addyosmani.com · 15 min · Agent Architecture · AI Engineering · Context Engineering

06-26

从提示者到循环设计师：14步走向智能体工程新范式

本文来自 @0xCodez 发布在 X 上的长篇技术博文，系统阐述了“循环工程”（Loop Engineering）——从手工编写提示词（prompt）过渡到设计自动循环系统的完整路线图。文章基于 Anthropic 工程文档、Addy Osmani 的长文及近期测量研究，将转变过程分为三个层级共 14 步：首先通过 4 条件测试判断是否需要循环；然后掌握 5 个基础构件（自动化、工作树、技能、连接器、子智能体）；最后构建最小可行循环并规避常见陷阱（如“Ralph Wiggum 循环”、知识债、安全风险）。作者明确指出，循环工程并非万能——只有任务重复、验证可自动化、预算能承受浪费、且智能体拥有资深工程师工具时才有意义。本文适合已熟悉编码智能体基础用法、希望将其融入自动化工作流的工程师阅读。

x.com · 23 min · Agents · AI Engineering · Ai Tooling

06-25

为Agent设计搜索结果：给信息配上下一步动作

Raft CTO Tenny 提出，当 Agent 执行搜索时，返回原始 ID 或全文都是糟糕的设计。正确的做法是借鉴网页搜索结果：返回匹配片段（带高亮）、上下文预览和明确的下一个动作（如“阅读完整线程”）。文章指出，Agent 的“显示器”是上下文窗口，每 token 都有成本，因此结果必须紧凑、可立即判读，并提供下一步操作锚点。这是 UX 设计的延伸——只不过用户不再是看屏幕的人，而是读 token 的 Agent。

raft.build · 11 min · Agent Tool Design · AI Engineering · Context Engineering

06-24

循环工程：2026年AI构建者必备的新技能

本文由社区作者撰写，提出“循环工程”概念，主张从单次手动提示转向设计AI agent的自动化反馈闭环。核心论点是：高效的AI应用不是靠一个完美prompt，而是构建一个持续发现、规划、执行、验证、迭代的系统。文章详细介绍了六种构建模块（自动化、工作树、技能、插件与连接器、子agent、记忆）、两种循环规模（单agent与舰队循环）以及两种类型（开放循环与封闭循环），并坦诚讨论了最隐蔽的瓶颈——token成本。适合希望将AI agent从实验工具升级为生产级工作流的工程团队。

x.com · 12 min · Agent Architecture · Agents · AI Engineering

06-23

AI 智能体工程的 20 个核心概念

本文梳理了 AI 智能体工程中的 20 个基础概念，涵盖构建模块（Agent、执行循环、状态、协作模式）、配置层（配置文件、工作流文件、提示缓存、上下文腐烂）、能力层（MCP 协议、实时文档检索、持久记忆）、编排层（子智能体、智能体循环）、护栏层（沙箱、权限、钩子、提示注入防御、预提交门）以及可观测性（追踪、指标）。作者强调框架会变，但这些底层思想不变；理解它们后，看任何新工具都能快速抓住本质。文章给出了大量具体配置示例（CLAUDE.md、permissions.yaml、.pre-commit-config.yaml）和实用建议（如配置文件不超过 100 行、区分代理信号与成果指标）。适合正在或准备构建 AI 智能体的开发者。

x.com · 24 min · Agent Architecture · Agents · AI Engineering

06-22

GLM-5.2：面向长时程任务，落地百万 Token 上下文与开源推理栈

智谱 AI 发布旗舰模型 GLM-5.2，重点提升长时程任务能力，首次在 1M token 上下文窗口上稳定运行，并采用 MIT 开源许可。架构层面引入 IndexShare 技术，每 4 层 Transformer 共享稀疏注意力索引器，使 1M 上下文下每 token FLOPs 降低 2.9 倍；改进 MTP 层，通过 IndexShare 与 KV 共享消除训练-推理差异，配合拒绝采样与端到端 TV 损失，将推测解码接受长度提升 20%。后训练阶段，基于 slime 框架统一组织大规模 agentic RL 训练，并引入反作弊模块，在线检测并阻断 agent 读取受保护评估产物、curl 下载答案等投机行为，维持训练信号有效性。GLM-5.2 在 FrontierSWE、PostTrainBench、SWE-Marathon 等长时程基准上位居开源模型第一，在 Terminal-Bench 2.1 上得分 81.0，逼近闭源前沿。文章适合关注长上下文推理、编码智能体、开源大模型工程化的开发者阅读。

z.ai · 21 min · Agent Architecture · AI · AI Engineering

06-21

AI 代码生成懒人模式：自动砍掉无用代码、缩短输出至原规模一半

Ponytail 是一个为 Claude Code、Codex、Copilot CLI 等 14+ 种 AI 编码代理设计的规则插件。它注入一套“先问必要性”的思维阶梯：代码真的需要存在吗？标准库或平台原生能力能否做到？一行代码能否搞定？—— 全部通过后才生成最小可行实现。基于 12 个真实功能任务、与 FastAPI+React 仓库交互的 benchmark 显示，平均减少 54% 的代码行数、22% 的 token 消耗、20% 的成本和 27% 的耗时，且完全保持原有的安全约束（验证、错误处理、安全、无障碍）。适合追求生成代码简洁、物有所值的开发者，尤其被同一 agent 反复“过度工程”困扰的团队。

github.com · 12 min · Agents · AI Engineering · Code Generation

06-18

Factory 2.0：从编码代理到自进化的软件工厂

Factory 宣布 2.0 版本，将产品定位从个体 AI 编码代理升级为端到端的“软件工厂”。文章提出，仅提升单个工程师效率已不足够，企业需要构建一个由 AI 代理驱动、可自观测、自改进的闭环系统，覆盖从缺陷、客户反馈到计划、构建、测试、审查、安全、部署、监控的全生命周期。核心设计原则包括：模型独立性，允许企业按成本、性能、速度为不同任务选用模型或通过 Router 自动选择；主权智能，数据和控制平面可部署在从云到完全离线环境的任何位置，所有代理会话、代码审查和事故处理经验都会反哺系统；持续学习与自改进，各阶段共享同一代理核心、路由器和组织上下文，让安全发现影响代码审查，部署触发文档更新，事故关联到引发 PR。文章列出 NVIDIA、EY、Adobe、Palo Alto Networks 等企业客户已在生产环境中运行软件工厂，并强调自主性是一个渐进成熟过程，通过简单 Droid 代理、技能、自动化协作、Droid Computers 以及多代理并行 Missions 满足不同人的参与度、信息敏感性和代理就绪度要求。适合关注企业级 AI 工程化、代理架构和研发效能提升的工程师与管理者阅读。

x.com · 5 min · Agent Architecture · Agents · AI Engineering

06-17

从40万Claude Code会话看：领域专长是智能体编程成功的关键

Anthropic基于约40万次Claude Code会话的分析显示，用户主要负责规划，Claude负责执行，领域专业知识而非编码技能是成功的关键。专家级会话的验证成功率是初学者的两倍多，但中级用户已能获得大部分成效；非软件职业编码成功率与软件工程师仅差约5个百分点。七个月内调试会话占比从33%降至19%，端到端任务（部署、数据分析、文档写作）比例上升，平均任务价值估计上升约25%。报告给出了决策归因、专业知识评级与成功验证的方法论，并指出局限性。适合关注AI编码工具、智能体协作与技能迁移的工程师与研究者。

www.anthropic.com · 27 min · Agents · AI Engineering · Claude Code

06-15

Claude 官方实践手册：从 RAG 到多模态 Agent 的工程配方集

Anthropic 官方维护的 Claude 实践指南集合，以 Jupyter Notebook 形式提供可直接运行的代码示例。项目覆盖从基础能力（分类、摘要、RAG）到进阶玩法（多模态视觉、工具调用、子 Agent 协同）的完整配方，尤其适合需要将 Claude 集成到生产环境的工程师快速上手。近期新增 Claude Agent SDK 与 Managed Agents 系列，展示了单行代码构建研究助手、SRE 助手等可观测、可托管的 Agent 架构。

github.com · 8 min · Agents · AI Engineering · Anthropic

06-15

将 agent harness 拆解为可独立替换的 workers：iii 引擎的架构实验

作者 Mike Piccolo 提出了一个观点：当前主流的 agent 框架（如 LangGraph, CrewAI）将循环、工具、记忆、审批等职责捆绑为一个整体，导致团队后期不得不重写整个 harness。他介绍了 iii 引擎的 worker 架构，将 agent 运行所需的 13 项职责（凭证解析、策略检查、会话持久化、预算追踪等）拆分为 11 个独立的 worker。每个 worker 通过同一个 WebSocket 原语（iii.trigger) 在总线上注册函数和触发器，能够像积木一样被单独添加、移除或替换。文中用生产环境的实例拆解了从 API 请求到 turn 状态机、流式响应、工具调用审批、预算记账和 OpenTelemetry 追踪的全链路，并给出了替换模型目录、新增模型供应商、私有 skill 存储、自定义审批界面等 5 个具体替换案例。核心论断是：agent harness 不应是一个需要被 fork 的单一框架，而应是一组可组装、独立版本化的 worker 合集，使架构从“选边站”的厚薄之争，变为一个可由配置文件滑动调节的连续体。本文适合在自建 agent 系统中遇到框架边界限制，或对松耦合 agent 基础设施设计感兴趣的后端工程师。

x.com · 20 min · Agent Architecture · AI Engineering · Observability

06-15

前沿模型若无生态系统，便不稳定

Satya Nadella 提出，AI 经济中企业的未来在于构建将人力资本与 AI 能力（token 资本）融合的复合学习闭环。他认为真正的机会不在于选择最佳模型，而在于建立一套能持续吸收机构知识的智能体系统，使企业能独立于模型迭代，保留并增值其专有 IP。文章警告称，若价值仅由少数模型摄取，将引发严重的社会经济反弹，强调必须构建一个让价值广泛流动的前沿生态系统，而非仅关注单一前沿模型。本文适合关注 AI 战略、企业架构及平台经济的高层决策者与技术领导者阅读。

x.com · 5 min · AI Engineering · AI Industry · Context Engineering

06-14

Anthropic 用 Claude 打造自助分析智能体的堆栈设计与故障应对

Anthropic 数据团队分享了如何使用 Claude 实现 95% 自动化、约 95% 准确率的企业自助分析。文章指出分析准确性的核心不是 SQL 生成，而是上下文与验证——具体表现为三个主要故障模式：概念与实体歧义、数据过时、检索失败。为此他们构建了四层智能体数据堆栈：数据基础（规范数据集与严格治理）、真相来源（语义层、血缘关系、查询语料、业务知识图谱）、技能（知识技能与非技能，将准确率从不足 21% 提升到 95% 以上）和验证（离线评估、对抗性审查、在线监控）。文中给出了技能文件骨架、参考文档模板、评估方法等可直接参考的实践，并讨论了 colocation、元数据治理、错误案例收集等工程化手段。适合正在构建或优化 LLM 驱动的数据分析系统的数据工程师、分析师和工程经理。

claude.com · 32 min · Agents · AI Engineering · Analytics

06-14

从桌面到云端：为 AI Agent 构建基础设施时我们学到的两课

本文为 CREAO 团队分享的一线实践经验，聚焦于将 Agent 从个人桌面迁移至云端多租户沙箱时所必须面对的核心架构差异。文章核心论点有二：其一是必须将变化速率不同的组件（用户环境与平台运行时代码）解耦，通过快照冻结用户环境，并设计了一个约 300 毫秒的原子热插拔流程来更新运行时代码，从而在不破坏用户状态的前提下实现平台高频部署；其二是严格将凭证隔离在执行边界之外，采用网络层 IP 白名单与每次运行签发的短生命周期 JWT 双重校验，通过一个运行在沙箱外的主机侧 API 桥接器注入密钥，确保即使沙箱内代码被完全攻破，攻击者也无法获取长期凭证。文章提供了具体的命令、校验序列和实施细节，适合正在将 Agent 产品化的后端与基础设施工程师阅读。

x.com · 10 min · Agents · AI Engineering · Infra

06-13

用14个步骤在Fable 5上构建自我进化的智能体系统

本文是一份基于Anthropic工程团队公开文档和实验构建的Fable 5实操指南。作者指出，绝大多数用户仅将Fable 5当作上下文窗口更大的Sonnet 4.6使用，未能发挥其“神话级”模型的设计潜力。文章详细阐述了一套让系统输出随时间复合增长的架构，包含四大层次：基础原语（模型、子智能体、工作树）、编排（/goal与Outcomes自纠正循环、动态工作流、云端例程）、记忆（状态文件、可进化的技能），以及自我改进（视觉自检、评估循环、规则蒸馏）。核心方法论包括用独立的验证智能体替代自我批判、通过Git工作树确保并行安全性、通过例程在关闭笔记本电脑后仍能运行数天的任务、以及一套从记录故障到蒸馏通用规则的五阶段记忆进阶模型。文章为愿意将Fable 5从五分钟的聊天工具转变为一个可自我增强的系统架构师提供了具体、可操作的模式和配置示例。

x.com · 28 min · Agent Architecture · AI Engineering · Claude Code

06-13

Anthropic 发布 Mythos 级模型 Claude Fable 5：能力最强，但带着更多安全限制

Anthropic 发布了一款能力超越所有前代公开模型的 Claude Fable 5，并将其定级为“Mythos 级”。Fable 5 在几乎所有基准测试中表现领先，尤其在长周期、复杂任务上优势明显，覆盖软件工程、知识工作、视觉、科研等领域。为应对 Mythos 级模型在网络安全和生物学领域的严重滥用风险，Anthropic 内置了保守的安全分类器，会将敏感请求（如网络攻击相关）转交给 Opus 4.8，触发率约 5%。同时，他们为特定用户群发布了解除限制的 Claude Mythos 5，用于网络防御和生物医学研究，并推出了新的 30 天业务数据留存政策。文章展示了 Stripe 在 5000 万行 Ruby 代码库中一天完成两个月工作的案例、Slay the Spire 和 Pokémon 测试中的自主性能提升，以及蛋白质设计和分子生物学假设生成方面的突破。定价为每百万输入 token 10 美元，输出 50 美元。适合关注前沿 AI 能力、安全实践和工程应用的开发者与研究人员。

www.anthropic.com · 26 min · AI Engineering · AI Industry · Anthropic

06-12

Anthropic 销售用 Claude Code 从零编程构建内部工具套件

本文记录 Anhtropic 前客户经理 Jared Sires 利用 Claude Code 从零编程经验起步，构建 GTM 团队内部工具的过程。他开发的 CLAFTS 应用内嵌于 Gmail，能根据最新产品文档和用户写作风格草拟邮件回复，每周节省 10-15 小时。在此基础上，他进一步构建了每日简报、每日复盘及销售插件，通过 MCP 服务器连接 Salesforce、Gong 等系统，自动化客户背景调研和后续跟进。目前约 80% 的 Anhtropic 销售团队使用该插件。文章展示了无技术背景的业务人员如何通过 AI 编程工具消除技术壁垒，直接设计并交付解决实际工作流程问题的软件方案，适合关注 AI 编程工具赋能非技术角色及销售自动化实践的读者。

claude.com · 9 min · Agent Architecture · AI Engineering · Claude Code

06-12

Claude Projects 深度指南：25 个被低估的特性、工作流与技巧

本文由 @eng_khairallah1 撰写，系统梳理了 Claude Projects 从基础配置到高级策略的 25 个实战技巧。核心观点在于，Projects 不应被当作一次性对话工具，而是需要通过结构化指令模板、分类知识库上传和持续校准，将其打造成一个随时间不断进化的持久化工作区。文中提供了具体可操作的模板，如 'ROLE/CONTEXT/RULES/OUTPUT' 指令框架、'竞争力情报中心' 和 '客户专属项目' 的设置方法，并强调了通过 '反馈日志' 和 '季度刷新' 实现指令的复利优化。本文适合希望摆脱重复向 Claude 解释背景、寻求更高效和个性化 AI 协作方式的深度用户阅读。

x.com · 16 min · Agent Architecture · AI Engineering · Anthropic

06-12

2026 年如何构建真正可用的 AI Agent：从认知模型到代码实操

本文系统地拆解了构建实用 AI Agent 的核心架构与工程实践。作者首先厘清了聊天机器人、AI Agent 与 Agentic AI 的边界，指出真正 Agent 的本质是持续执行直到目标达成的循环系统，而非一次性问答。文章深入阐述了 Agent 运行的 ReAct 循环（思考-行动-观察-反思），并分解出 Agent 的五大基石：LLM 大脑、工具（手）、记忆（短期与长期）、自校正回路及验证环节。作者以“构建一个挖掘健身领域痛点创业想法的研究 Agent”为例，展示了从设定目标、赋予工具、引入循环、构建记忆到增加批评 Agent 的完整构建步骤，并附带了可直接使用的 5 种 Agent 系统提示。文章还总结了导致 Agent 失败的 6 个核心原因（如缺乏记忆、无停止条件等），并推荐了 Claude Code、LangGraph、MCP 等当前技术栈。适合希望从 Prompt 工程转向 Agent 系统工程的一线开发者阅读，提供从 50 行 Python 代码起步的周末实践路线图。

x.com · 21 min · Agent Architecture · AI Agents · AI Engineering

06-11

如何为 Claude Fable 5 设计循环：自校正与跨会话记忆

R. Lance Martin 分享了针对 Anthropic 最新模型 Fable 5 的两类循环设计实验：自校正和工作记忆。在自校正环节，他用 Parameter Golf 挑战（训练一个能塞进 16MB、在 8xH100 上 10 分钟内跑完的模型）对比了 Fable 5 和 Opus 4.7。在 Claude Managed Agents (CMA) 环境下，Fable 5 通过 Outcomes 生成的 grading 子 agent 做独立验证，训练流水线的改进幅度是 Opus 4.7 的约 6 倍，且更敢于做结构性变更而非只调标量参数。在工作记忆实验中，基于 Continual Learning Bench 1.0 的任务，Fable 5 在连续 SQL 问答中展现出一条从记录失败、调查原因、交叉验证到抽象为通用规则的完整记忆链，验证覆盖率达到 73%，显著超过 Opus 4.7 和 Sonnet 4.6。文章适合正在为强模型设计 agent 循环的工程师阅读，核心主张是提供环境和反馈让模型自行爬坡，比直接提示更有效。

x.com · 5 min · Agent Architecture · Agents · AI Engineering

06-11

Headless Tools：让智能体直接在浏览器和桌面应用里执行动作

这篇文章提出了一种名为 Headless Tools 的新机制，解决了智能体（Agent）无法直接操控用户端运行环境的问题。作者指出，当前大多数 Agent 工具运行在服务端，可以调用 API，但无法访问浏览器、应用状态或设备能力（如剪贴板、定位、本地存储）。Headless Tools 将客户端能力（如 navigator.geolocation、IndexedDB、应用内导航）封装为模型可以调用的标准工具，模型感知不到工具实际执行的位置，服务端和客户端负责协调，使 Agent 能直接作用于用户所在的浏览器或桌面应用。文章提供了 TypeScript 代码示例，并展示了在 Slidev 演示框架和浏览器本地记忆中的具体应用。这一设计同时带来了隐私优势，因为敏感数据可以默认留在本地，无需发送到后端。本文适合需要构建深度集成前端应用的 Agent 系统的工程师阅读，特别是那些在 Figma 插件、富文本编辑器或桌面工具中嵌入 AI 能力的团队。

x.com · 7 min · AI Agents · AI Engineering · Browser

06-11

用奖励函数替代标注数据：GRPO 将 Qwen3-8B 的 JSON 结构输出有效性从 62% 提升至 82%

本文是一线实操记录，作者将 DeepSeek-R1 采用的 GRPO（群体相对策略优化）方法用于一个具体任务：训练 Qwen3-8B 从发票文本中提取结构化的 JSON 字段。传统 SFT（监督微调）通过模仿范例来训练，其在 token 级别的损失函数无法有效惩罚格式错误，导致模型在结构合规性上很快触及天花板。作者的核心论点是，只要能用代码定义“正确性”（例如 JSON 能否解析且符合 schema），就可以用一个 Python 奖励函数替代标注数据，驱动模型自我对抗学习。实操中，奖励函数对不合法 JSON 给 0 分，对合法但不符合 schema 的给 0.5 分，对完全合规的给 1 分，这一中间分值提供了关键的学习梯度。训练在 Fireworks 平台的 H200 上运行，最终在 50 个模型未见过的评估样本上，schema 合规率从基线的 62% 提升至 82%，超越了 GPT-4.1 的 58%，且推理成本和延迟更低。文章适用于需要模型可靠生成结构化输出（如 SQL、API 响应、工具调用）的工程师，提供了完整的奖励函数、数据集和训练配置代码。

x.com · 12 min · AI Engineering · Fine-tuning · GRPO

06-10

Claude Fable 5 实战：用自校正循环和跨会话记忆打磨代理任务

作者分享了使用 Anthropic 的 Claude Fable 5 模型提升代理工作效能的两个实战方向：自校正循环和跨会话记忆。在自校正循环实验中，作者用 Parameter Golf——一个要求在 16MB 模型体积、8xH100 GPU 上 10 分钟内训练最佳模型的公开挑战——比较了 Fable 5 与 Opus 4.7 的表现。通过 Claude Managed Agents 提供的 Outcomes 原语，由独立验证子代理根据九项可检查标准评分，Fable 5 对训练管线的改进幅度约为 Opus 4.7 的 6 倍。Fable 5 更倾向于做结构性改动，并在遇到量化性能回退时展现出韧性，而 Opus 4.7 则停留在调整标量超参数的模板上。在记忆实验中，作者使用 Continual Learning Bench 1.0 中的 SQL 问答任务，对比了 Fable 5、Opus 4.7 和 Sonnet 4.6 利用文件系统跨会话记忆的能力。Sonnet 4.6 仅记录失败和未验证猜测，Opus 4.7 能创建带不确定性标记的 schema 参考但验证覆盖率中位数仅 17%；Fable 5 最强运行中验证覆盖率达 73% 并将学习提炼为通用规则。文章适合关注代理架构设计和模型能力边界的工程师阅读。

x.com · 5 min · Agent Architecture · AI Agents · AI Engineering

06-09

循环工程：让代码智能体在后台自主运行，而你设计的是循环本身

本文来自 Addy Osmani 对编码智能体未来工作模式的深度观察。核心观点是，与编码智能体交互的方式正从直接的提示词工程转向循环工程：工程师不再亲自写每一步提示词，而是设计一个包含定时自动化、并行工作树、项目技能、连接器插件和子智能体检查者的闭环系统，让系统自己去发现任务、分配工作、验证结果。文章详细拆解了这五个构建块及其在 Claude Code 和 Codex 中的对应实现，并强调了循环运行中必须持续关注验证、理解债务和认知舒适区的陷阱。适合正在探索如何将 AI 编码工具从一次性助手升级为持续后台工作者的资深工程师，尤其是那些关心代码质量、认知负担和成本控制的团队。

x.com · 14 min · Agent Architecture · AI Agents · AI Engineering

06-09

设计一个自行驱动 Agent 的多步任务循环

本文提出了一个让 AI Agent 自主完成多步任务的循环架构，核心在于用代码构建一个自动化的提示生成系统，而非手动编写单个提示。文章详细拆解了该循环的五个组成部分：定义验收标准（done check）、从状态构建上下文而非每次手写指令、执行操作并捕获所有输出、将失败结果作为反馈闭合到下一轮提示中，以及设置硬性停止条件（最大轮次、成本上限）。作者通过一个修复登录Bug的实例展示了循环如何运行，并指出实际开销来自多轮调用，而非单次代码生成，因此止损条件至关重要。此外，将反复出现的操作封装为可复用技能是提升长期价值的关键，而初学者常犯的错误包括缺乏退出条件、手动干预提示和丢弃失败输出。适合希望从单次提示工程转向构建Agent控制流的开发者阅读。

x.com · 18 min · Agent Architecture · Agents · AI Engineering

06-08

给工程师的 AI 编码工作流：一组可组合的 Agent Skills

Matt Pocock 从自身 .claude 目录公开分享了用于 Claude Code、Codex 等编码智能体的技能集。这些技能并非“写代码”，而是针对 AI 辅助开发中的四大典型失败模式（需求对齐错误、上下文冗长、代码不可用、架构熵增）给出工程化对策。核心包括：通过盘问式对话对齐需求的 /grill-me 与 /grill-with-docs；通过红-绿-重构循环保证代码质量的 /tdd；以及维护领域语言与架构的 /improve-codebase-architecture。项目强调“小、可适配、可组合”，适用于任何模型。适合希望将 AI 编码工具纳入严谨工程实践的一线开发者。

github.com · 14 min · Agents · AI Engineering · Claude Code

06-08

我的 Agentic 工程实战技巧（2026年6月版）

作者分享了在 Claude Code 与 Codex 上进行 Agentic 工程的 22 条实战技巧。核心是“先规划后执行”：用 /ce-plan 生成 plan.md 约束 AI，人只需略读或提问，而非阅读全文。具体包括：以语音（Monologue/Wispr Flow）替代键盘输入，利用 LLM 理解不完美转录；在 cmux 中同时打开 4-6 个标签页，各自运行独立 Agent 任务；设终端默认启动为 Claude Code，跳过所有权限提示并以声音提醒任务完成；通过 AgentMail 为 Claude 配置邮箱，实现远程邮件触发新会话；用 last30days 在规划前并行搜索社区、视频和新闻，获取实时信息；将重复操作封装为可复用 Skill，持续扩展 Agent 能力。此外，他强调人类在循环中的核心价值是提供品味与方向，而非亲自编码，并警示 AI 开发成瘾的风险。全文包含大量可复制的配置片段与具体工具，适合重度使用 AI 辅助开发的工程师。

x.com · 28 min · Agent Infrastructure · Agents · AI Engineering

06-08

Claude Code 动态工作流实战：6 种模式与 14 步完整指南

本文系统梳理了 Claude Code 于 2026 年 5 月底发布的 Dynamic Workflows 功能。不同于手动串联 prompts 或编写死板的静态 harness，动态工作流让 Claude 为特定任务即时生成定制的 JavaScript 控制程序。文章从底层思维模型切入，解释了工作流如何从结构上解决单一上下文窗口面临的三类失效：智能体惰性（提前终止）、自我偏好偏差（无法客观验证自身输出）及目标漂移（长对话后丢失约束）。随后逐一拆解 6 种核心模式：分类后路由（classify-and-act）、扇出后综合（fan-out-and-synthesize）、对抗性验证（adversarial verification）、生成后筛选（generate-and-filter）、竞标赛排序（tournament）以及循环至完成（loop until done），并提供了实际的代码骨架。最后，文章展示了如何组合这些模式来解决迁移重构、深度研究、大规模分诊、代码评审等真实场景的问题，同时强调了使用 /goal、/loop 及 token 预算控制成本、用隔离模式防范来自不可信输入的提示注入风险、以及将成功的工作流保存并打包为 Skill 分发的实操技巧。适合已在使用 Claude Code 并希望突破单 agent 限制，处理长周期、高并行或需要严格校验的复杂任务的工程师阅读。

x.com · 17 min · Agents · AI Engineering · Anthropic

06-07

2026年6月第一周AI快讯：Claude限额翻倍、SpaceX IPO、微软模型数据翻车

本文汇总了6月第一周10条AI与科技行业动态。MiniMax M3大模型发布，以0.6美元/百万token的价格在编程跑分上超越GPT-5.5，但独立验证尚未出炉。DeepSeek完成约74亿美元首轮外部融资，宇树科技以73天闪电过会。Kimi Work、Coze 3.0与Qwen3.7-Plus在同一周发力Agent领域。豆包宣布收费，基础版永久免费。ChatGPT月活突破10亿，Codex推出Sites和岗位插件。Anthropic将Claude Cowork限额翻倍，并发布了Claude已撰写自家80%代码的报告，同时秘密提交IPO。英伟达在Computex 2026发布集成ARM CPU的RTX Spark超级芯片。SpaceX定于6月12日上市，谷歌披露了一份9.2亿美元/月的算力租用合同。微软自研推理模型MAI-Thinking-1发布仅3天，其声称的“干净数据”便被发现包含242亿页Common Crawl数据，同时GitHub Copilot转为按量计费后，部分开发者月账单飙升至3000美元。文章是典型的行业信息简报，适合需要快速了解一周重大技术动态的工程师和从业者。

mp.weixin.qq.com · 7 min · AI Engineering · AI Industry · Cost Optimization