Glean 拾遗
← 所有期号
#004 最新 6/15–6/21 6 月 21 日发布

从富士康到软件工厂:智能体架构的范式跃迁

本周的 picks 共同指向一个核心张力:当 AI 模型的智能以指数级增长时,我们的系统架构却常常还停留在“用海量代码控制不听话模型”的旧纪元。Garry Tan 的系列反思如同一枚炸弹,揭示了“薄封装、厚技能”的新范式,并用 810 倍的产出数据和自进化技能系统证明了这是一条可行的路。与此同时,Anthropic 的 40 万会话分析、CREAO 的云端沙箱经验、以及 Hermes Agent 和 Factory 2.0 的工程实践,从不同角度印证了同一趋势:过去我们为每个 Agent 建造孤岛式的“富士康”,现在需要的是能跨平台、自进化、可组合的“软件工厂”。这期周刊就是关于这场正在发生的范式跃迁——从质疑裸模型到构建系统,从重框架到轻技能,从单体 Agent 到可插拔生态。

21 篇 4 章 约 5 小时
章节 01

旧范式之殇:裸模型与富士康工厂

5 / 21
x.com · 18 min
01

裸模型正是更蠢:停止测试裸模型,开始构建系统Imagine Naked People Were Stupider. Naked Models Are.

YC合伙人Garry Tan回应Kyle Kingsbury反AI长文,指出Kingsbury测试裸模型的行为如同在台架上测试引擎便断定汽车不安全。文章详细阐述了“薄控制层、厚技能文件”架构:用技能文件(可复用Markdown流程文档)约束模型输入,用解析器(路由表)分派任务,用确定性代码执行精确操作,用测试覆盖整个管线而非裸模型。作者以浴室渲染、股票数据幻觉等Kingsbury案例为例,说明通过架构可将不可靠的模型转化为可靠系统,并分享自身OpenClaw通过显式路由将文件错置率从10/13降至0的经验。文章最后将AI比作汽车:让汽车安全的是安全带、交通灯等系统工程,而非对引擎的怀疑。适合所有正在构建或评估AI系统的工程师阅读。

x.com · 14 min
02

别再为你的 AI Agent 建造富士康工厂了Stop building Foxconn factories for your agents

本文是 Garry Tan 对自己构建 54 万行 Rails 代码的深刻反思。他用富士康工厂比喻当前 AI Agent 开发的主流模式:用海量代码、测试和重试逻辑去过度束缚和控制一个本已高度智能的模型。他提出核心论点:模型调用成本急剧下降,智能程度大幅提升,旧的经济学已经反转。新的范式是“即时软件”和“技能包”,用精简的 markdown 指令和少量 TypeScript 代码替代厚重的工程框架,让 Agent 在自由中发挥最大价值。文章提供了具体案例——一个黑客松评审 Agent 如何在一个下午内用极少的代码完成了从前需要整个软件项目才能实现的功能。文章适合那些正在用 AI 编程但仍在沿用传统软件工程量度(代码行数)和架构思维的工程师阅读,它挑战了根深蒂固的“不信任模型”的本能,并指明了“代币最大最优”的先发优势。

x.com · 18 min
03

解析器:智能系统的路由表,而非填鸭式上下文堆砌Resolvers: The Routing Table for Intelligence

作者以自身构建个人智能代理系统的深度复盘,指出决定系统能否持续进化的核心并非模型或技能本身,而是常被忽视的“解析器”(Resolver)。文章通过一个错归档案例揭示了硬编码路径如何导致知识库沦为垃圾抽屉,并通过“技能可达性孤岛”问题说明缺乏路由会制造“能力已存在但无法调用”的假象。核心论点是:解析器是一个用于上下文分发的路由表,能将2万行的臃肿指令压缩为200行决策树,通过“文件归档规则”、“触发词评估”和“可解析性检查”等模式防止系统漂移。作者进一步将这一技术模式类比为组织管理中的经理层,并开源了包含全套解析器模式的个人微Agent系统GBrain。适合正在长时间维护多技能Agent系统,并遭遇知识索引失效、模型注意力退化的工程师阅读。

x.com · 12 min
04

LOC 争议的数学与数据:一次 810 倍的开发者输出实证On the LOC controversy: doing the math on a 810x developer output increase

Y Combinator 首席执行官 Garry Tan 回应了关于他近期声称“60 天内交付 60 万行生产代码”的广泛质疑。文章首先承认 LOC 是糟糕的生产力指标的合理性,引用了 Dijkstra 和 Gates 的经典批评。随后,他通过一套自研脚本,对比了自己 2013 年(兼职开发,日均 14 逻辑行)与 2026 年(同样在 YC 全职工作之余,日均 11,417 逻辑行)的代码产出。即使施加逻辑去噪和 2 倍 AI 冗余系数双重压缩,2026 年的日均产出仍达 5,708 行,是 2013 年的约 408 倍。文章进一步公开了代码质量数据:2.0% 的回滚率、6.3% 的修复提交比、从 100 个增长到 2000 多个的测试用例,并介绍了其产品 GStack 内置的浏览器自动化测试 /qa 命令和外部工具 slop-scan 的代码冗余评估。Garry 强调,核心变化不是他编程能力变强,而是 AI 将“想法到产品”的周期从三周压缩到三小时,并指出任何人都可以复现这一数据。适合对 AI 辅助工程效能、开发者生产力度量及工程文化感兴趣的读者。

www.anthropic.com · 27 min
05

从40万Claude Code会话看:领域专长是智能体编程成功的关键Agentic coding and persistent returns to expertise

Anthropic基于约40万次Claude Code会话的分析显示,用户主要负责规划,Claude负责执行,领域专业知识而非编码技能是成功的关键。专家级会话的验证成功率是初学者的两倍多,但中级用户已能获得大部分成效;非软件职业编码成功率与软件工程师仅差约5个百分点。七个月内调试会话占比从33%降至19%,端到端任务(部署、数据分析、文档写作)比例上升,平均任务价值估计上升约25%。报告给出了决策归因、专业知识评级与成功验证的方法论,并指出局限性。适合关注AI编码工具、智能体协作与技能迁移的工程师与研究者。

章节 02

新架构宣言:薄封装、厚技能、自进化

6 / 21
x.com · 12 min
06

薄封装,厚技能:用五个概念构建自进化的 AI 代理系统Thin Harness, Fat Skills

YC 合伙人 Garry Tan 提出一套区别于“更好模型”的 AI 代理架构理念:代理的瓶颈不是模型智能,而是对上下文和过程的管理。他用五个核心概念来定义这一架构:Skill files(以 Markdown 写成的可复用过程文件)、Harness(精瘦的运行与上下文管理循环)、Resolvers(上下文加载路由表)、Latent vs. deterministic(智能与确定性工作的严格边界划分)以及 Diarization(从非结构化信息中提取结构化的分析简报)。这套理念的实战体现是 YC Startup School 的匹配系统——用同一套技能文件的不同参数调用,完成分组、午餐配桌和实时匹配,并能通过分析“还行”的反馈自动重写技能规则,实现系统自进化。文章为一线工程和产品团队提供了具体可操作的代理设计原则,尤其适合正在构建 AI 工作流、需要平衡模型能力与系统可靠性的工程师。

x.com · 22 min
07

把每次 Agent 犯错变成永久的结构性免疫Skillify: turn every agent failure into a permanent structural fix

Garry Tan 提出“Skillify”方法论:每次 AI Agent 犯错,不靠道歉或提示词修补,而是将其转化为一项带完整测试链的 Skill。文章以两个真实故障(日历查询绕过本地脚本、时区心算偏差)为例,展示如何将失败固化为 SKILL.md 契约加确定性脚本,并引入涵盖单元测试、集成测试、LLM eval、解析器触发与校验、可达性审查、冒烟测试等十步清单的验证体系。该流程已集成于作者的开源知识引擎 GBrain 中,确保 Agent 的每一次判断提升都是永久且可验证的。适合正在构建 AI Agent 并受困于同类错误反复出现的开发者。

x.com · 4 min
08

为 Agent 技能构建自我改进循环:内外部循环与云代理实战How to build a self-improvement loop for your Skills

本文展示了如何通过内外部 Agent 循环让 Skills 实现自我改进。内循环在每次新建 GitHub Issue 时通过 GitHub Action 触发云代理,运行分类技能并打标签。外循环每天运行一次,检查所有人工修正的标签和评论,自动生成 diff 更新技能文件,并合并回主分支。作者以 issue triage 为例,使用 Warp 的 Oz 云代理平台给出完整配置和代码示例,并提供了可复现的示例仓库。该方法适用于代码审查、Bug 修复、事件响应等场景。适合正在构建 AI Agent 并希望技能持续优化的工程师。

x.com · 20 min
09

将 agent harness 拆解为可独立替换的 workers:iii 引擎的架构实验Decomposing the agent harness into swappable workers: the iii engine architecture

作者 Mike Piccolo 提出了一个观点:当前主流的 agent 框架(如 LangGraph, CrewAI)将循环、工具、记忆、审批等职责捆绑为一个整体,导致团队后期不得不重写整个 harness。他介绍了 iii 引擎的 worker 架构,将 agent 运行所需的 13 项职责(凭证解析、策略检查、会话持久化、预算追踪等)拆分为 11 个独立的 worker。每个 worker 通过同一个 WebSocket 原语(iii.trigger) 在总线上注册函数和触发器,能够像积木一样被单独添加、移除或替换。文中用生产环境的实例拆解了从 API 请求到 turn 状态机、流式响应、工具调用审批、预算记账和 OpenTelemetry 追踪的全链路,并给出了替换模型目录、新增模型供应商、私有 skill 存储、自定义审批界面等 5 个具体替换案例。核心论断是:agent harness 不应是一个需要被 fork 的单一框架,而应是一组可组装、独立版本化的 worker 合集,使架构从“选边站”的厚薄之争,变为一个可由配置文件滑动调节的连续体。本文适合在自建 agent 系统中遇到框架边界限制,或对松耦合 agent 基础设施设计感兴趣的后端工程师。

github.com · 8 min
10

Claude 官方实践手册:从 RAG 到多模态 Agent 的工程配方集Claude Official Cookbooks: Engineering Recipes from RAG to Multimodal Agents

Anthropic 官方维护的 Claude 实践指南集合,以 Jupyter Notebook 形式提供可直接运行的代码示例。项目覆盖从基础能力(分类、摘要、RAG)到进阶玩法(多模态视觉、工具调用、子 Agent 协同)的完整配方,尤其适合需要将 Claude 集成到生产环境的工程师快速上手。近期新增 Claude Agent SDK 与 Managed Agents 系列,展示了单行代码构建研究助手、SRE 助手等可观测、可托管的 Agent 架构。

github.com · 11 min
11

Hermes Agent:自我进化的跨平台 AI 智能体运行时Hermes Agent: A Self-Improving, Multi-Platform AI Agent Runtime

Hermes Agent 是一个自我完善的 AI 智能体框架,内置学习闭环:它从对话中提取技能、持续优化、自动管理记忆,并通过统一网关在 Telegram、Discord、CLI 等多个平台提供一致的交互体验。支持任意 LLM 后端,可部署在低成本 VPS 或 serverless 环境上,闲置时几乎零成本。内置 cron 调度、子智能体委派等功能,也提供批量轨迹生成用于语言模型训练。适合需要长期运行、自主调度的工程师和研究者。

章节 03

让记忆与上下文流动:跨 Agent 的基础设施

6 / 21
x.com · 7 min
12

别再给每个 Agent 单独开颅了Stop Giving Every Agent Its Own Skull

Pejman 在个人实践中发现,我们正在把人类“知识孤岛”的缺陷重新构建进 Agent 系统。他同时使用 OpenClaw(个人助理)、Codex(编码)和 Claude Code(设计写作),每个 Agent 都拥有一片关于“我”和项目的不完整拼图。最关键的上下文并非留存于 Git 仓库的固化产出物,而是会话本身:争论、走过的死胡同、被剪除又可能复用的想法分支。将这些有价值的“记忆单元”锁在各自的 Agent 中,割裂不仅存在于概念层,也体现在物理层:不同机器、不同文件系统、不同的本地状态。文章指出,统一、可共享的记忆层是下一阶段的关键缺口,并提及了 GBrain 和 CASS 等在这方面的探索。适用于正在构建或重度使用多 Agent 工作流的工程师阅读。

github.com · 14 min
13

面向 AI 时代的全栈记忆引擎:自动提取、持续更新、智能遗忘Persistent Memory Engine for AI: Auto-Extract, Update, and Forget Intelligently

Supermemory 是一套为 AI 应用和 Agent 设计的记忆与上下文引擎,提供 API、MCP 服务、浏览器插件和 Web 应用。它解决了大模型对话间记忆丢失的问题,能自动从对话中提取事实、构建用户画像、处理知识更新和矛盾,并支持智能遗忘过期信息。项目集成了混合搜索(RAG+记忆)、文件解析和多款 SaaS 连接器,让开发者用单一接口即可为应用注入持久化、个性化的上下文能力。适合正在构建 AI Agent、需要完整记忆层的工程师,也适合希望个人 AI 工具具备跨会话记忆的用户。

github.com · 18 min
14

AI 代理上下文压缩层:60%-95% Token 削减,不丢失关键信息The Context Compression Layer for AI Agents: 60–95% Fewer Tokens, Zero Accuracy Loss

Headroom 是一个本地运行的 AI 代理上下文压缩工具,旨在显著降低 LLM 使用成本与延迟。它在工具输出、日志、RAG 数据块及对话历史到达大模型前进行智能压缩,支持 JSON、代码和自然语言等多类内容。项目提供库、代理、MCP 服务器和代理包装器四种集成模式,通过内容路由选择最优压缩算法,并具备可逆压缩(CCR)机制确保原始数据不被丢弃。它还包含跨代理记忆共享和从失败会话中学习的 `headroom learn` 命令,适合每天高强度使用编程代理的工程师和任何需要优化 LLM Token 消耗的系统。

github.com · 18 min
15

为 AI Agent 打造的本土上下文压缩层:库、代理、MCP 一应俱全A Local-First Context Compression Layer for AI Agents: Library, Proxy, and MCP in One Stack

Headroom 是一个本地运行的上下文压缩层,专为 AI 编码智能体设计。它能在 LLM 收到工具输出、日志、代码文件或 RAG 结果之前,对这些内容进行高保真压缩,在保持答案准确性的前提下,将 Token 消耗降低 60-95%。项目提供了库(Python/JS)、透明代理、命令行 wrap 和 MCP 服务器四种集成方式,无缝适配 Claude Code、Cursor、Codex 等主流智能体。其核心思路是结合 JSON 结构压缩、AST 感知代码精简与本地微调模型,并独创了 CCR 可逆压缩机制,确保原始信息随时可召回,避免了压缩带来的信息丢失风险。该工具适合重度依赖智能体编程、希望在不修改现有工作流的情况下显著降低 API 开销的工程师。

x.com · 10 min
16

从桌面到云端:为 AI Agent 构建基础设施时我们学到的两课Building cloud agent infrastructure: what's different, and what we learned

本文为 CREAO 团队分享的一线实践经验,聚焦于将 Agent 从个人桌面迁移至云端多租户沙箱时所必须面对的核心架构差异。文章核心论点有二:其一是必须将变化速率不同的组件(用户环境与平台运行时代码)解耦,通过快照冻结用户环境,并设计了一个约 300 毫秒的原子热插拔流程来更新运行时代码,从而在不破坏用户状态的前提下实现平台高频部署;其二是严格将凭证隔离在执行边界之外,采用网络层 IP 白名单与每次运行签发的短生命周期 JWT 双重校验,通过一个运行在沙箱外的主机侧 API 桥接器注入密钥,确保即使沙箱内代码被完全攻破,攻击者也无法获取长期凭证。文章提供了具体的命令、校验序列和实施细节,适合正在将 Agent 产品化的后端与基础设施工程师阅读。

claude.com · 32 min
17

Anthropic 用 Claude 打造自助分析智能体的堆栈设计与故障应对Anthropic's Analytics Agent Stack: Tackling Entity Ambiguity, Staleness, and Retrieval Failure

Anthropic 数据团队分享了如何使用 Claude 实现 95% 自动化、约 95% 准确率的企业自助分析。文章指出分析准确性的核心不是 SQL 生成,而是上下文与验证——具体表现为三个主要故障模式:概念与实体歧义、数据过时、检索失败。为此他们构建了四层智能体数据堆栈:数据基础(规范数据集与严格治理)、真相来源(语义层、血缘关系、查询语料、业务知识图谱)、技能(知识技能与非技能,将准确率从不足 21% 提升到 95% 以上)和验证(离线评估、对抗性审查、在线监控)。文中给出了技能文件骨架、参考文档模板、评估方法等可直接参考的实践,并讨论了 colocation、元数据治理、错误案例收集等工程化手段。适合正在构建或优化 LLM 驱动的数据分析系统的数据工程师、分析师和工程经理。

章节 04

从个人到企业:规模化实战与行业影响

4 / 21
x.com · 5 min
18

Factory 2.0:从编码代理到自进化的软件工厂Factory 2.0: From coding agents to software factories

Factory 宣布 2.0 版本,将产品定位从个体 AI 编码代理升级为端到端的“软件工厂”。文章提出,仅提升单个工程师效率已不足够,企业需要构建一个由 AI 代理驱动、可自观测、自改进的闭环系统,覆盖从缺陷、客户反馈到计划、构建、测试、审查、安全、部署、监控的全生命周期。核心设计原则包括:模型独立性,允许企业按成本、性能、速度为不同任务选用模型或通过 Router 自动选择;主权智能,数据和控制平面可部署在从云到完全离线环境的任何位置,所有代理会话、代码审查和事故处理经验都会反哺系统;持续学习与自改进,各阶段共享同一代理核心、路由器和组织上下文,让安全发现影响代码审查,部署触发文档更新,事故关联到引发 PR。文章列出 NVIDIA、EY、Adobe、Palo Alto Networks 等企业客户已在生产环境中运行软件工厂,并强调自主性是一个渐进成熟过程,通过简单 Droid 代理、技能、自动化协作、Droid Computers 以及多代理并行 Missions 满足不同人的参与度、信息敏感性和代理就绪度要求。适合关注企业级 AI 工程化、代理架构和研发效能提升的工程师与管理者阅读。

x.com · 5 min
19

前沿模型若无生态系统,便不稳定A frontier without an ecosystem is not stable

Satya Nadella 提出,AI 经济中企业的未来在于构建将人力资本与 AI 能力(token 资本)融合的复合学习闭环。他认为真正的机会不在于选择最佳模型,而在于建立一套能持续吸收机构知识的智能体系统,使企业能独立于模型迭代,保留并增值其专有 IP。文章警告称,若价值仅由少数模型摄取,将引发严重的社会经济反弹,强调必须构建一个让价值广泛流动的前沿生态系统,而非仅关注单一前沿模型。本文适合关注 AI 战略、企业架构及平台经济的高层决策者与技术领导者阅读。

mp.weixin.qq.com · 1 min
20

Kimi Code 搭配 K2.7 Code 实战测评:能替代 Claude Code 吗?Kimi Code + K2.7 Code Hands-On: Can It Replace Claude Code?

作者上手实测了 Kimi Code 编程代理及其默认模型 K2.7 Code,验证其对 . 核心测试包括:利用视频理解能力复刻水墨动画效果、使用 /goal 命令自主将 2.1MB 图片压缩至 120KB 以下、以及多道网页 UI/动画/游戏编程题。体验表明,Kimi Code 的命令体系与 Claude Code 高度兼容,权限机制也几乎相同。/goal 命令可实现完全无人干预的自动化任务。K2.7 Code 的基础代码能力稳定,且官方称其推理 Token 消耗较上版平均降低 30%。此外,Kimi Datasource 插件通过自然语言即可查询股票、财报、论文等实时数据,无需额外注册数据账户。适合希望评估国产编程代理能否在工作流中替代 Claude Code 的开发者阅读。

github.com · 28 min
21

面向 AI Agent 的结构化网络安全技能知识库A Structured Cybersecurity Skills Library Purpose-Built for AI Agents

这是一个专为 AI 编程与安全助手设计的结构化网络安全技能库,并不是传统的脚本合集或渗透测试工具包。项目包含 754 个可执行的安全技能,覆盖 26 个安全领域,每项技能都用 YAML 前置元数据和分步骤的 Markdown 工作流编码了资深分析师的决策逻辑。核心价值在于把从业者的隐性知识转化为 AI 能直接发现、加载和执行的标准化指令,让通用大模型在网络安全调查中具备专家级操作能力。所有技能都映射到了 MITRE ATT&CK、NIST CSF 2.0 等五大威胁与治理框架,适合希望将 AI 智能体引入安全运维、事件响应和威胁狩猎等一线工作的工程师和研究员。