Glean 拾遗
← 所有期号
#002 最新 6/1–6/7 6 月 7 日发布

当 Agent 有了自己的时间表:从保姆式提示到设定即忘

本周,AI 编程正越过一道关键分水岭。标题里的“Agent”不再只是一个能聊天的窗口,而是开始带有动词的时态——它获得了持续运行、自我编排与独立交付的能力。从 Anthropic 工程师揭示的动态工作流,到 Cursor 云上 Agent 贡献了 35% 的内部合并请求,再到 Kimi 用 300 个微型智能体并行输出真实文件,我们看见的不再是“人写提示,AI 吐代码”的单次交易,而是一个开发者设定目标与约束、AI 组织并调用资源、最终返回可直接评审成品的生产闭环。这个转变的代价是控制模式的彻底重构:你的角色从司机变成了调度员,对架构、记忆和 token 预算的理解变成了新的硬技能。本期拾遗,我们沿着“如何管好一个能自己干活的智能体”这条主线,为你拆解其中的编排蓝图、记忆策略和反直觉的工程陷阱。

30 篇 6 章 约 6 小时
章节 01

调度即代码:当 AI 学会自己写剧本

6 / 30
x.com · 9 min
01

Claude Code 自主运行完全指南:/goal、/loop、/schedule 与 Stop HookThe Complete Guide to /goal, /loop, /schedule & Stop Hooks in Claude Code

本文详述了 Claude Code 四种让 AI 脱离手动引导的自主运行命令。/goal 设定完成条件,每轮由轻量模型自动评估是否达成,直至条件满足;/loop 按固定时间间隔循环执行;/schedule 创建独立于会话的后台定时任务;Stop Hook 则支持自定义脚本或条件判断,实现“测试不绿不停止”。文中给出了明确的模板、好/坏条件示例、与 Auto 模式配合实现完全无人值守的方案,并对比了各命令的适用场景,帮助开发者从“每步提示”转向“设定即忘”的工作流。

x.com · 5 min
02

Claude Code 的 /goal 命令:告别手动“继续”,让 AI 自主完成编码任务Claude Code /goal: Autonomous Task Completion Without Babysitting

Claude Code 新增的 /goal 命令可以让 AI 助手持续运行,直到满足你设定的完成条件,无需反复输入“continue”。作者详解其工作原理:每轮结束后,一个轻量评价模型(默认 Claude Haiku)自动检查对话记录,若目标未达成则立即启动下一轮。成功的关键在于写出具体、可衡量且能从输出中验证的目标(例如“所有测试通过且 lint 干净”)。文章还给出了项目准备建议(创建 CLAUDE.md、配置 hooks、开启 Auto Mode),并警告模糊的目标会导致 token 浪费和评价幻觉。最后对比了 /goal 与 /loop、stop hooks 的适用场景。适合所有希望摆脱 AI 编码中“逐轮监督”的开发者。

x.com · 15 min
03

Claude Code 动态工作流:让 AI 自动编写任务专用的编排脚本A harness for every task: dynamic workflows in Claude Code

Anthropic 工程师 Thariq Shihipar 介绍了 Claude Code 新增的动态工作流功能,允许 Claude 在运行时自动生成定制的 JavaScript 编排脚本来协调多个子智能体。文章详细阐述了为什么需要绕过单上下文窗口的局限性,如智能体惰性、自我偏好偏差和目标漂移,并给出了分类-执行、扇出-聚合、对抗验证、锦标赛等具体的编排模式。作者通过迁移重构、深度研究、大规模分类、根因分析等真实用例展示了该功能的适用场景,同时诚实地指出动态工作流会增加 token 消耗,并不适合常规编码任务。文中还提供了组合使用 /goal、/loop 命令以及设置 token 预算的操作性建议,适合希望突破单一智能体能力边界的一线工程师阅读。

claude.com · 19 min
04

多智能体协调五模式:选型指南与权衡Multi-Agent Coordination Patterns: Five Approaches and When to Use Them

本文系统梳理了五种多智能体协调模式:生成器-验证器、编排器-子代理、代理团队、消息总线、共享状态。每种模式都给出了工作机制、适用场景和已知瓶颈(如验证器品质依赖标准、编排器成为信息瓶颈、代理团队需要任务独立、消息总线调试困难、共享状态可能陷入反应循环)。文章强调从最简单的模式开始,观察瓶颈后再演进,并提供了模式间的对比决策指南(比如按子任务持续时间选择编排还是团队、按工作流可预测性选择编排还是消息总线)。适合正在构建多智能体系统的工程团队。

x.com · 11 min
05

Claude 子代理 vs 智能体团队:多智能体架构该如何选Claude Subagents vs. Agent Teams, explained

文章对比了 Claude 多智能体系统的两种范式:子代理(sub-agents)是即发即忘的短时工作单元,拥有独立上下文与工具,仅返回压缩结果,适用于可极致并行的独立任务;智能体团队(agent teams)则是长期运行、可直连通信、通过共享任务列表协调的协作模式,适合需要持续协商的场景。作者给出了基于上下文边界的设计原则、五种常用编排模式,并明确了何时不应使用多智能体系统:当任务简单或上下文需要频繁共享时,单智能体往往更优。文中包含 Python SDK 示例与失败模式分析,面向正在构建或评估智能体系统的工程师。

jacobharr.is · 26 min
06

我为什么拒绝‘氛围编程’Why I Don’t Vibe Code

作者从吝啬、老派、热爱混乱等角度解释为何拒绝‘氛围编程’。他引用布鲁克斯的‘没有银弹’理论,指出LLM无法处理本质复杂性,并用DOGE误读社保数据库为例,说明缺乏质疑的数据分析之害。强调摩擦是架构反馈,编程乐趣在于过程与责任。兼谈AI伦理与就业忧虑。本文适合对AI编程持批判态度、关注软件开发人文维度的工程师阅读。

章节 02

代理骨骼:解剖生产级 Agent 的 12 个零件

5 / 30
x.com · 19 min
07

Agent Harness 解剖:构建生产级 Agent 的 12 个组件The Anatomy of an Agent Harness

本文深入剖析了驱动现代 AI Agent 的核心基础设施——Agent Harness(代理框架)。作者综合 Anthropic、OpenAI、LangChain 等一线实践,梳理出生产级 Harness 的 12 个组件:编排循环、工具、记忆、上下文管理、提示构建、输出解析、状态管理、错误处理、护栏、验证循环、子代理编排。文章强调,Harness 才是 Agent 性能的真正瓶颈:LangChain 仅改变 Harness 便使 TerminalBench 排名提升 20+ 位;Claude Code 通过精心设计的记忆分层实现 95% 的上下文缩减。适合正在构建或优化 Agent 系统的工程师阅读,避免重蹈“模型强但系统弱”的覆辙。

x.com · 20 min
08

用可替换 Worker 构建你自己的 Agent 控制框架——iii 架构详解How to build your own agent harness???

iii 提出了一种不同于 LangChain 等 Agent 框架的架构:将 Agent 运行所需的 15 项职责拆分为独立的 Worker(如 turn-orchestrator、auth-credentials、policy、approval-gate 等),每个 Worker 通过 WebSocket 连接到同一引擎,注册函数与触发器,通过 iii.trigger() 共享总线通信。这种设计使得每一层都可独立替换——想换模型目录就写一个注册 models::list 的 Worker,想加新提供商就写一个注册 provider::<name>::stream 的 Worker,无需修改其余堆栈。文章详细展示了从 turn 请求到 function execute、approval、streaming 的完整循环,以及每个 Worker 的职责和替换示例。整个堆栈开源(github.com/iii-hq/workers),支持任何语言编写 Worker。适合正在搭建或受困于现有框架的 Agent 团队阅读。

engineering.leanix.net · 7 min
09

为什么你的AI代理被工具淹没(以及代码模式如何拯救它)Why Your AI Agent Is Drowning in Tools (And How Code Mode Saves It)

文章指出AI代理通过MCP集成大量工具时,容易陷入上下文膨胀和工具幻觉。50+工具可能占据5-7%的上下文窗口,导致多工具混淆。传统方案包括代理端过滤和MCP端精简,但各有局限。代码模式通过让LLM编写代码来搜索和执行工具,大幅减少令牌消耗,支持复杂控制流,同时引入调试和基础设施成本。以Cloudflare及Anthropic的实现为例,强调核心在于回归用例,维护合理工具集,而非追求魔数。

x.com · 11 min
10

构建生产级长时间运行AI Agent的5种设计模式5 Agent Design Patterns for Long-running AI Agents

Google Cloud 分享了构建最多存活7天的AI Agent的5种设计模式:检查点恢复(按批次持久化进度)、委托审批(暂停时零资源消耗、秒级恢复)、分层记忆治理(记忆银行、记忆档案、代理身份/注册表/网关防漂移与泄露)、环境感知处理(事件驱动代理,策略外化至网关免重部署)、舰队编排(独立部署专精代理,故障不级联)。每种模式包含ADK代码示例与架构图,并讨论了生产化挑战如记忆漂移和策略外化。面向需要将Agent从对话机器人扩展为自主工作者的开发者。

x.com · 8 min
11

构建 Claude Code 的教训:提示缓存就是一切Lessons from Building Claude Code: Prompt Caching Is Everything

Anthropic 工程师分享 Claude Code 中优化提示缓存的实际经验。提示缓存基于前缀匹配,缓存从请求头到每个 breakpoint 的内容,因此 prompt 各部分的顺序至关重要:遵循“静态在前、动态在后”原则,能最大化跨会话的缓存命中。文章给出多条反直觉教训:用消息传递更新信息而非修改系统提示;不要在会话中切换模型或增减工具,这会立刻导致缓存全部失效;压缩(compaction)时复用父会话前缀避免缓存丢失。每条建议都附带具体实现策略(如 system-reminder 标签、EnterPlanMode/ExitPlanMode 作为工具、defer_loading 机制)。适合正在构建长运行 Agent 产品的工程师参考。

章节 03

持久记忆:打造随取随用的 AI 工作系统

7 / 30
x.com · 10 min
12

为 Agent 而设计:交互模式翻转与三条实践原则Designing for Agents: Patterns, Feedback, and Context

Ramp 的 MCP 周活用户三个月增长 10 倍,Salesforce 发布 Headless 360 宣告 UI 不再是必备——软件交互的 80% 正转向 Agent。文章提出新的交互模式:用户→用户 Agent→软件 Agent→数据库,并给出三条给产品团队的实践原则:主动向调用方 Agent 提供成功所需上下文(如 Notion MCP 预加载 Markdown 规范);通过 rationale 参数、反馈工具和种子数据建立 Agent 交互的观察与改进闭环;在 Agent-to-Agent 交互中,明确双方各自持有的上下文优势,填补信息鸿沟。适合正在为 Agent 接口设计产品的工程师和产品经理。

x.com · 8 min
13

Andrej Karpathy 亲述:99% 的 AI 用户不知道的 7 个基本功Andrej Karpathy says 99% of AI users miss 7 basics. Full breakdown.

OpenAI 联合创始人、前 Tesla AI 负责人 Andrej Karpathy 认为,多数 AI 用户的瓶颈不是模型或提示词,而是缺少一套围绕模型构建的系统。本文拆解了他的 7 条实操铁律:不要纠结“魔法提示词”,必须喂足上下文;认真定制 CLAUDE.md;用 /raw、/wiki、配置文件搭建三层记忆结构;把每次满意的输出永久保存为引用页;长项目必需 index.md 和 log.md;把 AI 当成无品位的超级实习生,用小步验证循环;以及一句将研究输出转化为可导航 HTML 的指令。适合总在调提示词却拿不到稳定产出的工程师,用半天搭好这套基础,AI 才能真正为你工作。

x.com · 15 min
14

用21条指令写好 CLAUDE.md,让 Claude 记住你的偏好不再从零开始Turn Claude into a Consistent Assistant with CLAUDE.md: 21 Essential Instructions

每次开启新的 Claude 会话都会丢失全部记忆和偏好,导致重复解释、输出风格不稳定。CLAUDE.md 是一个永久指令文件,Claude 在会话启动时自动读取,可以持久化你的背景、写作风格、行为规则和记忆。本文给出了 21 条实战指令,涵盖对话风格、行动限制、个人上下文、跨会话记忆和开发者专属规则,用具体示例说明如何从零开始搭建你的 CLAUDE.md。适合所有重度使用 Claude 的用户,尤其是需要保持输出一致性的开发者和内容创作者。

x.com · 5 min
15

让Claude Code更懂你:写好CLAUDE.md的8条实战经验8 proven tips for crafting a CLAUDE.md that truly understands your project

本文总结了8条通过优化CLAUDE.md让Claude Code更契合项目的实战经验,包括:将文件长度控制在200行内以避免信息过载;用“禁止引入的库”清单替代仅列出技术栈;制定可操作、可验证的编码规则(如使用named export、禁用any类型);将CLAUDE.md作为信息路由而非知识库;在敏感模块(如认证、支付)本地化配置;通过Hook强制执行而非依赖记忆;用MEMORY.md实现跨会话知识迁移;以及预先定义工作风格以减少重复指令。这些原则源自一线实践,附带具体代码示例和对比,适用于所有使用AI编程助手的工程师。

x.com · 13 min
16

用 Claude 和 Obsidian 搭建 AI 第二大脑:从零到可用的完整教程Building an AI Second Brain with Claude and Obsidian: The Complete Tutorial

这是一份实操教程,教你如何让 Claude 连接 Obsidian 笔记库,构建一个能基于你自己的笔记进行检索、推理和综合的 AI 知识引擎。文章给出了具体的文件夹结构(PARA 法)、为 AI 优化笔记的设计原则、三种 Claude 接入方案(Project 上传、Claude Code 直读、MCP 服务),以及五个立即可用的自动化工作流(周报、研究综合、想法连接、知识盲区发现、每日简报)。适用愿意花时间建立个人知识库的开发者、研究者或知识工作者。

x.com · 17 min
17

Claude 额度总爆?23 个省 token 习惯,每月只超限一次How to Stop Hitting Claude Usage Limits: 23 Token-Saving Habits

个人实操总结 23 条 Claude 省 token 习惯:上传前转文本、用 Chat 规划再进 Cowork、编辑消息替代追加、语音输入减少轮次等。依据 Anthropic 文档与实测数据(如单页 PDF 消耗 1500–3000 token),帮助 Claude 付费用户大幅降低额度消耗,从每天超限降至每月一次。适合 Claude/Anthropic 重度用户。

x.com · 16 min
18

Meta-Meta-Prompting:Garry Tan 如何用 AI 构建真正运转的第二大脑Meta-Meta-Prompting: The Secret to Making AI Agents Work

YC 首席执行官 Garry Tan 以第一人称视角详述了其累计 10 万页、100 余个技能的 AI 智能体系统 GBrain 的构建历程与核心架构。文章反驳了将 AI 视为聊天窗口的浅层用法,提出“瘦胶水、胖技能、胖数据”的设计哲学:以 OpenClaw 等轻量级运行体作为调度层,将可复用的工作流封装为自包含的技能(skill),并通过一个名为 Skillify 的元技能来迭代创建新技能。文中以“书籍镜像”工作流(将书中观点映射至个人人生经历)为例,展示了从最初包含事实错误到引入多模型交叉校验、深度检索的演进过程,以及会议预演、实体传播等场景如何依赖持续增长的上下文图谱实现自动化。全文提供具体的架构说明、代码仓库链接与启动指南,适合希望构建可不断增值的个人 AI 基础设施的一线开发者阅读。

章节 04

从实验到生产:落地案例中的冷酷真相

7 / 30
openai.com · 15 min
19

用 Codex 构建自改进税务 AI:生产反馈闭环实践Building self-improving tax agents with Codex

OpenAI 与 Thrive Holdings 联合为希腊克里特岛会计网络开发 Tax AI,基于 Codex 驱动自改进循环。系统处理 7,000 份税表,准确率达 97%,吞吐量提升 50%,将一位高级会计师的税务准备时间从 180 小时降至 15 小时。核心设计三支柱:从业者反馈、生产轨迹(从原始文件到最终申报的结构化流程)、Codex 迭代循环。以租赁房产表格为例,详细展示了从业者修正如何转化为评估目标,再由 Codex 分析根因并提出补丁。适合在专家知识密集型领域构建自进化代理的团队。

blog.cloudflare.com · 51 min
20

Cloudflare 多智能体代码审查实战:7 个专项 Agent 并行,30 天跑完 13 万次 reviewOrchestrating AI Code Review at Scale

Cloudflare 内部构建了一套基于 OpenCode 的 AI 代码审查系统,用专门的协调器管理最多 7 个领域 Agent(安全、性能、文档等),在 GitLab CI 中全自动运行。上线 30 天处理了超 13 万次审查,中位耗时 3 分 39 秒,平均成本 $1.19。文章深入剖析了插件架构、风险分级、断路器恢复、增量重审、提示注入防护等工程细节,并坦诚列出了架构感知、并发 bug 等当前局限。适合对 AI 辅助开发与 CI/CD 集成有实战需求的工程师阅读。

x.com · 12 min
21

不止写代码:Codex 持久线程、目标验证与自动化全景Getting the most out of Codex

本文展示如何将 Codex 从单一代码助理扩展为围绕持续性工作线程构建的多工具系统。读者将了解到:利用置顶线程与快捷键(Command-1~9)实现跨会话上下文保持;通过语音输入粗糙想法并交由 Agent 整理;使用中途干预(steering)和任务排队(queuing)在运行中调整方向;设置按心跳触发的线程自动化(如周期性检查 Slack/Gmail);以及定义带测试验证的长期目标(Goals)。此外,侧面板支持内联审阅各类制品,Obsidian 宝库作为共享记忆层记录跨线程决策。适合希望将 AI 助理深度融入日常工作流的工程师。

github.com · 9 min
22

多代理并行 IDE:在一个工作区同时调度 Claude Code、Codex 等 AI 编程代理A Multi-Agent IDE to Run Claude Code, Codex, and Others in Parallel Git Worktrees

Orca 是一个桌面和移动端 IDE,专为同时运行多个 AI 编程代理(如 Claude Code、Codex、Grok 等)而设计。它利用 Git 的 worktree 机制,为每个代理任务创建隔离的工作目录,避免 stash 和分支切换的繁琐。用户可以在一个界面里通过标签和窗格并行观察和控制各个代理的进度,内置了差异审查和简单的源代码管理功能,并能直接关联 GitHub Issues 和 PR。适合已经习惯用 CLI 代理辅助编码、需要同时处理多个功能或重构任务的开发者。

x.com · 4 min
23

Cursor 踏入 AI 编程第三纪元:云端 Agent 独立作业,内部 35% PR 来自机器The third era of AI software development

Cursor 团队回顾 AI 辅助编程的三个时代:从 Tab 自动补全,到同步式 Agent 交互,再到云端 Agent 独立完成数小时级任务的新阶段。内部已有 35% 的合并 PR 由云上 Agent 自主生成,Agent 用户数首次反超 Tab 用户。开发者角色正从逐行指导代码转变为定义问题、设置评审标准并同时调度多个 Agent。Agent 返回的不再是 diff,而是日志、录屏和实时预览等可直接评估的成品。

x.com · 12 min
24

300 个智能体,一个提示词,输出真实文件:Kimi 的隐藏利器Kimi's Agent Swarm: 300 agents, one prompt, real file outputs.

Kimi 的用户界面里藏着一个几乎没人用的功能:Agent Swarm。它不是一个问答聊天,而是一个多智能体编排系统——可以同时驱动最多 300 个领域专门化智能体并行工作,输出真实的文件(PDF、网站、数据集、代码等)。本文作者用具体案例展示了其杠杆效应:100 份定制简历、10 万字文献综述、30 个落地页,一次提示词完成,替代了价值 4 万至 10 万美元的专业人力。文章给出了 15 条实用规则,涵盖项目简报写法、输出格式设定、阶段划分、可复用 Skills 等,是一份从零到精通的实操手册。适合希望突破「一问一答」局限、用 AI 批量交付产品的工程师和工具使用者。

x.com · 7 min
25

Kimi K2.6 代理蓝图:一人团队的 8 万美元月收入公式The Kimi K2.6 Blueprint: One-Person Agency at $80k/Month

本文介绍使用 Kimi K2.6 搭建单人 AI 代理公司的完整方法。Kimi K2.6 采用 MoE 架构,总参数 1 万亿,激活 32B,SWE-Bench 得分 65.8,内置工具调用。其 Agent Swarm 可并行运行 300 个子代理,单次运行产出 100+ 文件。作者提供了一套操作路径:技术栈包括 Kimi API、CLI、Swarm、MCP 服务器、n8n;服务线包括获客系统、知识库、客服自动化等;客户获取通过监控招聘信息并自动生成个性化方案;成本模型显示月开销 $500,月利润可达 $72k-75k。整体偏向营销风格,营收数据未经验证。

章节 05

信号与噪声:本周的底层脉络与思想快照

3 / 30
tw93.fun · 2 min
26

AI 放大的是输出,不是输入:如何用 /learn 流程深入学习一个技术领域AI Amplifies Output, Not Input: My /learn Workflow for Deep Technical Dives

作者分享了在 AI 时代深入学习一个技术领域的个人方法:以输出为导向,将学习过程组织为‘收集资料—筛选精读—写大纲—填充初稿—AI 辅助收紧结构—自读定稿’的流水线。核心观点是 AI 的价值不在于替你总结,而在于放大你已有的判断与输出动作。文中以近期研究大模型训练流程为例,展示了如何用开源工具集 Waza 中的 /learn 技能把这一过程工业化。适合对‘AI 时代如何保持学习深度’有困惑的工程师阅读。

www.infoq.com · 5 min
27

OpenTelemetry 推出 Blueprints 计划:以预设架构与参考实现降低企业可观测性落地门槛OpenTelemetry Launches Blueprints Initiative to Simplify Enterprise Observability Adoption

OpenTelemetry 正式发布 Blueprints 计划,旨在应对大规模可观测性部署中日益增长的复杂性。该计划提供面向常见场景的预设架构模式、运营最佳实践和分步实施指南,并配套由 Adobe、Mastodon、Skyscanner 等企业贡献的参考实现。文章剖析了可观测性的“必要复杂性”与“偶然复杂性”,指出组织在有机采用 OpenTelemetry 时常因缺乏集中标准而导致遥测管道碎片化、语义约定不一致及上下文传播断裂。Blueprints 不替代现有文档,而是将架构、运营和实现步骤整合为可复用的策略,重点关注 Kubernetes 可观测性、非 Kubernetes 基础设施检测和集中式遥测平台架构。此举标志着可观测性生态从纯模块化工具向更具指导性的运营框架转变,目标是在保持厂商中立与灵活性的同时,降低大规模运维的认知负荷。适合面临可观测性规模化挑战的平台工程、DevOps 和 SRE 团队阅读。

mp.weixin.qq.com · 7 min
28

2026年6月第一周AI快讯:Claude限额翻倍、SpaceX IPO、微软模型数据翻车Weekly AI Roundup: Claude Limits Doubled, SpaceX IPO, Microsoft Model Data Contradiction

本文汇总了6月第一周10条AI与科技行业动态。MiniMax M3大模型发布,以0.6美元/百万token的价格在编程跑分上超越GPT-5.5,但独立验证尚未出炉。DeepSeek完成约74亿美元首轮外部融资,宇树科技以73天闪电过会。Kimi Work、Coze 3.0与Qwen3.7-Plus在同一周发力Agent领域。豆包宣布收费,基础版永久免费。ChatGPT月活突破10亿,Codex推出Sites和岗位插件。Anthropic将Claude Cowork限额翻倍,并发布了Claude已撰写自家80%代码的报告,同时秘密提交IPO。英伟达在Computex 2026发布集成ARM CPU的RTX Spark超级芯片。SpaceX定于6月12日上市,谷歌披露了一份9.2亿美元/月的算力租用合同。微软自研推理模型MAI-Thinking-1发布仅3天,其声称的“干净数据”便被发现包含242亿页Common Crawl数据,同时GitHub Copilot转为按量计费后,部分开发者月账单飙升至3000美元。文章是典型的行业信息简报,适合需要快速了解一周重大技术动态的工程师和从业者。

章节 06

其他

2 / 30
github.com · 1 min
29

Understand Anything:把任何代码库变成可交互的知识图谱Understand Anything: Turn any codebase into an interactive knowledge graph you can explore

Understand Anything 是一个开源工具,用于将任意代码库生成可视化的交互式知识图谱,使开发者可以浏览、搜索和提问。它不为生成静态图表,而是建立可供持续探索的结构化知识库,支持 Claude Code、Cursor、Codex 等主流 AI 编码工具。项目通过解析代码结构、构建语义连接,把离散文件的逻辑关系具象化,帮助团队加速熟悉遗留系统、定位业务逻辑或在复杂代码库中导航。适合需要快速理解大型或陌生代码库的软件工程师。

tw93.fun · 27 min
30

大模型真正拉开差距的地方在预训练之后:一条后训练链路的完整拆解What Really Differentiates LLMs Happens After Pretraining: A Full Post-Training Pipeline Breakdown

这篇长文系统梳理了大模型训练的全链路,核心观点是:2026年模型效果的真正差距并不在预训练阶段,而在后训练、评测、奖励、Agent训练与蒸馏等「后半段」。文章以工序化的方式拆解了从预训练底座到数据配方、系统架构、四阶段后训练流水线(SFT冷启动—GRPO推理RL—拒绝采样微调—对齐RL)、Grader/Reward设计、Agent训练(包括PARL架构与Meta-Harness优化)、蒸馏部署等完整流程。其中着重分析了DeepSeek-R1的公开配方、GRPO相比PPO的工程优势、PRM与ORM的优劣、以及Agent从优化答案扩展到优化环境Harness程序的趋势。适合需要理解大模型能力来源于哪些具体工程环节的系统/数据/工具工程师。