Glean 拾遗
最近收录

13 条 · 按时间

06-12

Anthropic 销售用 Claude Code 从零编程构建内部工具套件

本文记录 Anhtropic 前客户经理 Jared Sires 利用 Claude Code 从零编程经验起步,构建 GTM 团队内部工具的过程。他开发的 CLAFTS 应用内嵌于 Gmail,能根据最新产品文档和用户写作风格草拟邮件回复,每周节省 10-15 小时。在此基础上,他进一步构建了每日简报、每日复盘及销售插件,通过 MCP 服务器连接 Salesforce、Gong 等系统,自动化客户背景调研和后续跟进。目前约 80% 的 Anhtropic 销售团队使用该插件。文章展示了无技术背景的业务人员如何通过 AI 编程工具消除技术壁垒,直接设计并交付解决实际工作流程问题的软件方案,适合关注 AI 编程工具赋能非技术角色及销售自动化实践的读者。

claude.com · 9 min · Agent Architecture · AI Engineering · Claude Code
06-12

Claude Projects 深度指南:25 个被低估的特性、工作流与技巧

本文由 @eng_khairallah1 撰写,系统梳理了 Claude Projects 从基础配置到高级策略的 25 个实战技巧。核心观点在于,Projects 不应被当作一次性对话工具,而是需要通过结构化指令模板、分类知识库上传和持续校准,将其打造成一个随时间不断进化的持久化工作区。文中提供了具体可操作的模板,如 'ROLE/CONTEXT/RULES/OUTPUT' 指令框架、'竞争力情报中心' 和 '客户专属项目' 的设置方法,并强调了通过 '反馈日志' 和 '季度刷新' 实现指令的复利优化。本文适合希望摆脱重复向 Claude 解释背景、寻求更高效和个性化 AI 协作方式的深度用户阅读。

x.com · 16 min · Agent Architecture · AI Engineering · Anthropic
06-12

2026 年如何构建真正可用的 AI Agent:从认知模型到代码实操

本文系统地拆解了构建实用 AI Agent 的核心架构与工程实践。作者首先厘清了聊天机器人、AI Agent 与 Agentic AI 的边界,指出真正 Agent 的本质是持续执行直到目标达成的循环系统,而非一次性问答。文章深入阐述了 Agent 运行的 ReAct 循环(思考-行动-观察-反思),并分解出 Agent 的五大基石:LLM 大脑、工具(手)、记忆(短期与长期)、自校正回路及验证环节。作者以“构建一个挖掘健身领域痛点创业想法的研究 Agent”为例,展示了从设定目标、赋予工具、引入循环、构建记忆到增加批评 Agent 的完整构建步骤,并附带了可直接使用的 5 种 Agent 系统提示。文章还总结了导致 Agent 失败的 6 个核心原因(如缺乏记忆、无停止条件等),并推荐了 Claude Code、LangGraph、MCP 等当前技术栈。适合希望从 Prompt 工程转向 Agent 系统工程的一线开发者阅读,提供从 50 行 Python 代码起步的周末实践路线图。

x.com · 21 min · Agent Architecture · AI Agents · AI Engineering
06-11

如何为 Claude Fable 5 设计循环:自校正与跨会话记忆

R. Lance Martin 分享了针对 Anthropic 最新模型 Fable 5 的两类循环设计实验:自校正和工作记忆。在自校正环节,他用 Parameter Golf 挑战(训练一个能塞进 16MB、在 8xH100 上 10 分钟内跑完的模型)对比了 Fable 5 和 Opus 4.7。在 Claude Managed Agents (CMA) 环境下,Fable 5 通过 Outcomes 生成的 grading 子 agent 做独立验证,训练流水线的改进幅度是 Opus 4.7 的约 6 倍,且更敢于做结构性变更而非只调标量参数。在工作记忆实验中,基于 Continual Learning Bench 1.0 的任务,Fable 5 在连续 SQL 问答中展现出一条从记录失败、调查原因、交叉验证到抽象为通用规则的完整记忆链,验证覆盖率达到 73%,显著超过 Opus 4.7 和 Sonnet 4.6。文章适合正在为强模型设计 agent 循环的工程师阅读,核心主张是提供环境和反馈让模型自行爬坡,比直接提示更有效。

x.com · 5 min · Agent Architecture · Agents · AI Engineering
06-11

Headless Tools:让智能体直接在浏览器和桌面应用里执行动作

这篇文章提出了一种名为 Headless Tools 的新机制,解决了智能体(Agent)无法直接操控用户端运行环境的问题。 作者指出,当前大多数 Agent 工具运行在服务端,可以调用 API,但无法访问浏览器、应用状态或设备能力(如剪贴板、定位、本地存储)。Headless Tools 将客户端能力(如 navigator.geolocation、IndexedDB、应用内导航)封装为模型可以调用的标准工具,模型感知不到工具实际执行的位置,服务端和客户端负责协调,使 Agent 能直接作用于用户所在的浏览器或桌面应用。文章提供了 TypeScript 代码示例,并展示了在 Slidev 演示框架和浏览器本地记忆中的具体应用。这一设计同时带来了隐私优势,因为敏感数据可以默认留在本地,无需发送到后端。本文适合需要构建深度集成前端应用的 Agent 系统的工程师阅读,特别是那些在 Figma 插件、富文本编辑器或桌面工具中嵌入 AI 能力的团队。

x.com · 7 min · AI Agents · AI Engineering · Browser
06-11

用奖励函数替代标注数据:GRPO 将 Qwen3-8B 的 JSON 结构输出有效性从 62% 提升至 82%

本文是一线实操记录,作者将 DeepSeek-R1 采用的 GRPO(群体相对策略优化)方法用于一个具体任务:训练 Qwen3-8B 从发票文本中提取结构化的 JSON 字段。传统 SFT(监督微调)通过模仿范例来训练,其在 token 级别的损失函数无法有效惩罚格式错误,导致模型在结构合规性上很快触及天花板。作者的核心论点是,只要能用代码定义“正确性”(例如 JSON 能否解析且符合 schema),就可以用一个 Python 奖励函数替代标注数据,驱动模型自我对抗学习。实操中,奖励函数对不合法 JSON 给 0 分,对合法但不符合 schema 的给 0.5 分,对完全合规的给 1 分,这一中间分值提供了关键的学习梯度。训练在 Fireworks 平台的 H200 上运行,最终在 50 个模型未见过的评估样本上,schema 合规率从基线的 62% 提升至 82%,超越了 GPT-4.1 的 58%,且推理成本和延迟更低。文章适用于需要模型可靠生成结构化输出(如 SQL、API 响应、工具调用)的工程师,提供了完整的奖励函数、数据集和训练配置代码。

x.com · 12 min · AI Engineering · Fine-tuning · GRPO
06-10

Claude Fable 5 实战:用自校正循环和跨会话记忆打磨代理任务

作者分享了使用 Anthropic 的 Claude Fable 5 模型提升代理工作效能的两个实战方向:自校正循环和跨会话记忆。在自校正循环实验中,作者用 Parameter Golf——一个要求在 16MB 模型体积、8xH100 GPU 上 10 分钟内训练最佳模型的公开挑战——比较了 Fable 5 与 Opus 4.7 的表现。通过 Claude Managed Agents 提供的 Outcomes 原语,由独立验证子代理根据九项可检查标准评分,Fable 5 对训练管线的改进幅度约为 Opus 4.7 的 6 倍。Fable 5 更倾向于做结构性改动,并在遇到量化性能回退时展现出韧性,而 Opus 4.7 则停留在调整标量超参数的模板上。在记忆实验中,作者使用 Continual Learning Bench 1.0 中的 SQL 问答任务,对比了 Fable 5、Opus 4.7 和 Sonnet 4.6 利用文件系统跨会话记忆的能力。Sonnet 4.6 仅记录失败和未验证猜测,Opus 4.7 能创建带不确定性标记的 schema 参考但验证覆盖率中位数仅 17%;Fable 5 最强运行中验证覆盖率达 73% 并将学习提炼为通用规则。文章适合关注代理架构设计和模型能力边界的工程师阅读。

x.com · 5 min · Agent Architecture · AI Agents · AI Engineering
06-09

循环工程:让代码智能体在后台自主运行,而你设计的是循环本身

本文来自 Addy Osmani 对编码智能体未来工作模式的深度观察。核心观点是,与编码智能体交互的方式正从直接的提示词工程转向循环工程:工程师不再亲自写每一步提示词,而是设计一个包含定时自动化、并行工作树、项目技能、连接器插件和子智能体检查者的闭环系统,让系统自己去发现任务、分配工作、验证结果。文章详细拆解了这五个构建块及其在 Claude Code 和 Codex 中的对应实现,并强调了循环运行中必须持续关注验证、理解债务和认知舒适区的陷阱。适合正在探索如何将 AI 编码工具从一次性助手升级为持续后台工作者的资深工程师,尤其是那些关心代码质量、认知负担和成本控制的团队。

x.com · 14 min · Agent Architecture · AI Agents · AI Engineering
06-09

设计一个自行驱动 Agent 的多步任务循环

本文提出了一个让 AI Agent 自主完成多步任务的循环架构,核心在于用代码构建一个自动化的提示生成系统,而非手动编写单个提示。文章详细拆解了该循环的五个组成部分:定义验收标准(done check)、从状态构建上下文而非每次手写指令、执行操作并捕获所有输出、将失败结果作为反馈闭合到下一轮提示中,以及设置硬性停止条件(最大轮次、成本上限)。作者通过一个修复登录Bug的实例展示了循环如何运行,并指出实际开销来自多轮调用,而非单次代码生成,因此止损条件至关重要。此外,将反复出现的操作封装为可复用技能是提升长期价值的关键,而初学者常犯的错误包括缺乏退出条件、手动干预提示和丢弃失败输出。适合希望从单次提示工程转向构建Agent控制流的开发者阅读。

x.com · 18 min · Agent Architecture · Agents · AI Engineering
06-08

给工程师的 AI 编码工作流:一组可组合的 Agent Skills

Matt Pocock 从自身 .claude 目录公开分享了用于 Claude Code、Codex 等编码智能体的技能集。这些技能并非“写代码”,而是针对 AI 辅助开发中的四大典型失败模式(需求对齐错误、上下文冗长、代码不可用、架构熵增)给出工程化对策。核心包括:通过盘问式对话对齐需求的 /grill-me 与 /grill-with-docs;通过红-绿-重构循环保证代码质量的 /tdd;以及维护领域语言与架构的 /improve-codebase-architecture。项目强调“小、可适配、可组合”,适用于任何模型。适合希望将 AI 编码工具纳入严谨工程实践的一线开发者。

github.com · 14 min · Agents · AI Engineering · Claude Code
06-08

我的 Agentic 工程实战技巧(2026年6月版)

作者分享了在 Claude Code 与 Codex 上进行 Agentic 工程的 22 条实战技巧。核心是“先规划后执行”:用 /ce-plan 生成 plan.md 约束 AI,人只需略读或提问,而非阅读全文。具体包括:以语音(Monologue/Wispr Flow)替代键盘输入,利用 LLM 理解不完美转录;在 cmux 中同时打开 4-6 个标签页,各自运行独立 Agent 任务;设终端默认启动为 Claude Code,跳过所有权限提示并以声音提醒任务完成;通过 AgentMail 为 Claude 配置邮箱,实现远程邮件触发新会话;用 last30days 在规划前并行搜索社区、视频和新闻,获取实时信息;将重复操作封装为可复用 Skill,持续扩展 Agent 能力。此外,他强调人类在循环中的核心价值是提供品味与方向,而非亲自编码,并警示 AI 开发成瘾的风险。全文包含大量可复制的配置片段与具体工具,适合重度使用 AI 辅助开发的工程师。

x.com · 28 min · Agent Infrastructure · Agents · AI Engineering
06-08

Claude Code 动态工作流实战:6 种模式与 14 步完整指南

本文系统梳理了 Claude Code 于 2026 年 5 月底发布的 Dynamic Workflows 功能。不同于手动串联 prompts 或编写死板的静态 harness,动态工作流让 Claude 为特定任务即时生成定制的 JavaScript 控制程序。文章从底层思维模型切入,解释了工作流如何从结构上解决单一上下文窗口面临的三类失效:智能体惰性(提前终止)、自我偏好偏差(无法客观验证自身输出)及目标漂移(长对话后丢失约束)。随后逐一拆解 6 种核心模式:分类后路由(classify-and-act)、扇出后综合(fan-out-and-synthesize)、对抗性验证(adversarial verification)、生成后筛选(generate-and-filter)、竞标赛排序(tournament)以及循环至完成(loop until done),并提供了实际的代码骨架。最后,文章展示了如何组合这些模式来解决迁移重构、深度研究、大规模分诊、代码评审等真实场景的问题,同时强调了使用 /goal、/loop 及 token 预算控制成本、用隔离模式防范来自不可信输入的提示注入风险、以及将成功的工作流保存并打包为 Skill 分发的实操技巧。适合已在使用 Claude Code 并希望突破单 agent 限制,处理长周期、高并行或需要严格校验的复杂任务的工程师阅读。

x.com · 17 min · Agents · AI Engineering · Anthropic
06-07

2026年6月第一周AI快讯:Claude限额翻倍、SpaceX IPO、微软模型数据翻车

本文汇总了6月第一周10条AI与科技行业动态。MiniMax M3大模型发布,以0.6美元/百万token的价格在编程跑分上超越GPT-5.5,但独立验证尚未出炉。DeepSeek完成约74亿美元首轮外部融资,宇树科技以73天闪电过会。Kimi Work、Coze 3.0与Qwen3.7-Plus在同一周发力Agent领域。豆包宣布收费,基础版永久免费。ChatGPT月活突破10亿,Codex推出Sites和岗位插件。Anthropic将Claude Cowork限额翻倍,并发布了Claude已撰写自家80%代码的报告,同时秘密提交IPO。英伟达在Computex 2026发布集成ARM CPU的RTX Spark超级芯片。SpaceX定于6月12日上市,谷歌披露了一份9.2亿美元/月的算力租用合同。微软自研推理模型MAI-Thinking-1发布仅3天,其声称的“干净数据”便被发现包含242亿页Common Crawl数据,同时GitHub Copilot转为按量计费后,部分开发者月账单飙升至3000美元。文章是典型的行业信息简报,适合需要快速了解一周重大技术动态的工程师和从业者。

mp.weixin.qq.com · 7 min · AI Engineering · AI Industry · Cost Optimization