日刊 · 2026-06-12 — Glean

2026-06-12 · 周五 3 条

06:00

如何为 Claude Fable 5 设计循环：自校正与跨会话记忆

Designing loops with Fable 5: self-correction and cross-session memory

R. Lance Martin 分享了针对 Anthropic 最新模型 Fable 5 的两类循环设计实验：自校正和工作记忆。在自校正环节，他用 Parameter Golf 挑战（训练一个能塞进 16MB、在 8xH100 上 10 分钟内跑完的模型）对比了 Fable 5 和 Opus 4.7。在 Claude Managed Agents (CMA) 环境下，Fable 5 通过 Outcomes 生成的 grading 子 agent 做独立验证，训练流水线的改进幅度是 Opus 4.7 的约 6 倍，且更敢于做结构性变更而非只调标量参数。在工作记忆实验中，基于 Continual Learning Bench 1.0 的任务，Fable 5 在连续 SQL 问答中展现出一条从记录失败、调查原因、交叉验证到抽象为通用规则的完整记忆链，验证覆盖率达到 73%，显著超过 Opus 4.7 和 Sonnet 4.6。文章适合正在为强模型设计 agent 循环的工程师阅读，核心主张是提供环境和反馈让模型自行爬坡，比直接提示更有效。

x.com · 5 min · Agent Architecture · Agents · AI Engineering · Anthropic · Context Engineering

06:00

Headless Tools：让智能体直接在浏览器和桌面应用里执行动作

The Missing Link Between Agents and Applications

这篇文章提出了一种名为 Headless Tools 的新机制，解决了智能体（Agent）无法直接操控用户端运行环境的问题。作者指出，当前大多数 Agent 工具运行在服务端，可以调用 API，但无法访问浏览器、应用状态或设备能力（如剪贴板、定位、本地存储）。Headless Tools 将客户端能力（如 navigator.geolocation、IndexedDB、应用内导航）封装为模型可以调用的标准工具，模型感知不到工具实际执行的位置，服务端和客户端负责协调，使 Agent 能直接作用于用户所在的浏览器或桌面应用。文章提供了 TypeScript 代码示例，并展示了在 Slidev 演示框架和浏览器本地记忆中的具体应用。这一设计同时带来了隐私优势，因为敏感数据可以默认留在本地，无需发送到后端。本文适合需要构建深度集成前端应用的 Agent 系统的工程师阅读，特别是那些在 Figma 插件、富文本编辑器或桌面工具中嵌入 AI 能力的团队。

x.com · 7 min · AI Agents · AI Engineering · Browser · LangChain · TypeScript

06:00

用奖励函数替代标注数据：GRPO 将 Qwen3-8B 的 JSON 结构输出有效性从 62% 提升至 82%

Training an LLM to Generate Reliable Structured Output Using GRPO and a Reward Function

本文是一线实操记录，作者将 DeepSeek-R1 采用的 GRPO（群体相对策略优化）方法用于一个具体任务：训练 Qwen3-8B 从发票文本中提取结构化的 JSON 字段。传统 SFT（监督微调）通过模仿范例来训练，其在 token 级别的损失函数无法有效惩罚格式错误，导致模型在结构合规性上很快触及天花板。作者的核心论点是，只要能用代码定义“正确性”（例如 JSON 能否解析且符合 schema），就可以用一个 Python 奖励函数替代标注数据，驱动模型自我对抗学习。实操中，奖励函数对不合法 JSON 给 0 分，对合法但不符合 schema 的给 0.5 分，对完全合规的给 1 分，这一中间分值提供了关键的学习梯度。训练在 Fireworks 平台的 H200 上运行，最终在 50 个模型未见过的评估样本上，schema 合规率从基线的 62% 提升至 82%，超越了 GPT-4.1 的 58%，且推理成本和延迟更低。文章适用于需要模型可靠生成结构化输出（如 SQL、API 响应、工具调用）的工程师，提供了完整的奖励函数、数据集和训练配置代码。

x.com · 12 min · AI Engineering · Fine-tuning · GRPO · Structured Output

每天拾几条。

如何为 Claude Fable 5 设计循环：自校正与跨会话记忆

Headless Tools：让智能体直接在浏览器和桌面应用里执行动作

用奖励函数替代标注数据：GRPO 将 Qwen3-8B 的 JSON 结构输出有效性从 62% 提升至 82%