Glean 拾遗
日刊 · 时间线

每天拾几条。

2026-06-12 · 周五 3 条
← 06-11
日历 ▾
2026 · 06
MoTuWeThFrSaSu 123456789101112131415161718192021222324252627282930
有日刊 今天
06-13 →
06:00

如何为 Claude Fable 5 设计循环:自校正与跨会话记忆

Designing loops with Fable 5: self-correction and cross-session memory

R. Lance Martin 分享了针对 Anthropic 最新模型 Fable 5 的两类循环设计实验:自校正和工作记忆。在自校正环节,他用 Parameter Golf 挑战(训练一个能塞进 16MB、在 8xH100 上 10 分钟内跑完的模型)对比了 Fable 5 和 Opus 4.7。在 Claude Managed Agents (CMA) 环境下,Fable 5 通过 Outcomes 生成的 grading 子 agent 做独立验证,训练流水线的改进幅度是 Opus 4.7 的约 6 倍,且更敢于做结构性变更而非只调标量参数。在工作记忆实验中,基于 Continual Learning Bench 1.0 的任务,Fable 5 在连续 SQL 问答中展现出一条从记录失败、调查原因、交叉验证到抽象为通用规则的完整记忆链,验证覆盖率达到 73%,显著超过 Opus 4.7 和 Sonnet 4.6。文章适合正在为强模型设计 agent 循环的工程师阅读,核心主张是提供环境和反馈让模型自行爬坡,比直接提示更有效。

06:00

Headless Tools:让智能体直接在浏览器和桌面应用里执行动作

The Missing Link Between Agents and Applications

这篇文章提出了一种名为 Headless Tools 的新机制,解决了智能体(Agent)无法直接操控用户端运行环境的问题。 作者指出,当前大多数 Agent 工具运行在服务端,可以调用 API,但无法访问浏览器、应用状态或设备能力(如剪贴板、定位、本地存储)。Headless Tools 将客户端能力(如 navigator.geolocation、IndexedDB、应用内导航)封装为模型可以调用的标准工具,模型感知不到工具实际执行的位置,服务端和客户端负责协调,使 Agent 能直接作用于用户所在的浏览器或桌面应用。文章提供了 TypeScript 代码示例,并展示了在 Slidev 演示框架和浏览器本地记忆中的具体应用。这一设计同时带来了隐私优势,因为敏感数据可以默认留在本地,无需发送到后端。本文适合需要构建深度集成前端应用的 Agent 系统的工程师阅读,特别是那些在 Figma 插件、富文本编辑器或桌面工具中嵌入 AI 能力的团队。

x.com · 7 min · AI Agents · AI Engineering · Browser · LangChain · TypeScript
06:00

用奖励函数替代标注数据:GRPO 将 Qwen3-8B 的 JSON 结构输出有效性从 62% 提升至 82%

Training an LLM to Generate Reliable Structured Output Using GRPO and a Reward Function

本文是一线实操记录,作者将 DeepSeek-R1 采用的 GRPO(群体相对策略优化)方法用于一个具体任务:训练 Qwen3-8B 从发票文本中提取结构化的 JSON 字段。传统 SFT(监督微调)通过模仿范例来训练,其在 token 级别的损失函数无法有效惩罚格式错误,导致模型在结构合规性上很快触及天花板。作者的核心论点是,只要能用代码定义“正确性”(例如 JSON 能否解析且符合 schema),就可以用一个 Python 奖励函数替代标注数据,驱动模型自我对抗学习。实操中,奖励函数对不合法 JSON 给 0 分,对合法但不符合 schema 的给 0.5 分,对完全合规的给 1 分,这一中间分值提供了关键的学习梯度。训练在 Fireworks 平台的 H200 上运行,最终在 50 个模型未见过的评估样本上,schema 合规率从基线的 62% 提升至 82%,超越了 GPT-4.1 的 58%,且推理成本和延迟更低。文章适用于需要模型可靠生成结构化输出(如 SQL、API 响应、工具调用)的工程师,提供了完整的奖励函数、数据集和训练配置代码。

x.com · 12 min · AI Engineering · Fine-tuning · GRPO · Structured Output