如何为 Claude Fable 5 设计循环:自校正与跨会话记忆
R. Lance Martin 分享了针对 Anthropic 最新模型 Fable 5 的两类循环设计实验:自校正和工作记忆。在自校正环节,他用 Parameter Golf 挑战(训练一个能塞进 16MB、在 8xH100 上 10 分钟内跑完的模型)对比了 Fable 5 和 Opus 4.7。在 Claude Managed Agents (CMA) 环境下,Fable 5 通过 Outcomes 生成的 grading 子 agent 做独立验证,训练流水线的改进幅度是 Opus 4.7 的约 6 倍,且更敢于做结构性变更而非只调标量参数。在工作记忆实验中,基于 Continual Learning Bench 1.0 的任务,Fable 5 在连续 SQL 问答中展现出一条从记录失败、调查原因、交叉验证到抽象为通用规则的完整记忆链,验证覆盖率达到 73%,显著超过 Opus 4.7 和 Sonnet 4.6。文章适合正在为强模型设计 agent 循环的工程师阅读,核心主张是提供环境和反馈让模型自行爬坡,比直接提示更有效。