Designing loops with Fable 5: self-correction and memory in agentic workflows
作者分享了使用 Anthropic 的 Claude Fable 5 模型提升代理工作效能的两个实战方向:自校正循环和跨会话记忆。在自校正循环实验中,作者用 Parameter Golf——一个要求在 16MB 模型体积、8xH100 GPU 上 10 分钟内训练最佳模型的公开挑战——比较了 Fable 5 与 Opus 4.7 的表现。通过 Claude Managed Agents 提供的 Outcomes 原语,由独立验证子代理根据九项可检查标准评分,Fable 5 对训练管线的改进幅度约为 Opus 4.7 的 6 倍。Fable 5 更倾向于做结构性改动,并在遇到量化性能回退时展现出韧性,而 Opus 4.7 则停留在调整标量超参数的模板上。在记忆实验中,作者使用 Continual Learning Bench 1.0 中的 SQL 问答任务,对比了 Fable 5、Opus 4.7 和 Sonnet 4.6 利用文件系统跨会话记忆的能力。Sonnet 4.6 仅记录失败和未验证猜测,Opus 4.7 能创建带不确定性标记的 schema 参考但验证覆盖率中位数仅 17%;Fable 5 最强运行中验证覆盖率达 73% 并将学习提炼为通用规则。文章适合关注代理架构设计和模型能力边界的工程师阅读。