标签 · Cost Optimization — Glean

16 条 · 按时间

07-25

Claude Opus 5 发布：接近 Fable 5 性能，成本减半

Anthropic 发布 Claude Opus 5，性能接近最强模型 Fable 5 但价格减半。在编码（Frontier-Bench v0.1 超越所有模型，性能是 Opus 4.8 的两倍以上）和知识工作（ARC-AGI 3 得分是次优模型的 3 倍）上达到新 SOTA，但网络安全任务仍落后于 Mythos 5。模型支持 effortless 设置以平衡成本与智能，客户反馈在软件开发、金融、法律等领域表现显著提升。安全对齐更好，但故意未训练网络攻击能力，且安全拦截比 Fable 5 减少约 85%。定价与 Opus 4.8 相同，提供 Fast 模式。

www.anthropic.com · 20 min · AI Engineering · Anthropic · Cost Optimization

07-20

2026年前沿模型选型实操指南：Kimi K3、Claude Fable 5、GPT-5.6 按任务分派

截至2026年7月，没有任何单一模型在所有任务上最优。Kimi K3（2.8T参数）在前端UI和图像理解上以6/7领域领先，价格仅Fable 5的1/12；Claude Fable 5在SWE-Bench Pro达80.3%，适合后端复杂架构和长周期自主Agent工作，但最贵；GPT-5.6 Sol在调试上出色，但有游戏模糊目标的倾向，需明确定义成功标准。文章提供了按任务类型路由的决策框架，并强调路由技能比选定单一模型更重要。同时讨论了成本计算、合规性和供应商锁定风险。适合AI工程师、产品构建者。

x.com · 25 min · Agent Engineering · AI · Cost Optimization

07-17

让 Fable 自行判断：节省 Claude Code token 的实战技巧

Simon Willison 分享了从 Claude Code 团队获得的实用建议：不要命令 Fable 何时编写测试，而是让它自行判断；同样，将编码任务委托给更低成本的子模型（Sonnet、Haiku），由 Fable 决定何时降级。在 Claude Code 即将涨价之际，这一技巧尤为实用。他展示了通过记忆文件配置，让主模型在处理每个编码任务时自主选择合适模型并派生子代理。实测表明，这能在保持开发效率的同时显著降低 Fable token 消耗。文章适合所有使用 Claude Code 并关注成本控制的开发者。

simonwillison.net · 2 min · Agent Engineering · Ai Tooling · Claude Code

07-12

Anthropic 的信任危机：封闭生态、涨价与工程师的觉醒

本文作者以亲身经历痛陈 Anthropic 近年来的系列争议做法：API 不稳定却垄断订阅渠道、Claude Code 生态封闭且 bug 堆积、通过“额外用量”和分池计费变相涨价。作者指出，这些做法并非为改善产品，而是为下一轮模型训练筹集资金。作者回归“agent-assisted”而非“agent-driven”的工作流，并用 OpenRouter 搭配 Qwen、GLM 等开源模型替代 Claude，同时通过 AI Gateway 控制成本与数据安全。适合受困于单一 AI 平台、寻求更开放替代方案的一线工程师。

raheeljunaid.com · 11 min · Agent Engineering · Anthropic · Claude Code

07-04

Superpowers 6：用自动化研究循环将构建成本降低60%

Superpowers 6 发布，核心改进来自一次自动化研究（autoresearch）实验：作者利用 Anthropic 的 Fable 模型（短暂可用期间）对自身的 Subagent Driven Development 流程进行了系统优化。在 36 小时内、花费约 165 美元 token 运行了 25 次实验，最终实现 wall-clock 速度提升 50%、token 消耗降低 60%。关键优化包括：合并合规审查与代码审查 agent、预生成 review packet 减少 git 调用、根据任务类型动态分配 agent 层级（如对非代码方案使用低成本 haiku）。文中披露了多个已证伪的假设（如限制 controller 思考时长适得其反），并强调 eval 套件在差异化测量中的关键作用。适合关注 AI 编码 agent 成本优化和 engineering productivity 的读者。

blog.fsck.com · 8 min · Agent Engineering · AI Engineering · Anthropic

07-03

Claude Opus 4.8 配置指南：投入产出比的精确控制

作者在 Claude Opus 4.8 发布次日撰写了这份配置指南，重点不在模型本身的基准提升（SWE-bench 从 87.6% 到 88.6%），而是伴随发布的三项操作特性：Effort Control 允许按任务设置思考深度（Low/Medium/High/Max/Ultracode），Fast Mode 以原先 1/3 的价格提供 2.5 倍速度，Dynamic Workflows 支持单次会话并行调用最多 1000 个子 agent。文章给出了一个完整的成本优化矩阵，按任务类型将请求路由到 Haiku、Sonnet、Opus 及不同 effort 等级，宣称可将重度用户的月成本从 $400-600 降至约 $205。文末提供了可直接复制使用的环境变量和 settings.json 配置，内容偏向实用操作手册，适合已在使用 Claude Code 并希望控制成本的开发者。

x.com · 9 min · Agents · Ai Tooling · Claude Code

07-01

微代理：在模型API层内协作，超越前沿模型

vLLM Semantic Router 提出了一个不同寻常的视角：路由器不只是请求分发器，更是模型能力的放大器。其核心思想是将多个模型的协作封装在同一个模型 API 调用内，用户看到的仍然是一个普通模型端点（vllm-sr/auto），但背后路由器可以根据任务自动选择协作模式——从成本感知的串行升级（Confidence）、并行聚合（Ratings），到多轮推理合成（ReMoM）、分歧发现（Fusion），乃至带资源预算的微代理工作流（Workflows）。这些模式都是可控、可配、可观测的运行时，而非应用层胶水代码。评测显示，在 LiveCodeBench、GPQA-Diamond、Humanity's Last Exam 三个硬基准上，这套闭源模型协作方案（VSR Closed）分别达到 92.6%、96.0%、50.0%，持平或超过了 Fugu Ultra、GPT-5.5 等单一前沿模型。这篇博文的价值在于，它首次把“多模型协作”从产品端或应用端下沉到了 serving 基础设施层，并且坚持以一个模型身份暴露，极大降低了接入成本。适合正在构建推理路由、多模型策略或成本优化方案的工程师阅读。

vllm.ai · 14 min · AI Engineering · Cost Optimization · LLM

06-27

AI 重塑软件生命周期：从编写代码到评判代码的转变

这篇由 Google 工程师撰写的白皮书提炼，核心观点是：AI Agent 的真正价值不在于模型本身，而在于其“载体”（Harness）——即指令、工具、沙箱、编排逻辑和可观测性组成的系统，模型约占 10%，载体占 90%。上下文工程是决定成本的关键，需要区分静态上下文（每次加载，昂贵但可靠）和动态上下文（按需加载，便宜但需谨慎设计）。验证能力是区分“Vibe Coding”和真正的工程化 Agent 的分界线：测试覆盖确定性部分，评估覆盖非确定性输出和轨迹。白皮书提供了具体数据：仅修改载体（不换模型）即可将编码 Agent 在 Terminal Bench 2.0 上从 30 名外提升至前 5；LangChain 的实验中通过修改系统提示、工具和中间件在相同基准上提升了 13.7 分。适用于所有正在或准备将 AI Agent 引入研发流程的工程师和技术管理者。

addyosmani.com · 15 min · Agent Architecture · AI Engineering · Context Engineering

06-24

一个工程师月提259个PR：循环工程实战指南

本文详细拆解了AI驱动开发循环（Loop）的工程实践，作者通过真实案例（单工程师月提259个PR vs 循环失控烧掉$47,000）引出核心矛盾：构建高效自动化的同时必须配备可靠的制动机制。文章将循环分解为状态文件、自动化触发/调度的具体命令、Git 工作树隔离、技能配置、MCP 连接器、子代理分离等6个可操作部件，并给出了每个部件的配置示例（Claude Code 和 OpenAI Codex 双版本）。同时提供了刹车配置模板（最大步数、预算上限、作用域、断路器）、四种常见失败模式及低成本入门方案。适合正在构建或评估AI代理工作流的工程师阅读。

x.com · 12 min · Agent Engineering · Ai Tooling · Claude Code

06-24

Agent 循环最难的部分：定义停止条件

本文为产品经理解析 agent loop 的核心概念。作者区分了 routine（固定步骤）、workflow（条件分支）和真正的 loop（重复检查直至满足条件）。他强调，loop 的关键不在于循环本身，而在于停止条件——即明确“完成”的可验证定义，并配以客观检查或独立评判者。文中提供了构建 loop 的模板、停止条件的编写方法，以及成本控制建议（如追踪“每接受变更的成本”）。作者还总结了 loop 常见的失败模式：无迭代上限导致费用失控、上下文漂移、通过不等于正确。最后指出，loop 工程只是最新术语，本质仍是“意图工程”——精准定义目标、边界和完成标准的能力。

x.com · 12 min · Agent Engineering · Cost Optimization · Product Management

06-24

Agent 循环最难的部分：定义停止条件

x.com · 12 min · Agent Engineering · Cost Optimization · Product Management

06-23

旧软件跑得飞快，因为它别无选择

这篇文章反思了现代软件为什么在硬件飞速进步的时代反而变得臃肿缓慢。作者以 Java 组件启动 Spark 集群为例指出，工程师习惯性地给内存和 CPU 加上“以防万一”的缓冲，而这些临时补丁很快固化成了默认配置。JVM 会读取容器分配的空闲空间自动扩大堆大小，GC 也随之变得懒惰，资源就这样被浪费掉了。作者认为，硬件变得便宜且容易预配，让“加机器”成了解决问题的默认动作，但真正的问题在于——我们不再追问“这笔开销到底买了什么”。文章提出“资源预算”的思路：为每个组件设定明确的内存、启动时间、容器大小上限，一旦超限就必须解释具体换了什么、换来什么。核心不是让大家穷着过日子，而是让每个 trade-off 显式化，告别“迷信式分配”。推荐给所有在云上跑服务的后端工程师、SRE 和平台工程团队。

yusufaytas.com · 9 min · Cloud Native · Cost Optimization · Java

06-20

别再为你的 AI Agent 建造富士康工厂了

本文是 Garry Tan 对自己构建 54 万行 Rails 代码的深刻反思。他用富士康工厂比喻当前 AI Agent 开发的主流模式：用海量代码、测试和重试逻辑去过度束缚和控制一个本已高度智能的模型。他提出核心论点：模型调用成本急剧下降，智能程度大幅提升，旧的经济学已经反转。新的范式是“即时软件”和“技能包”，用精简的 markdown 指令和少量 TypeScript 代码替代厚重的工程框架，让 Agent 在自由中发挥最大价值。文章提供了具体案例——一个黑客松评审 Agent 如何在一个下午内用极少的代码完成了从前需要整个软件项目才能实现的功能。文章适合那些正在用 AI 编程但仍在沿用传统软件工程量度（代码行数）和架构思维的工程师阅读，它挑战了根深蒂固的“不信任模型”的本能，并指明了“代币最大最优”的先发优势。

x.com · 14 min · Agents · Ai Tooling · Code

06-16

AI 代理上下文压缩层：60%-95% Token 削减，不丢失关键信息

Headroom 是一个本地运行的 AI 代理上下文压缩工具，旨在显著降低 LLM 使用成本与延迟。它在工具输出、日志、RAG 数据块及对话历史到达大模型前进行智能压缩，支持 JSON、代码和自然语言等多类内容。项目提供库、代理、MCP 服务器和代理包装器四种集成模式，通过内容路由选择最优压缩算法，并具备可逆压缩（CCR）机制确保原始数据不被丢弃。它还包含跨代理记忆共享和从失败会话中学习的 `headroom learn` 命令，适合每天高强度使用编程代理的工程师和任何需要优化 LLM Token 消耗的系统。

github.com · 18 min · Agent Architecture · Ai-Memory · Context Engineering

06-09

设计一个自行驱动 Agent 的多步任务循环

本文提出了一个让 AI Agent 自主完成多步任务的循环架构，核心在于用代码构建一个自动化的提示生成系统，而非手动编写单个提示。文章详细拆解了该循环的五个组成部分：定义验收标准（done check）、从状态构建上下文而非每次手写指令、执行操作并捕获所有输出、将失败结果作为反馈闭合到下一轮提示中，以及设置硬性停止条件（最大轮次、成本上限）。作者通过一个修复登录Bug的实例展示了循环如何运行，并指出实际开销来自多轮调用，而非单次代码生成，因此止损条件至关重要。此外，将反复出现的操作封装为可复用技能是提升长期价值的关键，而初学者常犯的错误包括缺乏退出条件、手动干预提示和丢弃失败输出。适合希望从单次提示工程转向构建Agent控制流的开发者阅读。

x.com · 18 min · Agent Architecture · Agents · AI Engineering

06-07

2026年6月第一周AI快讯：Claude限额翻倍、SpaceX IPO、微软模型数据翻车

本文汇总了6月第一周10条AI与科技行业动态。MiniMax M3大模型发布，以0.6美元/百万token的价格在编程跑分上超越GPT-5.5，但独立验证尚未出炉。DeepSeek完成约74亿美元首轮外部融资，宇树科技以73天闪电过会。Kimi Work、Coze 3.0与Qwen3.7-Plus在同一周发力Agent领域。豆包宣布收费，基础版永久免费。ChatGPT月活突破10亿，Codex推出Sites和岗位插件。Anthropic将Claude Cowork限额翻倍，并发布了Claude已撰写自家80%代码的报告，同时秘密提交IPO。英伟达在Computex 2026发布集成ARM CPU的RTX Spark超级芯片。SpaceX定于6月12日上市，谷歌披露了一份9.2亿美元/月的算力租用合同。微软自研推理模型MAI-Thinking-1发布仅3天，其声称的“干净数据”便被发现包含242亿页Common Crawl数据，同时GitHub Copilot转为按量计费后，部分开发者月账单飙升至3000美元。文章是典型的行业信息简报，适合需要快速了解一周重大技术动态的工程师和从业者。

mp.weixin.qq.com · 7 min · AI Engineering · AI Industry · Cost Optimization