标签 · Verification — Glean

06-27

AI 重塑软件生命周期：从编写代码到评判代码的转变

这篇由 Google 工程师撰写的白皮书提炼，核心观点是：AI Agent 的真正价值不在于模型本身，而在于其“载体”（Harness）——即指令、工具、沙箱、编排逻辑和可观测性组成的系统，模型约占 10%，载体占 90%。上下文工程是决定成本的关键，需要区分静态上下文（每次加载，昂贵但可靠）和动态上下文（按需加载，便宜但需谨慎设计）。验证能力是区分“Vibe Coding”和真正的工程化 Agent 的分界线：测试覆盖确定性部分，评估覆盖非确定性输出和轨迹。白皮书提供了具体数据：仅修改载体（不换模型）即可将编码 Agent 在 Terminal Bench 2.0 上从 30 名外提升至前 5；LangChain 的实验中通过修改系统提示、工具和中间件在相同基准上提升了 13.7 分。适用于所有正在或准备将 AI Agent 引入研发流程的工程师和技术管理者。

addyosmani.com · 15 min · Agent Architecture · AI Engineering · Context Engineering

Verification

1 条 · 按时间

AI 重塑软件生命周期：从编写代码到评判代码的转变