06-27
AI 重塑软件生命周期:从编写代码到评判代码的转变
这篇由 Google 工程师撰写的白皮书提炼,核心观点是:AI Agent 的真正价值不在于模型本身,而在于其“载体”(Harness)——即指令、工具、沙箱、编排逻辑和可观测性组成的系统,模型约占 10%,载体占 90%。上下文工程是决定成本的关键,需要区分静态上下文(每次加载,昂贵但可靠)和动态上下文(按需加载,便宜但需谨慎设计)。验证能力是区分“Vibe Coding”和真正的工程化 Agent 的分界线:测试覆盖确定性部分,评估覆盖非确定性输出和轨迹。白皮书提供了具体数据:仅修改载体(不换模型)即可将编码 Agent 在 Terminal Bench 2.0 上从 30 名外提升至前 5;LangChain 的实验中通过修改系统提示、工具和中间件在相同基准上提升了 13.7 分。适用于所有正在或准备将 AI Agent 引入研发流程的工程师和技术管理者。