裸模型正是更蠢:停止测试裸模型,开始构建系统
YC合伙人Garry Tan回应Kyle Kingsbury反AI长文,指出Kingsbury测试裸模型的行为如同在台架上测试引擎便断定汽车不安全。文章详细阐述了“薄控制层、厚技能文件”架构:用技能文件(可复用Markdown流程文档)约束模型输入,用解析器(路由表)分派任务,用确定性代码执行精确操作,用测试覆盖整个管线而非裸模型。作者以浴室渲染、股票数据幻觉等Kingsbury案例为例,说明通过架构可将不可靠的模型转化为可靠系统,并分享自身OpenClaw通过显式路由将文件错置率从10/13降至0的经验。文章最后将AI比作汽车:让汽车安全的是安全带、交通灯等系统工程,而非对引擎的怀疑。适合所有正在构建或评估AI系统的工程师阅读。