日刊 · 2026-06-20 — Glean

2026-06-20 · 周六 3 条

06:01

裸模型正是更蠢：停止测试裸模型，开始构建系统

Imagine Naked People Were Stupider. Naked Models Are.

YC合伙人Garry Tan回应Kyle Kingsbury反AI长文，指出Kingsbury测试裸模型的行为如同在台架上测试引擎便断定汽车不安全。文章详细阐述了“薄控制层、厚技能文件”架构：用技能文件（可复用Markdown流程文档）约束模型输入，用解析器（路由表）分派任务，用确定性代码执行精确操作，用测试覆盖整个管线而非裸模型。作者以浴室渲染、股票数据幻觉等Kingsbury案例为例，说明通过架构可将不可靠的模型转化为可靠系统，并分享自身OpenClaw通过显式路由将文件错置率从10/13降至0的经验。文章最后将AI比作汽车：让汽车安全的是安全带、交通灯等系统工程，而非对引擎的怀疑。适合所有正在构建或评估AI系统的工程师阅读。

x.com · 18 min · Agent Architecture · Agents · Code · LLM · Open Source

06:01

LOC 争议的数学与数据：一次 810 倍的开发者输出实证

On the LOC controversy: doing the math on a 810x developer output increase

Y Combinator 首席执行官 Garry Tan 回应了关于他近期声称“60 天内交付 60 万行生产代码”的广泛质疑。文章首先承认 LOC 是糟糕的生产力指标的合理性，引用了 Dijkstra 和 Gates 的经典批评。随后，他通过一套自研脚本，对比了自己 2013 年（兼职开发，日均 14 逻辑行）与 2026 年（同样在 YC 全职工作之余，日均 11,417 逻辑行）的代码产出。即使施加逻辑去噪和 2 倍 AI 冗余系数双重压缩，2026 年的日均产出仍达 5,708 行，是 2013 年的约 408 倍。文章进一步公开了代码质量数据：2.0% 的回滚率、6.3% 的修复提交比、从 100 个增长到 2000 多个的测试用例，并介绍了其产品 GStack 内置的浏览器自动化测试 /qa 命令和外部工具 slop-scan 的代码冗余评估。Garry 强调，核心变化不是他编程能力变强，而是 AI 将“想法到产品”的周期从三周压缩到三小时，并指出任何人都可以复现这一数据。适合对 AI 辅助工程效能、开发者生产力度量及工程文化感兴趣的读者。

x.com · 12 min · AI · Ai Tooling · Claude Code · Code · Open Source

06:01

解析器：智能系统的路由表，而非填鸭式上下文堆砌

Resolvers: The Routing Table for Intelligence

作者以自身构建个人智能代理系统的深度复盘，指出决定系统能否持续进化的核心并非模型或技能本身，而是常被忽视的“解析器”（Resolver）。文章通过一个错归档案例揭示了硬编码路径如何导致知识库沦为垃圾抽屉，并通过“技能可达性孤岛”问题说明缺乏路由会制造“能力已存在但无法调用”的假象。核心论点是：解析器是一个用于上下文分发的路由表，能将2万行的臃肿指令压缩为200行决策树，通过“文件归档规则”、“触发词评估”和“可解析性检查”等模式防止系统漂移。作者进一步将这一技术模式类比为组织管理中的经理层，并开源了包含全套解析器模式的个人微Agent系统GBrain。适合正在长时间维护多技能Agent系统，并遭遇知识索引失效、模型注意力退化的工程师阅读。

x.com · 18 min · Agent Architecture · Agents · Ai-Memory · Claude Code · Code

每天拾几条。

裸模型正是更蠢：停止测试裸模型，开始构建系统

LOC 争议的数学与数据：一次 810 倍的开发者输出实证

解析器：智能系统的路由表，而非填鸭式上下文堆砌