标签 · Token-Optimization — Glean

10 条 · 按时间

07-16

将文本上下文渲染为图片，本地代理为 Claude Code 削减约 60% token 成本

pxpipe 是一个本地代理，拦截 Claude Code API 请求，将系统提示、工具文档和旧历史记录等大块文本渲染为紧凑的 PNG 图片。利用图片 token 按像素尺寸而非字符数计费的特点，将输入 token 量削减约 60%，端到端 API 费用可降低 59–70%。它改写请求负载并保留提示缓存兼容性，默认对 Claude Fable 5 和 GPT-5.6 启用，提供仪表盘实时监控和收益门槛，避免稀疏文本反而增加开销。适合使用 LLM 编程助手的开发者，在保持任务能力的同时大幅降低 API 开销。

github.com · 12 min · Ai Tooling · Anthropic · CLI

07-14

Claude Code 双旋钮：模型选知识，努力定工作量

本文由 Claude Code 团队成员撰写，深入解析模型切换与努力级别两个设置的真实机制。模型切换的是训练后冻结的权重（知识），而努力级别控制的是 Claude 在任务中投入的工作量——包括读取文件、运行测试、验证结果等环节的深度与广度。文章通过清晰的类比（专家 vs 通才）和图表，解释了何时应升级模型（知识不足）而非增加努力（努力不够），并给出了实用的选择建议：默认优先使用默认努力，复杂问题选更大模型，常规任务选更小模型以节省成本。核心观点：先检查上下文，再判断是“没试够”还是“不会做”。

x.com · 14 min · AI Engineering · Claude Code · LLM

07-14

声称省 65% Token 的“电报体 Skill”，实测只能省 8.5%

本文剖析了近期流行的“电报体 Skill”（如 Caveman 项目），即让 AI 编程工具用极简语言输出以节省 Token。作者指出，Caveman 声称节省 65% Token 的数据来自聊天场景，但在智能体编程任务中，工具调用和系统提示词才是 Token 消耗大头。JetBrains 的对照测试（86 个任务，240 次试验）显示，强制开启后输出 Token 只省了 8.5%，且日常使用中因须自行判断触发，实际节省更少。文章进一步讨论电报体的代价：语言缩短导致信息缺失，增加开发者追问和 Agent 返工。作者认为，真正有效的成本优化在于上下文管理（如 prompt caching）和减少无用工具调用，而不是压缩输出文本。

x.com · 2 min · AI Engineering · Claude Code · Prompt Engineering

07-10

掌握Claude Code循环模式：从手动提示到自动任务编排

Claude Code团队定义了四种循环模式（turn-based、goal-based、time-based、proactive），并详细说明其触发方式、停止条件、适用场景及成本控制技巧。文章通过具体命令（/goal、/loop、/schedule）和SKILL.md示例展示了如何让Agent迭代工作、自验证结果，以及如何组合原语构建自动化工作流。适合正在探索Agent工程化的开发者。

x.com · 9 min · Agent Engineering · Claude Code · Context Engineering

07-04

从Superpowers转向mattpocock/skills：更省token、更可控的Agent工程实践

作者分享了从Superpowers切换至mattpocock/skills的实际体验与对比。Superpowers通过hooks强制规范流程，适合新手但易将简单问题复杂化且消耗大量token。mattpocock/skills的设计理念更贴近“真实工程师”，将决策权交还给用户，通过/grill-with-docs、/to-prd、/to-issues、/implement等明确步骤实现高效迭代。核心优势包括：token消耗更低、具备/tdd和/diagnosing-bugs等debug skill、支持/handoff跨模型交接、以及/improve-codebase-architecture用于重构。作者还提到与Fable 5、Codex 5.5等模型配合使用，并将PRD和issues存储在GitHub以便追溯。文章适合关注Agent工程、AI编程效率及工具选型的工程师。

justinyan.me · 3 min · Agent Engineering · Claude Code Marketplace · Framework

06-30

手把手搭建本地编程智能体：Qwen3.6、Codex与Claude Code的实践指南

本文提供从零搭建全本地编程智能体的详细教程。作者 Sebastian Raschka 以 Qwen3.6 35B-A3B 模型和 Qwen-Code 框架为主线，覆盖模型下载（Ollama）、推理速度与内存基准测试、自定义任务评估、安全审计要点等环节。文章还对比了同一模型在 Qwen-Code、Codex（开源）和 Claude Code 三种 harness 下的任务完成率与 token 消耗，发现 Codex 在同等成功率下 token 用量仅为 Claude Code 的一半。最后介绍了通过 SSH 隧道将模型部署在独立机器（如 DGX Spark）供主力机使用的方法。适合具备一定命令行经验、自建办公机或拥有独立 GPU/ARM 算力的系统/数据工程师阅读。

magazine.sebastianraschka.com · 45 min · Coding Agent · Local LLM · Ollama

06-24

循环工程：2026年AI构建者必备的新技能

本文由社区作者撰写，提出“循环工程”概念，主张从单次手动提示转向设计AI agent的自动化反馈闭环。核心论点是：高效的AI应用不是靠一个完美prompt，而是构建一个持续发现、规划、执行、验证、迭代的系统。文章详细介绍了六种构建模块（自动化、工作树、技能、插件与连接器、子agent、记忆）、两种循环规模（单agent与舰队循环）以及两种类型（开放循环与封闭循环），并坦诚讨论了最隐蔽的瓶颈——token成本。适合希望将AI agent从实验工具升级为生产级工作流的工程团队。

x.com · 12 min · Agent Architecture · Agents · AI Engineering

06-22

GLM-5.2：面向长时程任务，落地百万 Token 上下文与开源推理栈

智谱 AI 发布旗舰模型 GLM-5.2，重点提升长时程任务能力，首次在 1M token 上下文窗口上稳定运行，并采用 MIT 开源许可。架构层面引入 IndexShare 技术，每 4 层 Transformer 共享稀疏注意力索引器，使 1M 上下文下每 token FLOPs 降低 2.9 倍；改进 MTP 层，通过 IndexShare 与 KV 共享消除训练-推理差异，配合拒绝采样与端到端 TV 损失，将推测解码接受长度提升 20%。后训练阶段，基于 slime 框架统一组织大规模 agentic RL 训练，并引入反作弊模块，在线检测并阻断 agent 读取受保护评估产物、curl 下载答案等投机行为，维持训练信号有效性。GLM-5.2 在 FrontierSWE、PostTrainBench、SWE-Marathon 等长时程基准上位居开源模型第一，在 Terminal-Bench 2.1 上得分 81.0，逼近闭源前沿。文章适合关注长上下文推理、编码智能体、开源大模型工程化的开发者阅读。

z.ai · 21 min · Agent Architecture · AI · AI Engineering

06-16

为 AI Agent 打造的本土上下文压缩层：库、代理、MCP 一应俱全

Headroom 是一个本地运行的上下文压缩层，专为 AI 编码智能体设计。它能在 LLM 收到工具输出、日志、代码文件或 RAG 结果之前，对这些内容进行高保真压缩，在保持答案准确性的前提下，将 Token 消耗降低 60-95%。项目提供了库（Python/JS）、透明代理、命令行 wrap 和 MCP 服务器四种集成方式，无缝适配 Claude Code、Cursor、Codex 等主流智能体。其核心思路是结合 JSON 结构压缩、AST 感知代码精简与本地微调模型，并独创了 CCR 可逆压缩机制，确保原始信息随时可召回，避免了压缩带来的信息丢失风险。该工具适合重度依赖智能体编程、希望在不修改现有工作流的情况下显著降低 API 开销的工程师。

github.com · 18 min · Agents · Ast-Minification · Context Engineering

06-16

AI 代理上下文压缩层：60%-95% Token 削减，不丢失关键信息

Headroom 是一个本地运行的 AI 代理上下文压缩工具，旨在显著降低 LLM 使用成本与延迟。它在工具输出、日志、RAG 数据块及对话历史到达大模型前进行智能压缩，支持 JSON、代码和自然语言等多类内容。项目提供库、代理、MCP 服务器和代理包装器四种集成模式，通过内容路由选择最优压缩算法，并具备可逆压缩（CCR）机制确保原始数据不被丢弃。它还包含跨代理记忆共享和从失败会话中学习的 `headroom learn` 命令，适合每天高强度使用编程代理的工程师和任何需要优化 LLM Token 消耗的系统。

github.com · 18 min · Agent Architecture · Ai-Memory · Context Engineering