标签 · Anthropic — Glean

15 条 · 按时间

07-27

Anthropic 用 Claude Code 实战百万行代码迁移：6 步流程与关键教训

Anthropic 工程师使用 Claude Code（Fable 5 和 Opus 4.8）在两周内将 Bun 从 Zig 迁移到 Rust，产出百万行代码，测试通过率 100%；另一名工程师周末将 Python 代码库转换为 16.5 万行 TypeScript。本文总结了六步迁移流程：创建规则手册与依赖映射→压力测试规则→并行翻译→编译→运行→行为匹配。核心思路是不直接修复代码，而是修复产生代码的循环。文章还讨论了何时值得迁移、AI 改变迁移经济学的四个原因（并行性、上下文明确、内置裁判、队列自生成），以及多个最佳实践（如使用小模型做实现、大模型做审查）。文中给出了具体 token 消耗和成本数据（Bun 迁移消耗约 59 亿输入 token 和 6.9 亿输出 token，约 16.5 万美元）。

x.com · 15 min · Agent Architecture · AI Engineering · Anthropic

07-25

Claude Opus 5 发布：接近 Fable 5 性能，成本减半

Anthropic 发布 Claude Opus 5，性能接近最强模型 Fable 5 但价格减半。在编码（Frontier-Bench v0.1 超越所有模型，性能是 Opus 4.8 的两倍以上）和知识工作（ARC-AGI 3 得分是次优模型的 3 倍）上达到新 SOTA，但网络安全任务仍落后于 Mythos 5。模型支持 effortless 设置以平衡成本与智能，客户反馈在软件开发、金融、法律等领域表现显著提升。安全对齐更好，但故意未训练网络攻击能力，且安全拦截比 Fable 5 减少约 85%。定价与 Opus 4.8 相同，提供 Fast 模式。

www.anthropic.com · 20 min · AI Engineering · Anthropic · Cost Optimization

07-16

将文本上下文渲染为图片，本地代理为 Claude Code 削减约 60% token 成本

pxpipe 是一个本地代理，拦截 Claude Code API 请求，将系统提示、工具文档和旧历史记录等大块文本渲染为紧凑的 PNG 图片。利用图片 token 按像素尺寸而非字符数计费的特点，将输入 token 量削减约 60%，端到端 API 费用可降低 59–70%。它改写请求负载并保留提示缓存兼容性，默认对 Claude Fable 5 和 GPT-5.6 启用，提供仪表盘实时监控和收益门槛，避免稀疏文本反而增加开销。适合使用 LLM 编程助手的开发者，在保持任务能力的同时大幅降低 API 开销。

github.com · 12 min · Ai Tooling · Anthropic · CLI

07-13

Claude Mythos 问世后高危 CVE 激增 3.5 倍

Anthropic 于 2026 年 4 月宣布 Claude Mythos Preview 可自主发现软件漏洞，随后其 Project Glasswing 合作方（微软、Google、苹果、AWS 等）已利用该模型修复超 1 万高危漏洞。数据显示，2026 年 6 月主要组织披露的高危/严重 CVE 数量达到约 1500 条，是 Mythos 发布前月纪录的 3.5 倍以上。OpenAI 的 Daybreak 产品也有类似行动。该数据来自 Epoch，揭示了前沿模型在漏洞挖掘上带来的实际影响——既有正面修复成果，也推高了公开披露量。适合安全研究员、AI 安全政策制定者、开源项目维护者阅读。

epoch.ai · 2 min · Ai Safety · Anthropic · CVE

07-12

Anthropic 的信任危机：封闭生态、涨价与工程师的觉醒

本文作者以亲身经历痛陈 Anthropic 近年来的系列争议做法：API 不稳定却垄断订阅渠道、Claude Code 生态封闭且 bug 堆积、通过“额外用量”和分池计费变相涨价。作者指出，这些做法并非为改善产品，而是为下一轮模型训练筹集资金。作者回归“agent-assisted”而非“agent-driven”的工作流，并用 OpenRouter 搭配 Qwen、GLM 等开源模型替代 Claude，同时通过 AI Gateway 控制成本与数据安全。适合受困于单一 AI 平台、寻求更开放替代方案的一线工程师。

raheeljunaid.com · 11 min · Agent Engineering · Anthropic · Claude Code

07-10

Claude Code 技能实战：Anthropic 内部数百条技能的经验与分类

Anthropic 工程师基于内部使用数百条 Claude Code 技能的经验，系统总结了技能的九大类型（库/API 参考、产品验证、数据获取、业务流程、代码模板、代码质量、CI/CD、Runbook、基础设施运维），并给出了具体编写技巧：聚焦非显而易见的提示、构建 Gotchas 部分、利用文件系统渐进式披露、避免过度约束、合理设计配置、用 description 字段触发选择、在技能内存入数据（如日志文件或 SQLite）、以及用脚本/库减少模型 token 消耗。文章还讨论了技能的分发方式（仓库内嵌 vs 插件市场）、依赖组合与埋点测量。适合正在构建 Agent 工作流的工程师参考。

x.com · 15 min · Agent Engineering · Agent Skills · Anthropic

07-04

Superpowers 6：用自动化研究循环将构建成本降低60%

Superpowers 6 发布，核心改进来自一次自动化研究（autoresearch）实验：作者利用 Anthropic 的 Fable 模型（短暂可用期间）对自身的 Subagent Driven Development 流程进行了系统优化。在 36 小时内、花费约 165 美元 token 运行了 25 次实验，最终实现 wall-clock 速度提升 50%、token 消耗降低 60%。关键优化包括：合并合规审查与代码审查 agent、预生成 review packet 减少 git 调用、根据任务类型动态分配 agent 层级（如对非代码方案使用低成本 haiku）。文中披露了多个已证伪的假设（如限制 controller 思考时长适得其反），并强调 eval 套件在差异化测量中的关键作用。适合关注 AI 编码 agent 成本优化和 engineering productivity 的读者。

blog.fsck.com · 8 min · Agent Engineering · AI Engineering · Anthropic

07-02

人类与AI智能体组队协作的四个关键原则

Anthropic 基于内部数月实践，分享了构建人类与AI智能体混合团队的四条经验。作者指出，传统“单玩家”模式——一人一AI完成独立任务——正在被“多玩家”模式取代：具有独立凭证、持久记忆和广泛信息访问权限的智能体，可以像正式成员一样加入 Slack 频道、参与项目讨论、主动推进工作。文章的核心在于，优秀的人机协作不是技术问题，而是组织合作规范的重塑——公开工作流让智能体获得上下文、为每个成员（人类和智能体）定义明确的角色与工具、设定“北极星”目标激发智能体主动提议、通过逐步扩大自主权建立信任。文章还列出了团队启动前应自我审视的关键问题。适合正在尝试将AI智能体嵌入团队工作流的工程师和管理者阅读。

claude.com · 16 min · Agent Engineering · Agents · Anthropic

06-15

Claude 官方实践手册：从 RAG 到多模态 Agent 的工程配方集

Anthropic 官方维护的 Claude 实践指南集合，以 Jupyter Notebook 形式提供可直接运行的代码示例。项目覆盖从基础能力（分类、摘要、RAG）到进阶玩法（多模态视觉、工具调用、子 Agent 协同）的完整配方，尤其适合需要将 Claude 集成到生产环境的工程师快速上手。近期新增 Claude Agent SDK 与 Managed Agents 系列，展示了单行代码构建研究助手、SRE 助手等可观测、可托管的 Agent 架构。

github.com · 8 min · Agents · AI Engineering · Anthropic

06-13

面向投资银行、研究、私募等金融场景的 Claude 智能体与技能集

Anthropic 官方发布的金融领域 Claude 智能体参考实现，提供 9 个覆盖投行、研究、私募、财富管理等核心场景的端到端工作流代理，以及 8 个垂直技能包和 12+ MCP 数据连接器。所有内容均为 Markdown/YAML 配置，可一键安装为 Claude Cowork 插件或通过 Managed Agents API 部署到自有工作流引擎。适合需要快速构建金融 AI 应用、但又希望保留定制空间的技术团队。

github.com · 19 min · Agents · Anthropic · Financial-Services

06-13

Anthropic 发布 Mythos 级模型 Claude Fable 5：能力最强，但带着更多安全限制

Anthropic 发布了一款能力超越所有前代公开模型的 Claude Fable 5，并将其定级为“Mythos 级”。Fable 5 在几乎所有基准测试中表现领先，尤其在长周期、复杂任务上优势明显，覆盖软件工程、知识工作、视觉、科研等领域。为应对 Mythos 级模型在网络安全和生物学领域的严重滥用风险，Anthropic 内置了保守的安全分类器，会将敏感请求（如网络攻击相关）转交给 Opus 4.8，触发率约 5%。同时，他们为特定用户群发布了解除限制的 Claude Mythos 5，用于网络防御和生物医学研究，并推出了新的 30 天业务数据留存政策。文章展示了 Stripe 在 5000 万行 Ruby 代码库中一天完成两个月工作的案例、Slay the Spire 和 Pokémon 测试中的自主性能提升，以及蛋白质设计和分子生物学假设生成方面的突破。定价为每百万输入 token 10 美元，输出 50 美元。适合关注前沿 AI 能力、安全实践和工程应用的开发者与研究人员。

www.anthropic.com · 26 min · AI Engineering · AI Industry · Anthropic

06-12

Claude Projects 深度指南：25 个被低估的特性、工作流与技巧

本文由 @eng_khairallah1 撰写，系统梳理了 Claude Projects 从基础配置到高级策略的 25 个实战技巧。核心观点在于，Projects 不应被当作一次性对话工具，而是需要通过结构化指令模板、分类知识库上传和持续校准，将其打造成一个随时间不断进化的持久化工作区。文中提供了具体可操作的模板，如 'ROLE/CONTEXT/RULES/OUTPUT' 指令框架、'竞争力情报中心' 和 '客户专属项目' 的设置方法，并强调了通过 '反馈日志' 和 '季度刷新' 实现指令的复利优化。本文适合希望摆脱重复向 Claude 解释背景、寻求更高效和个性化 AI 协作方式的深度用户阅读。

x.com · 16 min · Agent Architecture · AI Engineering · Anthropic

06-11

如何为 Claude Fable 5 设计循环：自校正与跨会话记忆

R. Lance Martin 分享了针对 Anthropic 最新模型 Fable 5 的两类循环设计实验：自校正和工作记忆。在自校正环节，他用 Parameter Golf 挑战（训练一个能塞进 16MB、在 8xH100 上 10 分钟内跑完的模型）对比了 Fable 5 和 Opus 4.7。在 Claude Managed Agents (CMA) 环境下，Fable 5 通过 Outcomes 生成的 grading 子 agent 做独立验证，训练流水线的改进幅度是 Opus 4.7 的约 6 倍，且更敢于做结构性变更而非只调标量参数。在工作记忆实验中，基于 Continual Learning Bench 1.0 的任务，Fable 5 在连续 SQL 问答中展现出一条从记录失败、调查原因、交叉验证到抽象为通用规则的完整记忆链，验证覆盖率达到 73%，显著超过 Opus 4.7 和 Sonnet 4.6。文章适合正在为强模型设计 agent 循环的工程师阅读，核心主张是提供环境和反馈让模型自行爬坡，比直接提示更有效。

x.com · 5 min · Agent Architecture · Agents · AI Engineering

06-10

Claude Fable 5 实战：用自校正循环和跨会话记忆打磨代理任务

作者分享了使用 Anthropic 的 Claude Fable 5 模型提升代理工作效能的两个实战方向：自校正循环和跨会话记忆。在自校正循环实验中，作者用 Parameter Golf——一个要求在 16MB 模型体积、8xH100 GPU 上 10 分钟内训练最佳模型的公开挑战——比较了 Fable 5 与 Opus 4.7 的表现。通过 Claude Managed Agents 提供的 Outcomes 原语，由独立验证子代理根据九项可检查标准评分，Fable 5 对训练管线的改进幅度约为 Opus 4.7 的 6 倍。Fable 5 更倾向于做结构性改动，并在遇到量化性能回退时展现出韧性，而 Opus 4.7 则停留在调整标量超参数的模板上。在记忆实验中，作者使用 Continual Learning Bench 1.0 中的 SQL 问答任务，对比了 Fable 5、Opus 4.7 和 Sonnet 4.6 利用文件系统跨会话记忆的能力。Sonnet 4.6 仅记录失败和未验证猜测，Opus 4.7 能创建带不确定性标记的 schema 参考但验证覆盖率中位数仅 17%；Fable 5 最强运行中验证覆盖率达 73% 并将学习提炼为通用规则。文章适合关注代理架构设计和模型能力边界的工程师阅读。

x.com · 5 min · Agent Architecture · AI Agents · AI Engineering

06-08

Claude Code 动态工作流实战：6 种模式与 14 步完整指南

本文系统梳理了 Claude Code 于 2026 年 5 月底发布的 Dynamic Workflows 功能。不同于手动串联 prompts 或编写死板的静态 harness，动态工作流让 Claude 为特定任务即时生成定制的 JavaScript 控制程序。文章从底层思维模型切入，解释了工作流如何从结构上解决单一上下文窗口面临的三类失效：智能体惰性（提前终止）、自我偏好偏差（无法客观验证自身输出）及目标漂移（长对话后丢失约束）。随后逐一拆解 6 种核心模式：分类后路由（classify-and-act）、扇出后综合（fan-out-and-synthesize）、对抗性验证（adversarial verification）、生成后筛选（generate-and-filter）、竞标赛排序（tournament）以及循环至完成（loop until done），并提供了实际的代码骨架。最后，文章展示了如何组合这些模式来解决迁移重构、深度研究、大规模分诊、代码评审等真实场景的问题，同时强调了使用 /goal、/loop 及 token 预算控制成本、用隔离模式防范来自不可信输入的提示注入风险、以及将成功的工作流保存并打包为 Skill 分发的实操技巧。适合已在使用 Claude Code 并希望突破单 agent 限制，处理长周期、高并行或需要严格校验的复杂任务的工程师阅读。

x.com · 17 min · Agents · AI Engineering · Anthropic