标签 · AI Agents — Glean

11 条 · 按时间

07-23

将任意代码库转化为可查询知识图谱，专为AI编码助手设计

Graphify 是一个开源工具，能够将代码、文档、PDF、图片等资源转化为结构化的知识图谱。它使用 tree-sitter 在本地进行确定性 AST 解析，无需 LLM 即可提取代码中的调用、继承、引用等关系；对于非代码文件，则通过 AI 助手进行语义提取。生成的图谱支持交互式可视化（graph.html）、CLI 查询（graphify query/path/explain），并可作为 MCP 服务器供团队共享。所有边均标记为“显式提取”或“推断”，明确区分原始代码中的直接关系与解析生成的间接关系。适合需要在大型代码库中快速定位概念、追溯依赖、理解架构的工程师。

github.com · 59 min · AI Agents · Developer Tools · Knowledge Graph

07-22

Kimi Code CLI：专为下一代智能体打造的终端AI编码代理

Kimi Code CLI 是一个在终端中运行的 AI 编码代理，能直接读取和编辑代码、执行 shell 命令、搜索文件、抓取网页，并基于反馈自主决策下一步。它默认使用月之暗面 Kimi 模型，也支持其他兼容提供商。核心特色包括单二进制分发（无需 Node.js）、毫秒级启动的专用 TUI、视频输入支持、AI 原生 MCP 配置、丰富的插件生态、子代理并行执行、生命周期钩子，以及通过 ACP 协议与 Zed、JetBrains 等编辑器深度集成。适合希望用 AI 提升编码效率、探索 Agent 工作流的开发者。

github.com · 4 min · AI Agents · CLI · Developer Tools

07-16

「短绳」编程法：人类把关，AI编码质量胜过Fable

本文总结了一年多来在安全关键系统中使用 AI 代理编码的研究成果。作者提出“短绳法”：只有资深开发者才能使用，全程禁止 YOLO 模式，开发者必须逐 diff 审查 AI 提议的每次改动，及时打断跑偏倾向，每个子任务结束后提交，从而杜绝“氛围编程”带来的代码鬼祟。文章还给出了 AI 辅助代码评审的最佳实践——人类与 AI 共同审查 PR，AI 负责快速扫描常见错误，人类把关方向性决策；并且要求作者在提交 AI 辅助 PR 前必须自我逐行审查并加上 AI 使用声明。该方法即便使用非前沿模型，也能产出胜过 Fable 的高质量代码。适合希望用 AI 提升效能但不牺牲代码质量的资深工程师阅读。

blog.okturtles.org · 7 min · AI Agents · AI Engineering · Code

07-03

让 LLM 直接操控真实浏览器的自适应 CDP 工具

Browser Harness 是一个薄层自愈浏览器操控工具，让 LLM（如 Claude Code、Codex）通过 CDP 协议直接连接真实 Chrome 浏览器，完成任意网页任务。核心设计是“代理在运行中编写缺失的辅助代码”，即当代理遇到文件上传、跨域 iframe、滚动等场景时，自动生成可复用的 helper 函数并存储至 agent-workspace，下次同类操作无需重新探索。整个项目仅约 1000 行核心代码，无中间层，通过纯 WebSocket 直连浏览器 CDP 端点，赋予 LLM 完全的浏览器操控自由。适合需要让 AI 代理做真实网页操作（如数据抓取、自动化填写、复杂交互）的开发者。

github.com · 7 min · Agent Engineering · AI Agents · Browser Automation

06-30

AI 智能体浏览器自动化 CLI

agent-browser 是一个基于 Rust 原生的命令行工具，专为 AI 智能体（如 Claude Code、Cursor 等）提供浏览器自动化能力。它采用客户端-守护进程架构，核心是一个纯 Rust 的守护进程，通过 Chrome DevTools Protocol (CDP) 直接操控浏览器，无需 Node.js 环境。项目提供了丰富的命令集，包括导航、元素交互（支持 ref、CSS、XPath 选择器）、快照、截图、网络请求拦截、会话管理、认证状态持久化等。特别设计了安全机制（域名白名单、操作策略、加密状态存储）和对 AI 工作流的优化（可获取无障碍树快照、带编号标注的截图、MCP 服务器支持），使得 LLM 能可靠地通过命令行控制浏览器执行复杂网页任务。适合开发 AI Agent、自动化测试、网页数据抓取及需要让大模型操控网页的工程师。

github.com · 64 min · AI Agents · Browser Automation · CDP

06-18

面向 AI Agent 的结构化网络安全技能知识库

这是一个专为 AI 编程与安全助手设计的结构化网络安全技能库，并不是传统的脚本合集或渗透测试工具包。项目包含 754 个可执行的安全技能，覆盖 26 个安全领域，每项技能都用 YAML 前置元数据和分步骤的 Markdown 工作流编码了资深分析师的决策逻辑。核心价值在于把从业者的隐性知识转化为 AI 能直接发现、加载和执行的标准化指令，让通用大模型在网络安全调查中具备专家级操作能力。所有技能都映射到了 MITRE ATT&CK、NIST CSF 2.0 等五大威胁与治理框架，适合希望将 AI 智能体引入安全运维、事件响应和威胁狩猎等一线工作的工程师和研究员。

github.com · 28 min · AI Agents · Claude Code · Cybersecurity

06-12

2026 年如何构建真正可用的 AI Agent：从认知模型到代码实操

本文系统地拆解了构建实用 AI Agent 的核心架构与工程实践。作者首先厘清了聊天机器人、AI Agent 与 Agentic AI 的边界，指出真正 Agent 的本质是持续执行直到目标达成的循环系统，而非一次性问答。文章深入阐述了 Agent 运行的 ReAct 循环（思考-行动-观察-反思），并分解出 Agent 的五大基石：LLM 大脑、工具（手）、记忆（短期与长期）、自校正回路及验证环节。作者以“构建一个挖掘健身领域痛点创业想法的研究 Agent”为例，展示了从设定目标、赋予工具、引入循环、构建记忆到增加批评 Agent 的完整构建步骤，并附带了可直接使用的 5 种 Agent 系统提示。文章还总结了导致 Agent 失败的 6 个核心原因（如缺乏记忆、无停止条件等），并推荐了 Claude Code、LangGraph、MCP 等当前技术栈。适合希望从 Prompt 工程转向 Agent 系统工程的一线开发者阅读，提供从 50 行 Python 代码起步的周末实践路线图。

x.com · 21 min · Agent Architecture · AI Agents · AI Engineering

06-11

Headless Tools：让智能体直接在浏览器和桌面应用里执行动作

这篇文章提出了一种名为 Headless Tools 的新机制，解决了智能体（Agent）无法直接操控用户端运行环境的问题。作者指出，当前大多数 Agent 工具运行在服务端，可以调用 API，但无法访问浏览器、应用状态或设备能力（如剪贴板、定位、本地存储）。Headless Tools 将客户端能力（如 navigator.geolocation、IndexedDB、应用内导航）封装为模型可以调用的标准工具，模型感知不到工具实际执行的位置，服务端和客户端负责协调，使 Agent 能直接作用于用户所在的浏览器或桌面应用。文章提供了 TypeScript 代码示例，并展示了在 Slidev 演示框架和浏览器本地记忆中的具体应用。这一设计同时带来了隐私优势，因为敏感数据可以默认留在本地，无需发送到后端。本文适合需要构建深度集成前端应用的 Agent 系统的工程师阅读，特别是那些在 Figma 插件、富文本编辑器或桌面工具中嵌入 AI 能力的团队。

x.com · 7 min · AI Agents · AI Engineering · Browser

06-10

AI 代理技能：跨平台社交搜索与 30 天舆情简报

/last30days 是一个 AI 代理技能，能将 Reddit、X、YouTube、TikTok、Hacker News 等多个社交平台的最新内容聚合为一份 30 天内的舆情简报。它通过实体预解析（pre-research）智能识别关键人物、社区和话题，并行搜索并依据真实用户的点赞、转发和投入（而非 SEO 排名）进行评分排序，最终由 AI 合成有引用的深度摘要。项目以 MIT 开源，支持 Claude Code 等 50+ 代理框架，适合需要在会前快速了解某人或某话题最新动态的工程师、产品经理和研究者。

github.com · 27 min · AI Agents · Open Source · Social Media

06-10

Claude Fable 5 实战：用自校正循环和跨会话记忆打磨代理任务

作者分享了使用 Anthropic 的 Claude Fable 5 模型提升代理工作效能的两个实战方向：自校正循环和跨会话记忆。在自校正循环实验中，作者用 Parameter Golf——一个要求在 16MB 模型体积、8xH100 GPU 上 10 分钟内训练最佳模型的公开挑战——比较了 Fable 5 与 Opus 4.7 的表现。通过 Claude Managed Agents 提供的 Outcomes 原语，由独立验证子代理根据九项可检查标准评分，Fable 5 对训练管线的改进幅度约为 Opus 4.7 的 6 倍。Fable 5 更倾向于做结构性改动，并在遇到量化性能回退时展现出韧性，而 Opus 4.7 则停留在调整标量超参数的模板上。在记忆实验中，作者使用 Continual Learning Bench 1.0 中的 SQL 问答任务，对比了 Fable 5、Opus 4.7 和 Sonnet 4.6 利用文件系统跨会话记忆的能力。Sonnet 4.6 仅记录失败和未验证猜测，Opus 4.7 能创建带不确定性标记的 schema 参考但验证覆盖率中位数仅 17%；Fable 5 最强运行中验证覆盖率达 73% 并将学习提炼为通用规则。文章适合关注代理架构设计和模型能力边界的工程师阅读。

x.com · 5 min · Agent Architecture · AI Agents · AI Engineering

06-09

循环工程：让代码智能体在后台自主运行，而你设计的是循环本身

本文来自 Addy Osmani 对编码智能体未来工作模式的深度观察。核心观点是，与编码智能体交互的方式正从直接的提示词工程转向循环工程：工程师不再亲自写每一步提示词，而是设计一个包含定时自动化、并行工作树、项目技能、连接器插件和子智能体检查者的闭环系统，让系统自己去发现任务、分配工作、验证结果。文章详细拆解了这五个构建块及其在 Claude Code 和 Codex 中的对应实现，并强调了循环运行中必须持续关注验证、理解债务和认知舒适区的陷阱。适合正在探索如何将 AI 编码工具从一次性助手升级为持续后台工作者的资深工程师，尤其是那些关心代码质量、认知负担和成本控制的团队。

x.com · 14 min · Agent Architecture · AI Agents · AI Engineering