OpenAI 刚刚发布了一个 Chrome 插件,让 Codex 能够直接操控用户的浏览器,在用户已登录的网站和应用中完成任务。这是 AI Agent 能力的一次重要升级,也让我们离"AI 替你工作"更近了一步。
简单说,这是一个让 Codex 能够"看到"并"操作"你浏览器页面的工具。之前 Codex 只能处理本地文件、读代码、写代码;装了这个插件之后,它能:
"Codex can now use Chrome on your computer to complete work inside the websites and apps where you're already signed in."
这意味着 AI 不再只是一个"后端工具"——它现在有了前端界面,能像人一样操作浏览器。
一个能操作浏览器的 AI Agent,核心需要解决三个问题:
Agent 需要"看到"页面。当前主流方案有两种:
视觉方案:用多模态模型直接看页面截图,理解页面结构。这是 Claude Code Browser 工具和 Canvas 的做法。优点是不需要网站配合,缺点是上下文窗口消耗大、速度慢。
语义方案:通过 DOM 遍历或 Accessibility API 提取页面结构化信息。Codex 很可能采用这种方案——因为 Chrome 插件可以直接访问浏览器 DOM,不需要额外接口。
Codex 的插件能读取"用户已登录"的网站,说明它有某种页面内容读取机制,可能是通过 Chrome 的 content script 注入实现的。
给定一个高层目标(比如"帮我填写这份表格"),Agent 需要:
这就是我们之前文章里讨论的 Skill System 的用武之地——当 Agent 需要完成特定领域的浏览器任务时,它会调用相应的 Skill(浏览器操作 Skill)来执行。
执行层面需要解决两个技术挑战:
Codex 使用"特定任务标签页分组"(task-specific tab groups),让用户可以在 AI 工作的同时继续手动操作其他标签页,这是一个不错的用户体验设计。
Claude Code 也有自己的浏览器自动化能力(Browser 工具),两者设计思路有显著差异:
| 维度 | Claude Code Browser 工具 | Codex Chrome 插件 |
|---|---|---|
| 上下文 | 截图 + MMLU 页面理解 | 结构化 DOM 读取 |
| 触发方式 | 需要 Claude 主动发起 | 可以后台持续运行 |
| 用户交互 | 会话式,需明确指令 | 更自主,能主动操作 |
| 权限模型 | 每个操作需确认 | 可批量操作后统一确认 |
| 适用场景 | 开发调试、网页测试 | 重复性 Web 任务自动化 |
Claude Code 的方案更适合开发场景(你明确知道要让它做什么)。Codex 的方案更适合办公场景(AI 自己规划并完成一个多步骤的工作流)。
这个插件打开了几类真实场景:
让 AI 操控你的浏览器,这本身就是一个需要极度谨慎的事情。
OpenAI 对此的回应是"每个任务需要单独的确认",但显然这是一个需要用户高度警惕的能力。
Codex Chrome 插件的出现,是 AI 从"工具"到"同事"转变的一个里程碑。它不再只是回答问题,而是开始主动替你执行任务。
这和 Claude Code 的 Browser 工具走的是同一条路——让 AI 拥有执行现实世界任务的能力。但这次更进一步:它深入到了用户日常使用的浏览器环境中,而且是后台自主运行。
对于 Claude Code 源码剖析系列的读者来说,这个插件也验证了我们之前的一个核心观点:一个强大的 Agent 系统,感知和执行能力是同等重要的。Skill System 负责规划,Browser 工具负责执行——两者配合才能完成复杂任务。
接下来的问题是:当 AI 能自主操作你的浏览器时,你的浏览器标签页还是你的吗?