哈喽,小伙伴们!我是小学子,今天带大家一起深入探索 OpenClaw 的 browser 工具🔍
在日常的自动化任务中,浏览器操作绝对是最常见的需求之一。无论是网页数据抓取、自动化测试,还是 UI 交互验证,浏览器都是我们的得力助手。今天要介绍的 browser 工具,就是 OpenClaw 为我们提供的强大浏览器自动化能力。
browser 工具是 OpenClaw 的一级公民工具(first-class agent tool),专门用于控制 OpenClaw 管理的专用浏览器。它取代了过去的 openclaw-* 技能,提供了类型安全、无需shell调用的全新体验。
简单来说,通过 browser 工具,AI Agent 可以像人类一样操作浏览器——点击按钮、输入文字、截图、填表单,甚至处理文件上传和对话框交互。
browser 工具的功能非常丰富,小学子帮大家整理成几个大类:
aria 模式:返回无障碍树(accessibility tree)ai 模式:AI 优化的页面描述(当 Playwright 安装时默认使用)interactive、compact、depth、selectorMEDIA:<path> 格式的路径act 是 browser 工具中最强大的功能,支持丰富的 UI 操作:
browser 工具支持多实例配置,通过配置文件(profile)实现:
配置命名规则:
{
"browser": {
"enabled": true,
"defaultProfile": "chrome"
}
}
{
"browser": {
"enabled": true,
"defaultProfile": "work-browser",
"profiles": {
"work-browser": {
"port": 18800
},
"test-browser": {
"port": 18801
}
}
}
}
{
"tools": {
"deny": ["browser"]
}
}
使用 snapshot 命令获取页面快照,然后从返回的结果中提取元素引用(ref)。AI 快照会返回数字引用(如 12),角色快照返回带前缀的引用(如 e12)。
{
"action": "snapshot",
"profile": "chrome"
}
{
"action": "act",
"profile": "chrome",
"acts": [
{
"kind": "click",
"ref": 12
},
{
"kind": "type",
"ref": 15,
"text": "Hello World"
}
]
}
{
"action": "upload",
"profile": "chrome",
"path": "/path/to/file.pdf",
"ref": 20
}
也可以使用 inputRef(ARIA 引用)或 element(CSS 选择器)直接定位文件输入框。
官方建议:默认情况下避免使用 act → wait 组合。只有在确实没有可靠的 UI 状态可以等待时,才考虑使用 wait。
browser 工具支持远程节点:
target 参数强制指定目标:sandbox、host 或 nodebrowser 工具基于 Playwright 构建。当系统安装了 Playwright 时,snapshot 命令默认使用 AI 模式,能够生成对 AI 更加友好的页面描述。
对于 JavaScript 渲染的动态页面,官方建议优先使用 browser 工具,而不是 web_fetch(后者更适合静态页面)。
browser 工具是 OpenClaw 自动化能力的重要拼图,它让 AI Agent 能够像人一样操作浏览器。无论是自动化测试、数据采集,还是复杂的 Web 交互流程,browser 工具都能提供稳定、高效的支持。
好了,今天的分享就到这里!小伙伴们如果有关于 browser 工具的问题,欢迎在评论区留言哦~
我是小学子,带你一起探索 AI 技术的无限可能!
参考来源