Page-Agent 是阿里巴巴(Alibaba)开源的一个前端 AI 代理(Agent)框架,旨在通过自然语言指令操控网页 UI,实现“说人话”就能操作网页的效果。它本质上是一个纯前端的实验性 GUI Agent 库,支持将大型语言模型(LLM)与网页前端逻辑深度融合,主要用于构建网页智能助手、自动化脚本生成、无障碍访问优化以及 SaaS 产品的 AI 副驾功能。
- Page-Agent官网入口网址:https://alibaba.github.io/page-agent/
- Page-Agent开源项目地址:https://github.com/alibaba/page-agent

Page-Agent 定义为“基于 JavaScript 的页面内图形用户界面代理”。它的出现是为了打破传统网页自动化工具(如 Selenium 或 Puppeteer)需要编写大量代码和脚本的限制。Page-Agent 通过将 LLM 的自然语言理解能力直接嵌入网页前端,让普通用户或开发者只需输入一句话指令,Agent 就能自动识别并操作网页元素(如点击按钮、填写表单、切换页面等)。这种方式不仅降低了自动化测试和网页交互的门槛,也为复杂的后台系统(如 ERP、CRM)提供了更自然的人机交互方式。
核心特性与功能
- 自然语言操作:用户无需了解 HTML DOM 结构,只需用自然语言描述操作意图,Agent 会自动解析并执行指令。
- 轻量化集成:Page-Agent 是一个前端库,体积小巧。用户只需要在网页中引入一行 JavaScript 代码即可集成,无需部署后端服务或安装浏览器插件。
- 多模型兼容:它兼容 OpenAI API 规范,支持接入 OpenAI、通义千问等多种 LLM 模型。开发者还可以自定义 LLM 接口,实现模型的自由切换。
- 交互式界面:内置交互式聊天窗口(Chat UI),用户可以实时查看指令执行的思考过程(Chain-of-Thought),并在需要时进行干预或修改。
- 浏览器扩展支持:虽然核心是纯前端库,但它也提供了一个 Chrome 扩展(PageAgentExt),允许 Agent 控制用户的整个浏览器(跨页面操作),但需要用户显式授权。
典型应用场景
Page-Agent 的应用场景非常广泛,特别适合那些需要大量重复性网页操作的业务场景:
- SaaS 产品 AI 副驾:如在电商后台(京东后台、阿里巴巴后台)中,用户可以直接说“帮我把本周的订单导出成 Excel”,Agent 会自动在后台完成操作。
- 复杂表单自动化:在金融或政府网站上填写长表单时,用户只需上传文档或提供信息,Agent 会自动识别并填充所有表单字段。
- 客服系统:结合知识库,为用户提供基于网页内容的即时响应和操作建议。
- 无障碍访问:为视力障碍用户提供语音控制网页的能力,让网页操作变得更加友好。
Page-Agent 是阿里巴巴在前端 AI 领域的一项创新,它将大型语言模型的能力直接带到了用户的浏览器里。通过它,网页不再是冷冰冰的代码,而是拥有了“智能大脑”,能够理解用户意图并主动执行任务。这不仅是网页自动化技术的升级,也是人机交互方式的一次重大变革。
相关导航
暂无评论...





