革命性GPT-5.4 CUA Sample App:探索浏览器自动化与AI协作的终极指南
革命性GPT-5.4 CUA Sample App:探索浏览器自动化与AI协作的终极指南
【免费下载链接】openai-cua-sample-app 项目地址: https://gitcode.com/gh_mirrors/op/openai-cua-sample-app
GPT-5.4 CUA Sample App是一个基于TypeScript的示例应用,专注于浏览器自动化与GPT-5.4的AI协作工作流程。该项目提供了直观的操作界面和强大的自动化能力,帮助用户轻松实现浏览器任务的自动化处理,开启AI驱动的浏览器操作新纪元。
🌟 项目核心功能与架构
GPT-5.4 CUA Sample App主要由以下几个关键部分组成:
- apps/demo-web:基于Next.js的操作控制台,用于启动运行、查看截图、事件和回放工件
- apps/runner:Fastify运行器,管理可变工作区、浏览器会话、SSE和回放包
- packages/*:共享的场景、运行时和契约包,便于后续添加新的实验场景
图:GPT-5.4 CUA Sample App架构示意图(注:实际项目中未找到可用图片,此为示意图)
该项目展示了如何从一个规范的位置集成Responses API(packages/runner-core/src/responses-loop.ts),如何在同一浏览器实验中切换code模式和native计算机模式,以及如何定义场景清单、启动隔离的运行工作区和验证结果。
🚀 快速开始:安装与设置
系统要求
- Node.js
22.20.0 - pnpm
10.26.0 - Playwright Chromium浏览器
安装步骤
- 克隆仓库
git clone https://gitcode.com/gh_mirrors/op/openai-cua-sample-app
cd openai-cua-sample-app
- 安装依赖
corepack enable
pnpm install
cp .env.example .env
- 配置环境变量
编辑.env文件,至少设置以下环境变量:
OPENAI_API_KEY=your_key_here
- 安装Playwright浏览器
pnpm playwright:install
在Linux系统上,还需要安装Playwright的系统依赖:
pnpm playwright:install:with-deps
- 启动应用
pnpm dev
打开http://127.0.0.1:3000,选择一个场景,保持"Headless"选项选中,然后开始运行。
💡 执行模式:灵活选择自动化方式
GPT-5.4 CUA Sample App提供两种主要执行模式,以适应不同的自动化需求:
Native模式
直接公开Responses API计算机工具,模型请求对实时浏览器会话执行点击、拖动、输入、等待和截图等操作。这种模式最接近计算机工具本身的使用方式。
Code模式
通过exec_js公开持久的Playwright JavaScript REPL,模型通过编写脚本来控制浏览器,而不是直接发出原始计算机操作。这种模式提供了更清晰的浏览器REPL harness示例。
两种模式使用相同的场景清单和回放管道,可以根据具体需求灵活选择。
📋 官方场景:实际应用示例
GPT-5.4 CUA Sample App提供了三个官方场景,展示了不同类型的浏览器自动化任务:
1. Kanban Sprint重排(kanban-reprioritize-sprint)
这个场景展示了如何基于操作提示,对目标看板状态进行有状态的拖放验证。通过AI驱动的自动化,可以轻松实现看板任务的优先级调整和重新排序。
2. 海报绘制(paint-draw-poster)
该场景教授光标控制、绘图,并根据实时画布验证保存的画布状态。展示了AI在创造性任务中的应用潜力。
3. 预订完成(booking-complete-reservation)
这个场景演示了多步骤浏览和表单填写,并根据本地确认记录进行验证。展示了AI在处理复杂表单和预订流程中的能力。
更多详细信息请参考docs/scenarios.md。
🛠️ 本地开发:深入探索与定制
如果需要独立日志,可以分别运行服务:
pnpm dev:runner
RUNNER_BASE_URL=http://127.0.0.1:4001 pnpm dev:web
常用检查命令:
pnpm lint # 代码检查
pnpm typecheck # 类型检查
pnpm test # 运行测试
pnpm build # 构建项目
pnpm check # 综合检查
⚠️ 安全与限制
使用GPT-5.4 CUA Sample App时,请注意以下安全事项和限制:
- 计算机使用仍然存在高风险,请勿将此示例指向需要身份验证的、金融的、医疗的或其他高风险环境。
- 此仓库特意专注于浏览器,工作区修补和文件编辑场景不在OSS发布分支的范围内。
- 此示例尚未实现挂起的计算机使用安全确认,当API请求时,运行将失败并显示稳定代码
unsupported_safety_acknowledgement。 - 公共场景是为确定性验证设计的本地实验,并非旨在作为通用Web自主性的证明。
📚 扩展学习与资源
要深入了解GPT-5.4 CUA Sample App的架构和场景,可参考以下资源:
- docs/architecture.md:架构指南
- docs/contributing.md:贡献指南
- packages/scenario-kit:公共场景清单和提示默认值
- packages/runner-core:编排、响应循环、场景执行器和验证
通过GPT-5.4 CUA Sample App,开发者可以快速入门浏览器自动化与AI协作的世界,探索AI驱动的自动化工作流的无限可能。无论是简单的表单填写还是复杂的交互操作,这个强大的工具包都能帮助你实现高效、智能的浏览器自动化。
立即开始你的AI浏览器自动化之旅,体验GPT-5.4带来的革命性变化!
【免费下载链接】openai-cua-sample-app 项目地址: https://gitcode.com/gh_mirrors/op/openai-cua-sample-app
更多推荐

所有评论(0)