用 Computer Use 做应用验收
说明用 Computer Use 做真实产品流程 QA:复现 user journeys、记录失败点并输出 triage summary。
Computer Use 适合做真实产品流程 QA:它能看见界面、点击流程、输入字段,并记录哪里失败。适合在 release 前跑关键 user journeys,输出 severity、repro steps 和 triage summary。
官方页面:https://developers.openai.com/codex/use-cases/qa-your-app-with-computer-use
QA use case
用 Computer Use 点击真实产品流程并记录问题。
Computer Use
Codex App 的桌面应用操作能力和权限边界。
In-app browser
本地 Web 应用优先用内置浏览器做前端验证。
适合什么任务
| 场景 | Codex 应该做什么 |
|---|---|
| release 前验证真实用户流程 | 点击关键 flows,记录 functional bugs 和 UI issues |
| QA pass 需要可交接报告 | 每个 bug 写 repro steps、expected result、actual result、severity |
| 遇到 non-blocking issues | 继续测试剩余 flow,最后统一 triage |
相关官方说明:
- Computer Use:https://developers.openai.com/codex/app/computer-use
- Codex skills:https://developers.openai.com/codex/skills
先判断是否该用 Computer Use
Computer Use 不是所有 QA 的默认入口。官方文档把它定位在图形界面相关任务:Codex 可以看屏幕、点击、输入、导航窗口,也会受 macOS Screen Recording 和 Accessibility 权限约束。选择它之前先判断:
- Web app 是本地开发页面:优先用 Codex App 的 in-app browser 或 Playwright 类工具,因为它们更容易复现断点和控制 viewport。
- 桌面 app、iOS simulator、系统设置、浏览器登录态流程:可以用 Computer Use,因为这些流程很难只靠文件或命令输出验证。
- 涉及支付、账号、安全、隐私、凭据设置:只在你在场、可逐步确认权限和动作时使用。
- 有插件、MCP 或 API 可以结构化访问数据:优先用结构化入口,Computer Use 只负责视觉确认或无法结构化的操作。
这一步能避免把 Computer Use 当成“万能点击器”。QA 的目标是得到可复现问题,不是让 Codex 随便探索界面。
起始提示词
@Computer Use 请在 [environment] 中测试我的 app。
测试这些 flows:
- [hero use case 1]
- [hero use case 2]
- [hero use case 3]
每发现一个 bug,请包含:
- repro steps
- expected result
- actual result
- severity
遇到 non-blocking issues 时继续测试,最后给一份简短 triage summary。这个 prompt 明确了 environment、flows 和 report format。QA pass 的价值来自可复现、可分派的输出。
操作步骤
- 准备 Computer Use。
- 告诉 Codex 要测试哪个 app、build 或 environment。
- 列出你最关心的 flows 或 hero use cases。
- 要求 structured report,方便 triage 或 handoff。
宽泛版本:
@Computer Use 请测试我的 app,找出主要问题,并给我一份报告。更明确版本:
@Computer Use 请在 staging 中测试我的 app。覆盖 signup、invite a teammate 和 upgrade billing。每个 bug 都记录 repro steps、expected result、actual result 和 severity。如果 repo 里已有 test-plan file,把它 attach 到 thread,或告诉 Codex 路径,让 QA pass 按已有 flows 走。
QA 输入要写清楚
一轮可交接的 QA pass 至少需要四类输入:
| 输入 | 示例 | 作用 |
|---|---|---|
| Environment | local dev、staging、TestFlight、debug build | 避免 Codex 点错环境 |
| Account state | 已登录、未登录、新用户、管理员 | 避免误判权限或数据状态 |
| Hero flows | signup、invite teammate、upgrade billing | 控制测试范围 |
| Report format | severity、repro、expected、actual、evidence | 让结果能直接分派 |
如果你只说“测试一下”,Codex 可能会把时间花在低价值探索上。更好的写法是把最重要的 3 到 5 条用户路径列出来,并说明遇到阻塞时是停止还是继续。
报告格式
要求 Codex 输出可直接进入 issue 系统的结构:
Bug: [短标题]
Severity: blocker / high / medium / low
Flow: [哪个用户路径]
Repro steps:
1. ...
Expected:
- ...
Actual:
- ...
Evidence:
- screenshot / screen note / URL / build
Suggested owner:
- frontend / backend / design / QA / product不要只让它写“页面有问题”。商业上线前,QA report 的价值在于可以复现、可以分派、可以回归。
实用边界
说清 setup
account state、test data、feature flags、environment choice 会直接影响结果。prompt 里写清 local、staging 或 production-like behavior。
指定关注的问题类型
可以让 Codex 聚焦:
- broken functionality。
- layout issues。
- confusing copy。
- visual regressions。
- all of the above。
决定 stop 还是 continue
如果一个 blocking issue 应该终止本轮测试,提前说明。否则要求 Codex 继续跑完剩余 flow,收集所有 non-blocking issues 后再总结。
后续处理
QA pass 后保持同一线程:
- 让 Codex 修其中一个 bug。
- 把 findings 转成 Linear 或 GitHub-ready drafts。
- 把下一轮 QA 缩小到某个 failing flow。
安全边界
Computer Use 会看到并操作你允许的 app。官方文档明确提醒:它可以处理可见屏幕内容、截图、窗口、菜单、键盘输入和剪贴板状态。做 QA 时要把边界写进 prompt:
- 只打开本轮需要测试的 app 和浏览器窗口。
- 测试账号和测试数据提前准备好,避免暴露真实客户数据。
- 支付、隐私、安全设置、凭据输入等流程必须人工在场。
- 如果 Codex 点到错误窗口,立即停止任务。
- 对浏览器登录态页面,把 Codex 的点击当成你本人操作来审核。
本站使用建议
这个教程站自己的断点和页面 QA,不优先用 Computer Use。更合适的顺序是:
- 用构建命令保证所有 MDX 和路由能编译。
- 用 Playwright 或等价脚本扫桌面、平板、手机宽度。
- 对首页、系列页、搜索页和长文页做截图抽查。
- 只有在需要验证真实 macOS App、浏览器登录态或跨应用流程时,再启用 Computer Use。
这样能让自动化检查覆盖更多页面,同时把 Computer Use 留给它真正擅长的图形界面流程。