AI 编程教程中文版
官方教程中文版实战场景

用 Computer Use 做应用验收

说明用 Computer Use 做真实产品流程 QA:复现 user journeys、记录失败点并输出 triage summary。

Computer Use 适合做真实产品流程 QA:它能看见界面、点击流程、输入字段,并记录哪里失败。适合在 release 前跑关键 user journeys,输出 severity、repro steps 和 triage summary。

官方页面:https://developers.openai.com/codex/use-cases/qa-your-app-with-computer-use

适合什么任务

场景Codex 应该做什么
release 前验证真实用户流程点击关键 flows,记录 functional bugs 和 UI issues
QA pass 需要可交接报告每个 bug 写 repro steps、expected result、actual result、severity
遇到 non-blocking issues继续测试剩余 flow,最后统一 triage

相关官方说明:

先判断是否该用 Computer Use

Computer Use 不是所有 QA 的默认入口。官方文档把它定位在图形界面相关任务:Codex 可以看屏幕、点击、输入、导航窗口,也会受 macOS Screen Recording 和 Accessibility 权限约束。选择它之前先判断:

  • Web app 是本地开发页面:优先用 Codex App 的 in-app browser 或 Playwright 类工具,因为它们更容易复现断点和控制 viewport。
  • 桌面 app、iOS simulator、系统设置、浏览器登录态流程:可以用 Computer Use,因为这些流程很难只靠文件或命令输出验证。
  • 涉及支付、账号、安全、隐私、凭据设置:只在你在场、可逐步确认权限和动作时使用。
  • 有插件、MCP 或 API 可以结构化访问数据:优先用结构化入口,Computer Use 只负责视觉确认或无法结构化的操作。

这一步能避免把 Computer Use 当成“万能点击器”。QA 的目标是得到可复现问题,不是让 Codex 随便探索界面。

起始提示词

@Computer Use 请在 [environment] 中测试我的 app。

测试这些 flows:
- [hero use case 1]
- [hero use case 2]
- [hero use case 3]

每发现一个 bug,请包含:
- repro steps
- expected result
- actual result
- severity

遇到 non-blocking issues 时继续测试,最后给一份简短 triage summary。

这个 prompt 明确了 environment、flows 和 report format。QA pass 的价值来自可复现、可分派的输出。

操作步骤

  1. 准备 Computer Use
  2. 告诉 Codex 要测试哪个 app、build 或 environment。
  3. 列出你最关心的 flows 或 hero use cases。
  4. 要求 structured report,方便 triage 或 handoff。

宽泛版本:

@Computer Use 请测试我的 app,找出主要问题,并给我一份报告。

更明确版本:

@Computer Use 请在 staging 中测试我的 app。覆盖 signup、invite a teammate 和 upgrade billing。每个 bug 都记录 repro steps、expected result、actual result 和 severity。

如果 repo 里已有 test-plan file,把它 attach 到 thread,或告诉 Codex 路径,让 QA pass 按已有 flows 走。

QA 输入要写清楚

一轮可交接的 QA pass 至少需要四类输入:

输入示例作用
Environmentlocal dev、staging、TestFlight、debug build避免 Codex 点错环境
Account state已登录、未登录、新用户、管理员避免误判权限或数据状态
Hero flowssignup、invite teammate、upgrade billing控制测试范围
Report formatseverity、repro、expected、actual、evidence让结果能直接分派

如果你只说“测试一下”,Codex 可能会把时间花在低价值探索上。更好的写法是把最重要的 3 到 5 条用户路径列出来,并说明遇到阻塞时是停止还是继续。

报告格式

要求 Codex 输出可直接进入 issue 系统的结构:

Bug: [短标题]
Severity: blocker / high / medium / low
Flow: [哪个用户路径]
Repro steps:
1. ...
Expected:
- ...
Actual:
- ...
Evidence:
- screenshot / screen note / URL / build
Suggested owner:
- frontend / backend / design / QA / product

不要只让它写“页面有问题”。商业上线前,QA report 的价值在于可以复现、可以分派、可以回归。

实用边界

说清 setup

account state、test data、feature flags、environment choice 会直接影响结果。prompt 里写清 local、staging 或 production-like behavior。

指定关注的问题类型

可以让 Codex 聚焦:

  • broken functionality。
  • layout issues。
  • confusing copy。
  • visual regressions。
  • all of the above。

决定 stop 还是 continue

如果一个 blocking issue 应该终止本轮测试,提前说明。否则要求 Codex 继续跑完剩余 flow,收集所有 non-blocking issues 后再总结。

后续处理

QA pass 后保持同一线程:

  • 让 Codex 修其中一个 bug。
  • 把 findings 转成 Linear 或 GitHub-ready drafts。
  • 把下一轮 QA 缩小到某个 failing flow。

安全边界

Computer Use 会看到并操作你允许的 app。官方文档明确提醒:它可以处理可见屏幕内容、截图、窗口、菜单、键盘输入和剪贴板状态。做 QA 时要把边界写进 prompt:

  • 只打开本轮需要测试的 app 和浏览器窗口。
  • 测试账号和测试数据提前准备好,避免暴露真实客户数据。
  • 支付、隐私、安全设置、凭据输入等流程必须人工在场。
  • 如果 Codex 点到错误窗口,立即停止任务。
  • 对浏览器登录态页面,把 Codex 的点击当成你本人操作来审核。

本站使用建议

这个教程站自己的断点和页面 QA,不优先用 Computer Use。更合适的顺序是:

  1. 用构建命令保证所有 MDX 和路由能编译。
  2. 用 Playwright 或等价脚本扫桌面、平板、手机宽度。
  3. 对首页、系列页、搜索页和长文页做截图抽查。
  4. 只有在需要验证真实 macOS App、浏览器登录态或跨应用流程时,再启用 Computer Use。

这样能让自动化检查覆盖更多页面,同时把 Computer Use 留给它真正擅长的图形界面流程。

本页目录