用 Computer Use 做應用驗收
說明用 Computer Use 做真實產品流程 QA:復現 user journeys、記錄失敗點並輸出 triage summary。
Computer Use 適合做真實產品流程 QA:它能看見介面、點選流程、輸入欄位,並記錄哪裡失敗。適合在 release 前跑關鍵 user journeys,輸出 severity、repro steps 和 triage summary。
官方頁面:https://developers.openai.com/codex/use-cases/qa-your-app-with-computer-use
QA use case
用 Computer Use 點選真實產品流程並記錄問題。
Computer Use
Codex App 的桌面應用操作能力和許可權邊界。
In-app browser
本地 Web 應用優先用內建瀏覽器做前端驗證。
適合什麼任務
| 場景 | Codex 應該做什麼 |
|---|---|
| release 前驗證真實使用者流程 | 點選關鍵 flows,記錄 functional bugs 和 UI issues |
| QA pass 需要可交接報告 | 每個 bug 寫 repro steps、expected result、actual result、severity |
| 遇到 non-blocking issues | 繼續測試剩餘 flow,最後統一 triage |
相關官方說明:
- Computer Use:https://developers.openai.com/codex/app/computer-use
- Codex skills:https://developers.openai.com/codex/skills
先判斷是否該用 Computer Use
Computer Use 不是所有 QA 的預設入口。官方文件把它定位在圖形介面相關任務:Codex 可以看螢幕、點選、輸入、導航視窗,也會受 macOS Screen Recording 和 Accessibility 許可權約束。選擇它之前先判斷:
- Web app 是本地開發頁面:優先用 Codex App 的 in-app browser 或 Playwright 類工具,因為它們更容易復現斷點和控制 viewport。
- 桌面 app、iOS simulator、系統設定、瀏覽器登入態流程:可以用 Computer Use,因為這些流程很難只靠檔案或命令輸出驗證。
- 涉及支付、賬號、安全、隱私、憑據設定:只在你在場、可逐步確認許可權和動作時使用。
- 有外掛、MCP 或 API 可以結構化訪問資料:優先用結構化入口,Computer Use 只負責視覺確認或無法結構化的操作。
這一步能避免把 Computer Use 當成“萬能點選器”。QA 的目標是得到可復現問題,不是讓 Codex 隨便探索介面。
起始提示詞
@Computer Use 请在 [environment] 中测试我的 app。
测试这些 flows:
- [hero use case 1]
- [hero use case 2]
- [hero use case 3]
每发现一个 bug,请包含:
- repro steps
- expected result
- actual result
- severity
遇到 non-blocking issues 时继续测试,最后给一份简短 triage summary。這個 prompt 明確了 environment、flows 和 report format。QA pass 的價值來自可復現、可分派的輸出。
操作步驟
- 準備 Computer Use。
- 告訴 Codex 要測試哪個 app、build 或 environment。
- 列出你最關心的 flows 或 hero use cases。
- 要求 structured report,方便 triage 或 handoff。
寬泛版本:
@Computer Use 请测试我的 app,找出主要问题,并给我一份报告。更明確版本:
@Computer Use 请在 staging 中测试我的 app。覆盖 signup、invite a teammate 和 upgrade billing。每个 bug 都记录 repro steps、expected result、actual result 和 severity。如果 repo 裡已有 test-plan file,把它 attach 到 thread,或告訴 Codex 路徑,讓 QA pass 按已有 flows 走。
QA 輸入要寫清楚
一輪可交接的 QA pass 至少需要四類輸入:
| 輸入 | 示例 | 作用 |
|---|---|---|
| Environment | local dev、staging、TestFlight、debug build | 避免 Codex 點錯環境 |
| Account state | 已登入、未登入、新使用者、管理員 | 避免誤判許可權或資料狀態 |
| Hero flows | signup、invite teammate、upgrade billing | 控制測試範圍 |
| Report format | severity、repro、expected、actual、evidence | 讓結果能直接分派 |
如果你只說“測試一下”,Codex 可能會把時間花在低價值探索上。更好的寫法是把最重要的 3 到 5 條使用者路徑列出來,並說明遇到阻塞時是停止還是繼續。
報告格式
要求 Codex 輸出可直接進入 issue 系統的結構:
Bug: [短标题]
Severity: blocker / high / medium / low
Flow: [哪个用户路径]
Repro steps:
1. ...
Expected:
- ...
Actual:
- ...
Evidence:
- screenshot / screen note / URL / build
Suggested owner:
- frontend / backend / design / QA / product不要只讓它寫“頁面有問題”。商業上線前,QA report 的價值在於可以復現、可以分派、可以迴歸。
實用邊界
說清 setup
account state、test data、feature flags、environment choice 會直接影響結果。prompt 裡寫清 local、staging 或 production-like behavior。
指定關注的問題型別
可以讓 Codex 聚焦:
- broken functionality。
- layout issues。
- confusing copy。
- visual regressions。
- all of the above。
決定 stop 還是 continue
如果一個 blocking issue 應該終止本輪測試,提前說明。否則要求 Codex 繼續跑完剩餘 flow,收集所有 non-blocking issues 後再總結。
後續處理
QA pass 後保持同一執行緒:
- 讓 Codex 修其中一個 bug。
- 把 findings 轉成 Linear 或 GitHub-ready drafts。
- 把下一輪 QA 縮小到某個 failing flow。
安全邊界
Computer Use 會看到並操作你允許的 app。官方文件明確提醒:它可以處理可見螢幕內容、截圖、視窗、選單、鍵盤輸入和剪貼簿狀態。做 QA 時要把邊界寫進 prompt:
- 只開啟本輪需要測試的 app 和瀏覽器視窗。
- 測試賬號和測試資料提前準備好,避免暴露真實客戶資料。
- 支付、隱私、安全設定、憑據輸入等流程必須人工在場。
- 如果 Codex 點到錯誤視窗,立即停止任務。
- 對瀏覽器登入態頁面,把 Codex 的點選當成你本人操作來稽核。
本站使用建議
這個教程站自己的斷點和頁面 QA,不優先用 Computer Use。更合適的順序是:
- 用構建命令保證所有 MDX 和路由能編譯。
- 用 Playwright 或等價指令碼掃桌面、平板、手機寬度。
- 對首頁、系列頁、搜尋頁和長文頁做截圖抽查。
- 只有在需要驗證真實 macOS App、瀏覽器登入態或跨應用流程時,再啟用 Computer Use。
這樣能讓自動化檢查覆蓋更多頁面,同時把 Computer Use 留給它真正擅長的圖形介面流程。