理解網路安全邊界
這些 safeguards 包括訓練模型拒絕明顯 malicious requests,例如竊取 credentials。
GPT-5.3-Codex 是 OpenAI 按 Preparedness Framework 作為 High cybersecurity capability 對待的第一個模型,因此需要額外 safeguards。
這些 safeguards 包括訓練模型拒絕明顯 malicious requests,例如竊取 credentials。
除了 safety training,OpenAI 還使用 automated classifier-based monitors 檢測 suspicious cyber activity signals,並把 high-risk traffic 路由到 cyber capability 較低的模型,也就是 GPT-5.2。
OpenAI 預期只有很小一部分 traffic 會受到這些 mitigations 影響,並且正在持續完善 policies、classifiers 和 in-product notifications。
Why we’re doing this
過去幾個月,模型在 cybersecurity tasks 上的能力有明顯提升,這對 developers 和 security professionals 都有價值。
隨著模型越來越擅長 vulnerability discovery 這類 cybersecurity-related tasks,OpenAI 採取 precautionary approach:擴大 protections 和 enforcement,在支援 legitimate research 的同時減緩 misuse。
Cyber capabilities 天然是 dual-use。支撐重要 defensive work 的同一套知識和技術,例如 penetration testing、vulnerability research、high-scale scanning、malware analysis、threat intelligence,也可能造成真實世界傷害。
這些 capabilities 和 techniques 應該在能改善安全的場景中可用,並且更容易使用。OpenAI 的 Trusted Access for Cyber pilot 允許 individuals 和 organizations 在不中斷的情況下,繼續把 models 用於 potentially high-risk cybersecurity activity。
How it works
從事 cybersecurity-related work,或從事可能被 automated detection systems mistaken 的類似活動的 developers 和 security professionals,requests 可能會 fallback reroute 到 GPT-5.2。
OpenAI 預計只有很小一部分 traffic 會受到 mitigations 影響,並正在校準 policies 和 classifiers。
最新 alpha 版本的 Codex CLI 已經包含 request 被 reroute 時的 in-product messaging。未來幾天內,所有 clients 都會支援這類 messaging。
受到 mitigations 影響的 accounts,可以透過加入下面的 Trusted Access program,恢復 GPT-5.3-Codex access。
OpenAI 也承認,加入 Trusted Access 不一定適合所有人。因此隨著 mitigations 擴大和 strengthen cyber resilience,OpenAI 計劃在多數情況下從 account-level safety checks 轉向 request-level checks。
Trusted Access for Cyber
OpenAI 正在試點 "trusted access",讓 developers 在 OpenAI 繼續校準 policies 和 classifiers、準備 general availability 的同時,保留 advanced capabilities。
目標是讓需要加入 Trusted Access for Cyber 的 users 非常少。
要把 models 用於 potentially high-risk cybersecurity work:
- Users 可以在 chatgpt.com/cyber 驗證 identity。
- Enterprises 可以透過 OpenAI representative,為整個團隊預設申請 trusted access。
可能需要更 cyber-capable 或更 permissive models 來加速 legitimate defensive work 的 security researchers 和 teams,可以表達加入 invite-only program 的興趣。
擁有 trusted access 的 users 仍必須遵守 Usage Policies 和 Terms of Use。
False positives
Legitimate 或 non-cybersecurity activity 偶爾也可能被 flagged。
發生 rerouting 時,responding model 會在 API request logs 中可見,並在 CLI 中顯示 in-product notice;很快所有 surfaces 都會支援。
如果你認為遇到的 rerouting 是錯誤的,請透過 /feedback 報告 false positives。