理解網路安全邊界

GPT-5.3-Codex 是 OpenAI 按 Preparedness Framework 作為 High cybersecurity capability 對待的第一個模型，因此需要額外 safeguards。

這些 safeguards 包括訓練模型拒絕明顯 malicious requests，例如竊取 credentials。

除了 safety training，OpenAI 還使用 automated classifier-based monitors 檢測 suspicious cyber activity signals，並把 high-risk traffic 路由到 cyber capability 較低的模型，也就是 GPT-5.2。

OpenAI 預期只有很小一部分 traffic 會受到這些 mitigations 影響，並且正在持續完善 policies、classifiers 和 in-product notifications。

Why we’re doing this

過去幾個月，模型在 cybersecurity tasks 上的能力有明顯提升，這對 developers 和 security professionals 都有價值。

隨著模型越來越擅長 vulnerability discovery 這類 cybersecurity-related tasks，OpenAI 採取 precautionary approach：擴大 protections 和 enforcement，在支援 legitimate research 的同時減緩 misuse。

Cyber capabilities 天然是 dual-use。支撐重要 defensive work 的同一套知識和技術，例如 penetration testing、vulnerability research、high-scale scanning、malware analysis、threat intelligence，也可能造成真實世界傷害。

這些 capabilities 和 techniques 應該在能改善安全的場景中可用，並且更容易使用。OpenAI 的 Trusted Access for Cyber pilot 允許 individuals 和 organizations 在不中斷的情況下，繼續把 models 用於 potentially high-risk cybersecurity activity。

How it works

從事 cybersecurity-related work，或從事可能被 automated detection systems mistaken 的類似活動的 developers 和 security professionals，requests 可能會 fallback reroute 到 GPT-5.2。

OpenAI 預計只有很小一部分 traffic 會受到 mitigations 影響，並正在校準 policies 和 classifiers。

最新 alpha 版本的 Codex CLI 已經包含 request 被 reroute 時的 in-product messaging。未來幾天內，所有 clients 都會支援這類 messaging。

受到 mitigations 影響的 accounts，可以透過加入下面的 Trusted Access program，恢復 GPT-5.3-Codex access。

OpenAI 也承認，加入 Trusted Access 不一定適合所有人。因此隨著 mitigations 擴大和 strengthen cyber resilience，OpenAI 計劃在多數情況下從 account-level safety checks 轉向 request-level checks。

Trusted Access for Cyber

OpenAI 正在試點 "trusted access"，讓 developers 在 OpenAI 繼續校準 policies 和 classifiers、準備 general availability 的同時，保留 advanced capabilities。

目標是讓需要加入 Trusted Access for Cyber 的 users 非常少。

要把 models 用於 potentially high-risk cybersecurity work：

Users 可以在 chatgpt.com/cyber 驗證 identity。
Enterprises 可以透過 OpenAI representative，為整個團隊預設申請 trusted access。

可能需要更 cyber-capable 或更 permissive models 來加速 legitimate defensive work 的 security researchers 和 teams，可以表達加入 invite-only program 的興趣。

擁有 trusted access 的 users 仍必須遵守 Usage Policies 和 Terms of Use。

False positives

Legitimate 或 non-cybersecurity activity 偶爾也可能被 flagged。

發生 rerouting 時，responding model 會在 API request logs 中可見，並在 CLI 中顯示 in-product notice；很快所有 surfaces 都會支援。

如果你認為遇到的 rerouting 是錯誤的，請透過 /feedback 報告 false positives。

理解網路安全邊界

Why we’re doing this

How it works

Trusted Access for Cyber

False positives

本頁目錄