AI 程式設計教程中文版
官方教程中文版規則、安全與配置

理解網路安全邊界

這些 safeguards 包括訓練模型拒絕明顯 malicious requests,例如竊取 credentials。

GPT-5.3-Codex 是 OpenAI 按 Preparedness Framework 作為 High cybersecurity capability 對待的第一個模型,因此需要額外 safeguards。

這些 safeguards 包括訓練模型拒絕明顯 malicious requests,例如竊取 credentials。

除了 safety training,OpenAI 還使用 automated classifier-based monitors 檢測 suspicious cyber activity signals,並把 high-risk traffic 路由到 cyber capability 較低的模型,也就是 GPT-5.2。

OpenAI 預期只有很小一部分 traffic 會受到這些 mitigations 影響,並且正在持續完善 policies、classifiers 和 in-product notifications。

Why we’re doing this

過去幾個月,模型在 cybersecurity tasks 上的能力有明顯提升,這對 developers 和 security professionals 都有價值。

隨著模型越來越擅長 vulnerability discovery 這類 cybersecurity-related tasks,OpenAI 採取 precautionary approach:擴大 protections 和 enforcement,在支援 legitimate research 的同時減緩 misuse。

Cyber capabilities 天然是 dual-use。支撐重要 defensive work 的同一套知識和技術,例如 penetration testing、vulnerability research、high-scale scanning、malware analysis、threat intelligence,也可能造成真實世界傷害。

這些 capabilities 和 techniques 應該在能改善安全的場景中可用,並且更容易使用。OpenAI 的 Trusted Access for Cyber pilot 允許 individuals 和 organizations 在不中斷的情況下,繼續把 models 用於 potentially high-risk cybersecurity activity。

How it works

從事 cybersecurity-related work,或從事可能被 automated detection systems mistaken 的類似活動的 developers 和 security professionals,requests 可能會 fallback reroute 到 GPT-5.2。

OpenAI 預計只有很小一部分 traffic 會受到 mitigations 影響,並正在校準 policies 和 classifiers。

最新 alpha 版本的 Codex CLI 已經包含 request 被 reroute 時的 in-product messaging。未來幾天內,所有 clients 都會支援這類 messaging。

受到 mitigations 影響的 accounts,可以透過加入下面的 Trusted Access program,恢復 GPT-5.3-Codex access。

OpenAI 也承認,加入 Trusted Access 不一定適合所有人。因此隨著 mitigations 擴大和 strengthen cyber resilience,OpenAI 計劃在多數情況下從 account-level safety checks 轉向 request-level checks。

Trusted Access for Cyber

OpenAI 正在試點 "trusted access",讓 developers 在 OpenAI 繼續校準 policies 和 classifiers、準備 general availability 的同時,保留 advanced capabilities。

目標是讓需要加入 Trusted Access for Cyber 的 users 非常少。

要把 models 用於 potentially high-risk cybersecurity work:

可能需要更 cyber-capable 或更 permissive models 來加速 legitimate defensive work 的 security researchers 和 teams,可以表達加入 invite-only program 的興趣。

擁有 trusted access 的 users 仍必須遵守 Usage PoliciesTerms of Use

False positives

Legitimate 或 non-cybersecurity activity 偶爾也可能被 flagged。

發生 rerouting 時,responding model 會在 API request logs 中可見,並在 CLI 中顯示 in-product notice;很快所有 surfaces 都會支援。

如果你認為遇到的 rerouting 是錯誤的,請透過 /feedback 報告 false positives。

本頁目錄