上下文視窗對比:10 款 AI 程式設計工具實測(2026)
Gemini 2.5 Pro 的 1M、Claude Sonnet 的 200K、GPT-5 Codex 的 400K——上下文視窗數字很大,但真正決定工作體驗的是 agent loop 的 compact 策略。
「Gemini 2.5 Pro 上下文 1M token,是 Claude Sonnet 200K 的 5 倍——所以它寫程式碼更強?」
這是新手最容易踩的坑。紙面上下文視窗 ≠ 實際可用上下文——AI 程式設計工具的真實工作體驗,是「模型上下文 × agent loop 的 compact 策略 × attention 衰減」三者的乘積。
這一篇用 10 款工具的真實工作場景對比上下文視窗,告訴你 1M 跟 200K 的差距實際有多大。
本章目標:你會按真實工作流的上下文需求選工具,不被紙面數字誤導。
1. 上下文視窗到底裝什麼
flowchart TB
Window["上下文視窗(200K - 1M token)"] --> A["你的 prompt<br/>(幾百 token)"]
Window --> B["專案記憶<br/>CLAUDE.md / AGENTS.md / rules<br/>(幾千 token)"]
Window --> C["agent 讀進來的檔案<br/>(幾萬 - 幾十萬 token)"]
Window --> D["agent 自己的思考 / 輸出<br/>(幾千 - 幾萬 token)"]
Window --> E["歷史對話<br/>(每次問答累加)"]
Window --> F["MCP / 工具呼叫結果<br/>(命令輸出、網頁抓取)"]
200K 上下文典型分配:
- 專案記憶:5K
- 目前 task 描述:1K
- agent 讀進來的相關檔案:50-150K
- agent 思考 + 輸出:20-50K
- 工具呼叫結果:累加
實際工程中,agent 跑長任務,上下文很快被填滿——這時候模型要麼開始忘前面的內容,要麼 agent loop 觸發 compact(自動摘要老的部分給新的騰空間)。
2. 10 款工具的預設上下文
| 工具 | 預設模型 | 標稱上下文 | 實際可用* | 長任務 compact 策略 |
|---|---|---|---|---|
| Claude Code | Claude Sonnet 4 | 200K | 160-180K | 自動 compact(/compact 觸發) |
| Codex CLI | GPT-5 / Codex | 400K | 320-360K | session 切換 + AGENTS.md 跨 session 持久化 |
| Cursor | 多家 router | 200K-1M(視模型) | 視模型 | Composer 多步 + 檔案 indexing |
| GitHub Copilot | GPT-5 / Claude / Gemini | 200K-1M(視模型) | 視模型 | session-level compact |
| Gemini CLI | Gemini 2.5 Pro | 1M | 900K-1M | 大視窗 + 不需要頻繁 compact |
| Windsurf | SWE-1.5 / GPT / Claude 等 | 200K-1M(視模型) | 視模型 | Memories 跨 task 持久化 |
| Antigravity | Gemini 系 | 1M | 900K-1M | 大視窗 + Artifacts |
| OpenCode | 視你接的 LLM | 視模型(最大 1M) | 視模型 | 多 provider 切換 |
| Hermes Agent | 視你接的 LLM | 視模型 | 視模型 | 記憶系統 + recall |
| OpenClaw | 視你接的 LLM | 視模型 | 視模型 | 多 agent 協作分擔上下文 |
*實際可用:扣除專案記憶、系統 prompt、工具呼叫開銷等之後,留給"讀程式碼 + 思考"的真實空間。
3. 1M 上下文 vs 200K 實際差異
舉三個具體任務看差距。
任務 A · 讀一箇中型專案全程式碼 + 全域 refactor
中型專案(約 50K 行程式碼 ≈ 250K-400K token):
- Gemini CLI / Antigravity(1M):一次性吃下整個專案,agent 全域把握,refactor 不掉資訊
- Claude Code / Cursor(200K):必須分批讀 + 自動 compact,可能遺漏跨檔案依賴
- Codex(400K):夠裝大部分中型專案,少數巨大專案需要分批
這個任務上 Gemini CLI 真有優勢——但代價是 Google 生態繫結 + 模型口味不一定對你胃口。
任務 B · 修一個 bug
bug 修復任務(涉及 3-10 個檔案,約 5K-30K token):
- 200K 上下文夠裝 10 倍冗餘——200K 跟 1M 在這個任務上沒有差距
- 決定性因素是 agent loop 工程質量(找檔案準不準、推理深不深)
任務 C · 跑 4 小時的長 refactor
長任務(agent 持續推進 4 小時,累加思考 + 工具呼叫約 300-500K token):
- 200K 上下文:必須頻繁 compact,老的細節會丟
- 400K(Codex):能裝更長,但仍需中途 compact
- 1M(Gemini / Antigravity):幾乎不需要 compact,長任務連續性最好
實際工程經驗:短任務(< 30 分鐘)所有工具差距小;長任務(> 2 小時)1M 視窗優勢顯著。如果你每週跑 1-2 次長任務,上下文視窗是重要選型維度。
4. 為什麼上下文視窗不是唯一決定因素
flowchart LR
A["紙面上下文"] --> B["實際可用"]
B --> C["attention 衰減<br/>(視窗越大,遠處 token 關注度越弱)"]
C --> D["agent loop 工程<br/>(compact 觸發時機、檔案優先順序)"]
D --> E["模型自身能力<br/>(推理 / 程式設計 / 工具呼叫)"]
E --> F["真實工作體驗"]
1M 上下文的代價:
- attention 衰減——視窗越大,模型對最早部分的關注度越低("針在草垛裡"問題)
- 計算成本——同樣問題用 1M 上下文跑,token 消費比 200K 高數倍
- 延遲——大視窗推理更慢
Claude Sonnet 200K + 強 agent loop 和 Gemini 2.5 Pro 1M + 自動管理 是兩種不同設計哲學:
- Anthropic 選擇"視窗夠用 + agent 工程把效率拉滿"
- Google 選擇"視窗給到最大 + 讓使用者自己怎麼用都行"
哪個更好取決於你的工作流。
5. 三類使用者的推薦
A 類 · 長任務 / 大型專案使用者
特徵:單個專案程式碼量 > 50K 行;常跑 2 小時以上長任務。
推薦 Gemini CLI 或 Antigravity(Gemini 2.5 Pro 1M 上下文)。
B 類 · 短任務 / 中小專案使用者
特徵:專案程式碼量 < 30K 行;任務多在 30 分鐘內完成。
任何 200K+ 上下文的工具都夠。按其它維度(價格 / 模型口味 / 工作位置)選。
C 類 · 模型口味敏感使用者
特徵:對 Claude 的緊湊表達或 GPT 的邏輯結構有明確偏好。
模型偏好優先於上下文視窗。Claude Code(200K Claude)或 Codex(400K GPT-5)按你喜好選。
6. 三個常見誤區
誤區 1 · 上下文越大,AI 越聰明
錯。上下文視窗是容量,不是能力——它決定你能給 AI 多少資訊,不決定 AI 怎麼用這些資訊。Claude Opus 200K 上下文裡完成的複雜推理,可能比 Gemini Pro 1M 上下文裡的淺推理更有價值。
誤區 2 · 1M 上下文意味著我可以一次性丟 1M token
錯。實際推薦佔用率 ≤ 70%(即 700K)。超過這個比例後,attention 衰減顯著,模型開始遺漏中間內容。「針在草垛」(needle-in-haystack) 測試是衡量這個的標準。
誤區 3 · 上下文視窗在所有任務上都重要
錯。bug 修復、單檔案 refactor、寫新功能等 80% 日常任務在 200K 上下文裡完全夠。只有跨檔案全域 refactor、讀巨大專案、長會話連續性強的任務才用得到 1M。
7. 常見問題
Q1 · Claude Code 怎麼處理超出 200K 的專案?
透過 agent loop 工程:
- 不一次性讀所有檔案,按需要 grep / glob 精準讀相關部分
- 觸發
/compact自動摘要老對話騰空間 CLAUDE.md多級合併把專案元資訊凝練,不佔太多 token
實際工作中,200K 上下文的 Claude Code 可以處理 100K-300K 行程式碼的專案——agent loop 工程比紙面視窗更重要。
Q2 · Gemini CLI 的 1M 上下文真的能用滿嗎?
可以但要小心 attention 衰減。建議:
- 一次性佔用 ≤ 700K(70% 閾值)
- 關鍵資訊放上下文前半(attention 更強)
- 長會話超過一定長度後開新 session
Q3 · Codex 的 400K 上下文是什麼模型?
GPT-5 預設上下文是 400K(GPT-5-Codex 程式設計最佳化版同上)。比 Claude Sonnet 200K 多一倍,但比 Gemini 1M 少。對大部分程式設計任務足夠。
Q4 · 模型上下文視窗和工具上下文視窗是一回事嗎?
是。工具上下文視窗受限於背後模型——Cursor 用 Claude 時視窗是 200K,用 Gemini 時是 1M。
Q5 · 上下文視窗大對賬單影響多大?
顯著。token 計費按"輸入 + 輸出 token 數"算,輸入 1M 上下文意味著每次 LLM 呼叫成本是 200K 的 5 倍。訂閱檔(如 Cursor Pro)通常有 token 月配額,大視窗會更快用完。