AI 程式設計教學中文版
單維度橫評

上下文視窗對比:10 款 AI 程式設計工具實測(2026)

Gemini 2.5 Pro 的 1M、Claude Sonnet 的 200K、GPT-5 Codex 的 400K——上下文視窗數字很大,但真正決定工作體驗的是 agent loop 的 compact 策略。

「Gemini 2.5 Pro 上下文 1M token,是 Claude Sonnet 200K 的 5 倍——所以它寫程式碼更強?」

這是新手最容易踩的坑。紙面上下文視窗 ≠ 實際可用上下文——AI 程式設計工具的真實工作體驗,是「模型上下文 × agent loop 的 compact 策略 × attention 衰減」三者的乘積。

這一篇用 10 款工具的真實工作場景對比上下文視窗,告訴你 1M 跟 200K 的差距實際有多大。

本章目標:你會按真實工作流的上下文需求選工具,不被紙面數字誤導。

1. 上下文視窗到底裝什麼

flowchart TB
  Window["上下文視窗(200K - 1M token)"] --> A["你的 prompt<br/>(幾百 token)"]
  Window --> B["專案記憶<br/>CLAUDE.md / AGENTS.md / rules<br/>(幾千 token)"]
  Window --> C["agent 讀進來的檔案<br/>(幾萬 - 幾十萬 token)"]
  Window --> D["agent 自己的思考 / 輸出<br/>(幾千 - 幾萬 token)"]
  Window --> E["歷史對話<br/>(每次問答累加)"]
  Window --> F["MCP / 工具呼叫結果<br/>(命令輸出、網頁抓取)"]

200K 上下文典型分配:

  • 專案記憶:5K
  • 目前 task 描述:1K
  • agent 讀進來的相關檔案:50-150K
  • agent 思考 + 輸出:20-50K
  • 工具呼叫結果:累加

實際工程中,agent 跑長任務,上下文很快被填滿——這時候模型要麼開始忘前面的內容,要麼 agent loop 觸發 compact(自動摘要老的部分給新的騰空間)。

2. 10 款工具的預設上下文

工具預設模型標稱上下文實際可用*長任務 compact 策略
Claude CodeClaude Sonnet 4200K160-180K自動 compact(/compact 觸發)
Codex CLIGPT-5 / Codex400K320-360Ksession 切換 + AGENTS.md 跨 session 持久化
Cursor多家 router200K-1M(視模型)視模型Composer 多步 + 檔案 indexing
GitHub CopilotGPT-5 / Claude / Gemini200K-1M(視模型)視模型session-level compact
Gemini CLIGemini 2.5 Pro1M900K-1M大視窗 + 不需要頻繁 compact
WindsurfSWE-1.5 / GPT / Claude 等200K-1M(視模型)視模型Memories 跨 task 持久化
AntigravityGemini 系1M900K-1M大視窗 + Artifacts
OpenCode視你接的 LLM視模型(最大 1M)視模型多 provider 切換
Hermes Agent視你接的 LLM視模型視模型記憶系統 + recall
OpenClaw視你接的 LLM視模型視模型多 agent 協作分擔上下文

*實際可用:扣除專案記憶、系統 prompt、工具呼叫開銷等之後,留給"讀程式碼 + 思考"的真實空間。

3. 1M 上下文 vs 200K 實際差異

舉三個具體任務看差距。

任務 A · 讀一箇中型專案全程式碼 + 全域 refactor

中型專案(約 50K 行程式碼 ≈ 250K-400K token):

  • Gemini CLI / Antigravity(1M):一次性吃下整個專案,agent 全域把握,refactor 不掉資訊
  • Claude Code / Cursor(200K):必須分批讀 + 自動 compact,可能遺漏跨檔案依賴
  • Codex(400K):夠裝大部分中型專案,少數巨大專案需要分批

這個任務上 Gemini CLI 真有優勢——但代價是 Google 生態繫結 + 模型口味不一定對你胃口。

任務 B · 修一個 bug

bug 修復任務(涉及 3-10 個檔案,約 5K-30K token):

  • 200K 上下文夠裝 10 倍冗餘——200K 跟 1M 在這個任務上沒有差距
  • 決定性因素是 agent loop 工程質量(找檔案準不準、推理深不深)

任務 C · 跑 4 小時的長 refactor

長任務(agent 持續推進 4 小時,累加思考 + 工具呼叫約 300-500K token):

  • 200K 上下文:必須頻繁 compact,老的細節會丟
  • 400K(Codex):能裝更長,但仍需中途 compact
  • 1M(Gemini / Antigravity):幾乎不需要 compact,長任務連續性最好

實際工程經驗:短任務(< 30 分鐘)所有工具差距小;長任務(> 2 小時)1M 視窗優勢顯著。如果你每週跑 1-2 次長任務,上下文視窗是重要選型維度。

4. 為什麼上下文視窗不是唯一決定因素

flowchart LR
  A["紙面上下文"] --> B["實際可用"]
  B --> C["attention 衰減<br/>(視窗越大,遠處 token 關注度越弱)"]
  C --> D["agent loop 工程<br/>(compact 觸發時機、檔案優先順序)"]
  D --> E["模型自身能力<br/>(推理 / 程式設計 / 工具呼叫)"]
  E --> F["真實工作體驗"]

1M 上下文的代價

  • attention 衰減——視窗越大,模型對最早部分的關注度越低("針在草垛裡"問題)
  • 計算成本——同樣問題用 1M 上下文跑,token 消費比 200K 高數倍
  • 延遲——大視窗推理更慢

Claude Sonnet 200K + 強 agent loopGemini 2.5 Pro 1M + 自動管理 是兩種不同設計哲學:

  • Anthropic 選擇"視窗夠用 + agent 工程把效率拉滿"
  • Google 選擇"視窗給到最大 + 讓使用者自己怎麼用都行"

哪個更好取決於你的工作流。

5. 三類使用者的推薦

A 類 · 長任務 / 大型專案使用者

特徵:單個專案程式碼量 > 50K 行;常跑 2 小時以上長任務。

推薦 Gemini CLI 或 Antigravity(Gemini 2.5 Pro 1M 上下文)。

B 類 · 短任務 / 中小專案使用者

特徵:專案程式碼量 < 30K 行;任務多在 30 分鐘內完成。

任何 200K+ 上下文的工具都夠。按其它維度(價格 / 模型口味 / 工作位置)選。

C 類 · 模型口味敏感使用者

特徵:對 Claude 的緊湊表達或 GPT 的邏輯結構有明確偏好。

模型偏好優先於上下文視窗。Claude Code(200K Claude)或 Codex(400K GPT-5)按你喜好選。

6. 三個常見誤區

誤區 1 · 上下文越大,AI 越聰明

錯。上下文視窗是容量,不是能力——它決定你能給 AI 多少資訊,不決定 AI 怎麼用這些資訊。Claude Opus 200K 上下文裡完成的複雜推理,可能比 Gemini Pro 1M 上下文裡的淺推理更有價值。

誤區 2 · 1M 上下文意味著我可以一次性丟 1M token

錯。實際推薦佔用率 ≤ 70%(即 700K)。超過這個比例後,attention 衰減顯著,模型開始遺漏中間內容。「針在草垛」(needle-in-haystack) 測試是衡量這個的標準。

誤區 3 · 上下文視窗在所有任務上都重要

錯。bug 修復、單檔案 refactor、寫新功能等 80% 日常任務在 200K 上下文裡完全夠。只有跨檔案全域 refactor、讀巨大專案、長會話連續性強的任務才用得到 1M

7. 常見問題

Q1 · Claude Code 怎麼處理超出 200K 的專案?

透過 agent loop 工程:

  • 不一次性讀所有檔案,按需要 grep / glob 精準讀相關部分
  • 觸發 /compact 自動摘要老對話騰空間
  • CLAUDE.md 多級合併把專案元資訊凝練,不佔太多 token

實際工作中,200K 上下文的 Claude Code 可以處理 100K-300K 行程式碼的專案——agent loop 工程比紙面視窗更重要。

Q2 · Gemini CLI 的 1M 上下文真的能用滿嗎?

可以但要小心 attention 衰減。建議:

  • 一次性佔用 ≤ 700K(70% 閾值)
  • 關鍵資訊放上下文前半(attention 更強)
  • 長會話超過一定長度後開新 session

Q3 · Codex 的 400K 上下文是什麼模型?

GPT-5 預設上下文是 400K(GPT-5-Codex 程式設計最佳化版同上)。比 Claude Sonnet 200K 多一倍,但比 Gemini 1M 少。對大部分程式設計任務足夠

Q4 · 模型上下文視窗和工具上下文視窗是一回事嗎?

是。工具上下文視窗受限於背後模型——Cursor 用 Claude 時視窗是 200K,用 Gemini 時是 1M。

Q5 · 上下文視窗大對賬單影響多大?

顯著。token 計費按"輸入 + 輸出 token 數"算,輸入 1M 上下文意味著每次 LLM 呼叫成本是 200K 的 5 倍。訂閱檔(如 Cursor Pro)通常有 token 月配額,大視窗會更快用完。

8. 下一步去哪

本頁目錄