上下文窗口对比：10 款 AI 编程工具实测（2026）

📖 本篇术语速查表

英文 / 缩写	中文	一句话解释
上下文窗口	context window	一次能看多少信息。
有效上下文	effective	标称大≠用得好。
成本关联	cost	上下文越大越贵。

不想读完？把下面这段提示词丢给 AI 帮你跑完——帮你按上下文窗口这个维度判断哪个工具更适合你的项目。

你是 上下文窗口对比顾问。

【角色】
上下文窗口对比顾问，按「按场景选而非按强弱选」「最小够用」的原则给可落地建议，每条结论都落到能照做的具体判断或步骤，不停留在「看情况」「各有优劣」这类空泛表述。

【输入】
- 我的项目代码量级：___
- 常做大范围重构吗：___
- 对成本的敏感度：___
- 已在用的工具：___
- 经验水平：___

【工作流程】
1. 说明上下文窗口为何重要
2. 按我的项目判断需要多大
3. 对比各工具的实际表现
4. 提醒标称值的陷阱
5. 给推荐

【输出规范】
▌一、为何重要
▌二、我需要多大
▌三、各工具表现
▌四、推荐 + 第一步

【硬约束】
- 按你的真实场景选，不堆参数对比
- 结论给到明确推荐而非「各有优劣」
- 易变的价格 / 功能以官方为准
- 不要替我臆测我的情况或编造工具不存在的能力，信息不全先问清
- 不确定的功能或价格一律以各工具官方为准，禁止照搬过时对比

「Gemini 2.5 Pro 上下文 1M token，是 Claude Sonnet 200K 的 5 倍——所以它写代码更强？」

这是新手最容易踩的坑。纸面上下文窗口 ≠ 实际可用上下文——AI 编程工具的真实工作体验，是「模型上下文 × agent loop 的 compact 策略 × attention 衰减」三者的乘积。

这一篇用 10 款工具的真实工作场景对比上下文窗口，告诉你 1M 跟 200K 的差距实际有多大。

本章目标：你会按真实工作流的上下文需求选工具，不被纸面数字误导。

1. 上下文窗口到底装什么

flowchart TB
  Window["上下文窗口（200K - 1M token）"] --> A["你的 prompt<br/>（几百 token）"]
  Window --> B["项目记忆<br/>CLAUDE.md / AGENTS.md / rules<br/>（几千 token）"]
  Window --> C["agent 读进来的文件<br/>（几万 - 几十万 token）"]
  Window --> D["agent 自己的思考 / 输出<br/>（几千 - 几万 token）"]
  Window --> E["历史对话<br/>（每次问答累加）"]
  Window --> F["MCP / 工具调用结果<br/>（命令输出、网页抓取）"]

200K 上下文典型分配：

项目记忆：5K
当前 task 描述：1K
agent 读进来的相关文件：50-150K
agent 思考 + 输出：20-50K
工具调用结果：累加

实际工程中，agent 跑长任务，上下文很快被填满——这时候模型要么开始忘前面的内容，要么 agent loop 触发 compact（自动摘要老的部分给新的腾空间）。

2. 10 款工具的默认上下文

工具	默认模型	标称上下文	实际可用*	长任务 compact 策略
Claude Code	Claude Sonnet 4	200K	160-180K	自动 compact（`/compact` 触发）
Codex CLI	GPT-5 / Codex	400K	320-360K	session 切换 + AGENTS.md 跨 session 持久化
Cursor	多家 router	200K-1M（视模型）	视模型	Composer 多步 + 文件 indexing
GitHub Copilot	GPT-5 / Claude / Gemini	200K-1M（视模型）	视模型	session-level compact
Gemini CLI	Gemini 2.5 Pro	1M	900K-1M	大窗口 + 不需要频繁 compact
Windsurf	SWE-1.5 / GPT / Claude 等	200K-1M（视模型）	视模型	Memories 跨 task 持久化
Antigravity	Gemini 系	1M	900K-1M	大窗口 + Artifacts
OpenCode	视你接的 LLM	视模型（最大 1M）	视模型	多 provider 切换
Hermes Agent	视你接的 LLM	视模型	视模型	记忆系统 + recall
OpenClaw	视你接的 LLM	视模型	视模型	多 agent 协作分担上下文

*实际可用：扣除项目记忆、系统 prompt、工具调用开销等之后，留给"读代码 + 思考"的真实空间。

3. 1M 上下文 vs 200K 实际差异

举三个具体任务看差距。

任务 A · 读一个中型项目全代码 + 全局 refactor

中型项目（约 50K 行代码 ≈ 250K-400K token）：

Gemini CLI / Antigravity（1M）：一次性吃下整个项目，agent 全局把握，refactor 不掉信息
Claude Code / Cursor（200K）：必须分批读 + 自动 compact，可能遗漏跨文件依赖
Codex（400K）：够装大部分中型项目，少数巨大项目需要分批

这个任务上 Gemini CLI 真有优势——但代价是 Google 生态绑定 + 模型口味不一定对你胃口。

任务 B · 修一个 bug

bug 修复任务（涉及 3-10 个文件，约 5K-30K token）：

200K 上下文够装 10 倍冗余——200K 跟 1M 在这个任务上没有差距
决定性因素是 agent loop 工程质量（找文件准不准、推理深不深）

任务 C · 跑 4 小时的长 refactor

长任务（agent 持续推进 4 小时，累加思考 + 工具调用约 300-500K token）：

200K 上下文：必须频繁 compact，老的细节会丢
400K（Codex）：能装更长，但仍需中途 compact
1M（Gemini / Antigravity）：几乎不需要 compact，长任务连续性最好

实际工程经验：短任务（< 30 分钟）所有工具差距小；长任务（> 2 小时）1M 窗口优势显著。如果你每周跑 1-2 次长任务，上下文窗口是重要选型维度。

4. 为什么上下文窗口不是唯一决定因素

flowchart LR
  A["纸面上下文"] --> B["实际可用"]
  B --> C["attention 衰减<br/>（窗口越大，远处 token 关注度越弱）"]
  C --> D["agent loop 工程<br/>（compact 触发时机、文件优先级）"]
  D --> E["模型自身能力<br/>（推理 / 编程 / 工具调用）"]
  E --> F["真实工作体验"]

1M 上下文的代价：