模型与运行时

模型与运行时决定 Gemini CLI 在不同任务上的成本、速度、稳定性和回退策略。不要只追“最强模型”，要看任务复杂度、上下文规模、配额和运行环境。

模型名、预览状态、配额和可见列表都会变。教程里推荐写 alias 和验证方式，同时记录实际模型、认证方式和测试日期。

学习路径

flowchart LR
    G3["Gemini 3"] --> Select["模型选择"]
    Select --> Routing["模型路由 / fallback"]
    Routing --> Local["本地模型路由"]
    Routing --> Cache["Token caching"]
    Cache --> ACP["ACP mode"]
    ACP --> Security["安全与企业"]

    style Select fill:#dbeafe,stroke:#3b82f6
    style Routing fill:#fef3c7,stroke:#f59e0b
    style Cache fill:#dcfce7,stroke:#22c55e

选择原则

简单任务     低成本、快响应
复杂推理     更强模型
长上下文     注意配额和 token 成本
自动化任务   稳定性和可观测性优先

本章的核心不是追逐模型名，而是建立可复核的运行记录：启动参数、认证方式、实际模型、是否 fallback、token 使用和任务结果。模型越新，越要把测试日期和账号条件写清楚。

建议学习顺序

先学 /model 和 --model，再学 fallback 和 /stats，最后再看 token caching、local router 和 ACP。普通用户不需要一开始理解 ACP；教程作者和工具链开发者才需要深入协议层。

模型问题排查也按这个顺序：先确认账号能看到什么模型，再确认启动命令请求了什么模型，再确认实际用了什么模型，最后再讨论参数、缓存和协议集成。

如果只是写入门教程，覆盖前两步就够；如果写自动化或企业教程，才需要继续展开运行时日志、fallback 记录和缓存统计。

模型选择

从 /model、--model、Auto、Pro、Flash 和 Manual 开始。

模型路由

继续看 fallback、Auto routing 和最终使用模型怎么排查。

Token caching

成本优化要结合认证方式、上下文裁剪和 /stats 验证。

页面清单

页面	解决的问题
Gemini 3	Gemini 3、Preview、release channel 和 fallback 提示
模型选择	`/model`、`--model`、alias、subagent 模型边界
模型路由	Auto routing、fallback、最终模型排查
本地模型路由	本地 Gemma router 的实验边界
Token caching	缓存节省、认证方式和 `/stats`
ACP mode	IDE / client 协议集成和文件代理

下一步

先读：Gemini 3。

章节验收

读完本章后，至少能解释三件事：为什么 /model 看到的选择不一定等于 usage report 全部模型；为什么 token caching 在 OAuth 下可能看不到；为什么 ACP 不等于 headless 自动化。解释不清时，先不要写生产自动化教程。