模型、配額和成本
理解 Gemini CLI 的模型選擇、認證入口、配額、token caching 和成本控制。
Gemini CLI 的成本和穩定性不只取決於模型,還取決於認證方式、配額來源、上下文大小、是否快取、是否進入自動化。
模型、配額和價格都會變。教程裡寫選擇邏輯和複核路徑,不要把某個時間點的額度數字寫成永久結論。
先分認證來源
Google 登录 适合个人交互使用
Gemini API Key 适合脚本、工具和轻量自动化
Vertex AI 适合企业云项目、统一账单和治理不同入口的配額、隱私、計費和快取能力可能不同。涉及金額或生產自動化時,以官方 quotas 和 pricing 頁面為準。
| 認證入口 | 更適合 | 主要關注 |
|---|---|---|
| Google 登入 | 本機互動、個人體驗 | 賬號權益、地區、Code Assist 邊界 |
| Gemini API Key | 指令碼、工具、輕量自動化 | API quota、key 儲存、請求頻率 |
| Vertex AI | 企業、雲專案、統一治理 | IAM、專案、區域、賬單和審計 |
模型怎麼選
不要只選“最強模型”。更穩的判斷是:
简单解释 低成本模型
复杂重构 更强推理模型
大仓库理解 关注上下文窗口和缓存
CI 自动化 关注稳定、速度和失败重试
敏感项目 关注认证入口和数据治理token caching 的意義
長上下文任務裡,反覆傳同一批專案上下文會浪費 token。Token caching 能降低重複上下文成本,但是否可用取決於認證和 API 能力。
官方 FAQ 裡提到,cached token 資訊並不總會顯示;OAuth 使用者和 API key 使用者看到的統計可能不同。
控制成本的實際做法
- 用
.geminiignore排除無關大檔案。 - 先讓 agent 列計劃,不要直接喂全儲存庫。
- 大任務分階段,每階段只給必要上下文。
- headless 批次任務加頻率限制。
- CI 中限制觸發條件和最大輪數。
- 對高成本任務輸出結構化結果,便於失敗重試。
配額錯誤怎麼判斷
429 Resource exhausted 通常是配額或頻率問題。先降低請求頻率、減少批處理併發,再檢查 AI Studio 或 Google Cloud 專案用量。
自動化裡的成本邊界
互動式使用裡,成本通常來自少數長任務;自動化裡,成本來自“重複”。一個 PR review workflow 如果對每次 push 都讀取全儲存庫,費用和配額很快會失控。更穩的方式是隻讀取 diff、相關檔案、測試輸出和必要配置。
Headless 批次指令碼要設定觸發條件、最大檔案數、最大輪數和失敗重試間隔。指令碼失敗時儲存輸入、輸出和錯誤碼,方便下次只重跑失敗項,而不是整批重跑。
成本失控的典型來源
| 來源 | 表現 | 控制方式 |
|---|---|---|
| 上下文過大 | 每輪都讀取無關檔案 | .geminiignore、限定路徑、分階段讀取 |
| 自動化過頻 | 每次 push 都跑完整 review | 限制觸發條件、只讀 diff、加併發控制 |
| 模型過強 | 簡單分類也用高推理模型 | 預設 Auto,按任務升級 |
| 重試粗糙 | 失敗後整批重跑 | 儲存輸入輸出,只重跑失敗項 |
| 認證混亂 | quota 和賬單來源不清 | 明確 API key / OAuth / Vertex AI |
選擇模型的落地規則
預設用 Auto。只有當任務失敗原因明確是推理能力不足時,再切 Pro;如果任務是格式整理、摘要、分類、提取,優先 Flash 或更低成本模型。模型切換要記錄在教程或指令碼配置裡,否則後續復現成本不可控。
認證方式會限制可用模型:用 Gemini API Key 免費層時,只能用 Flash 模型——Auto / Pro 都用不了。要用更強模型,要麼走 Google 賬號登入(Code Assist Individual / AI Pro / Ultra),要麼把 API key 切到 Pay-as-you-go。詳見 Quota and pricing。
驗收標準
任何長期工作流都要能回答:用什麼認證入口,預設模型是什麼,觸發頻率是多少,失敗如何重試,是否用了 .geminiignore 控制上下文,是否記錄 token / latency / error。回答不出來,就還不是可運營的工作流。
官方核驗點
模型、配額、preview、token caching 和價格都屬於高時效資訊。教程釋出前要回官方 quota/pricing、model selection、token caching 頁面複核,並寫清測試日期。不要把一次截圖裡的數字當作長期承諾。
自動化指令碼里還要記錄最終模型和失敗原因。否則 fallback 或配額變化後,你無法判斷成本上升來自模型、上下文還是重試策略。
成本覆盤必須能回到具體輸入和具體模型。
互動式任務也要看 /stats 或等價用量記錄。至少記錄模型、輪數、失敗重試次數和是否啟用快取,才能判斷一次任務貴在上下文、模型選擇還是無效重試。
官方資料
- 配額與定價:docs/resources/quota-and-pricing.md
- 模型選擇:docs/cli/model.md
- 模型路由(自動 fallback):docs/cli/model-routing.md
- Token caching:docs/cli/token-caching.md
- 模型生成引數(含 thinking budget):docs/cli/generation-settings.md