模型、配額和成本

📖 本篇術語速查表

英文 / 縮寫	中文	一句話解釋
模型	model	按任務選 Gemini 模型。
配額	quota	免費 / 付費的用量額度。
成本	cost	用量產生的花費。

不想讀完？把下面這段提示詞丟給 AI 幫你跑完——幫你按任務選 Gemini 模型、用好配額、控成本。

你是 Gemini CLI 模型與成本顧問。

【角色】
Gemini CLI 模型與成本顧問，按最小夠用、安全優先的原則給可落地方案。

【輸入】
- 任務型別和複雜度：___
- 對速度 / 成本 / 質量的優先順序：___
- 用的是免費配額還是付費：___
- 典型上下文大小：___

【工作流程】
1. 按複雜度分層選模型
2. 說明配額怎麼用、超了怎麼辦
3. 給降本做法
4. 給決策建議

【輸出規範】
▌一、模型推薦
▌二、配額使用與超額應對
▌三、降本做法
▌四、決策建議

【硬約束】
- 簡單任務不用最貴模型
- 配額 / 價格以官方為準
- 降本不犧牲必要質量
- 不要替我臆測情況或編造不存在的能力，資訊不全先問清
- 不確定的設定或介面一律以官方文件為準，禁止照搬過時寫法
- 給的每條結論都要落到具體可照做的步驟或示例，不停留在「建議」「考慮一下」這類沒法直接執行的空泛表述

Gemini CLI 的成本和穩定性不只取決於模型，還取決於認證方式、配額來源、上下文大小、是否快取、是否進入自動化。

模型、配額和價格都會變。教學裡寫選擇邏輯和複核路徑，不要把某個時間點的額度數字寫成永久結論。

先分認證來源

Google 登入        適合個人互動使用
Gemini API Key    適合指令碼、工具和輕量自動化
Vertex AI         適合企業雲專案、統一賬單和治理

不同入口的配額、隱私、計費和快取能力可能不同。涉及金額或生產自動化時，以官方 quotas 和 pricing 頁面為準。

認證入口	更適合	主要關注
Google 登入	本機互動、個人體驗	賬號權益、地區、Code Assist 邊界
Gemini API Key	指令碼、工具、輕量自動化	API quota、key 儲存、請求頻率
Vertex AI	企業、雲專案、統一治理	IAM、專案、區域、賬單和審計

模型怎麼選

不要只選“最強模型”。更穩的判斷是：

簡單解釋       低成本模型
複雜重構       更強推理模型
大儲存庫理解     關注上下文視窗和快取
CI 自動化      關注穩定、速度和失敗重試
敏感專案       關注認證入口和資料治理

token caching 的意義

長上下文任務裡，反覆傳同一批專案上下文會浪費 token。Token caching 能降低重複上下文成本，但是否可用取決於認證和 API 能力。

官方 FAQ 裡提到，cached token 資訊並不總會顯示；OAuth 使用者和 API key 使用者看到的統計可能不同。

控制成本的實際做法

用 .geminiignore 排除無關大檔案。
先讓 agent 列計劃，不要直接喂全儲存庫。
大任務分階段，每階段只給必要上下文。
headless 批次任務加頻率限制。
CI 中限制觸發條件和最大輪數。
對高成本任務輸出結構化結果，便於失敗重試。

配額錯誤怎麼判斷

429 Resource exhausted 通常是配額或頻率問題。先降低請求頻率、減少批處理併發，再檢查 AI Studio 或 Google Cloud 專案用量。

自動化裡的成本邊界

互動式使用裡，成本通常來自少數長任務；自動化裡，成本來自“重複”。一個 PR review workflow 如果對每次 push 都讀取全儲存庫，費用和配額很快會失控。更穩的方式是隻讀取 diff、相關檔案、測試輸出和必要設定。

Headless 批次指令碼要設定觸發條件、最大檔案數、最大輪數和失敗重試間隔。指令碼失敗時儲存輸入、輸出和錯誤碼，方便下次只重跑失敗項，而不是整批重跑。

成本失控的典型來源

來源	表現	控制方式
上下文過大	每輪都讀取無關檔案	`.geminiignore`、限定路徑、分階段讀取
自動化過頻	每次 push 都跑完整 review	限制觸發條件、只讀 diff、加併發控制
模型過強	簡單分類也用高推理模型	預設 Auto，按任務升級
重試粗糙	失敗後整批重跑	儲存輸入輸出，只重跑失敗項
認證混亂	quota 和賬單來源不清	明確 API key / OAuth / Vertex AI

選擇模型的落地規則

預設用 Auto。只有當任務失敗原因明確是推理能力不足時，再切 Pro；如果任務是格式整理、摘要、分類、提取，優先 Flash 或更低成本模型。模型切換要記錄在教學或指令碼設定裡，否則後續復現成本不可控。

認證方式會限制可用模型：用 Gemini API Key 免費層時，只能用 Flash 模型——Auto / Pro 都用不了。要用更強模型，要麼走 Google 賬號登入（Code Assist Individual / AI Pro / Ultra），要麼把 API key 切到 Pay-as-you-go。詳見 Quota and pricing。

驗收標準

任何長期工作流都要能回答：用什麼認證入口，預設模型是什麼，觸發頻率是多少，失敗如何重試，是否用了 .geminiignore 控制上下文，是否記錄 token / latency / error。回答不出來，就還不是可運營的工作流。

官方核驗點

模型、配額、preview、token caching 和價格都屬於高時效資訊。教學釋出前要回官方 quota/pricing、model selection、token caching 頁面複核，並寫清測試日期。不要把一次截圖裡的數字當作長期承諾。

自動化指令碼里還要記錄最終模型和失敗原因。否則 fallback 或配額變化後，你無法判斷成本上升來自模型、上下文還是重試策略。

成本覆盤必須能回到具體輸入和具體模型。

互動式任務也要看 /stats 或等價用量記錄。至少記錄模型、輪數、失敗重試次數和是否啟用快取，才能判斷一次任務貴在上下文、模型選擇還是無效重試。

官方資料

配額與定價：docs/resources/quota-and-pricing.md
模型選擇：docs/cli/model.md
模型路由（自動 fallback）：docs/cli/model-routing.md
Token caching：docs/cli/token-caching.md
模型生成引數（含 thinking budget）：docs/cli/generation-settings.md