AI 程式設計教學中文版
從原理到實戰

模型、配額和成本

理解 Gemini CLI 的模型選擇、認證入口、配額、token caching 和成本控制。

📖 本篇術語速查表
英文 / 縮寫中文一句話解釋
模型model按任務選 Gemini 模型。
配額quota免費 / 付費的用量額度。
成本cost用量產生的花費。

不想讀完?把下面這段提示詞丟給 AI 幫你跑完——幫你按任務選 Gemini 模型、用好配額、控成本。

你是 Gemini CLI 模型與成本顧問。

【角色】
Gemini CLI 模型與成本顧問,按最小夠用、安全優先的原則給可落地方案。

【輸入】
- 任務型別和複雜度:___
- 對速度 / 成本 / 質量的優先順序:___
- 用的是免費配額還是付費:___
- 典型上下文大小:___

【工作流程】
1. 按複雜度分層選模型
2. 說明配額怎麼用、超了怎麼辦
3. 給降本做法
4. 給決策建議

【輸出規範】
▌一、模型推薦
▌二、配額使用與超額應對
▌三、降本做法
▌四、決策建議

【硬約束】
- 簡單任務不用最貴模型
- 配額 / 價格以官方為準
- 降本不犧牲必要質量
- 不要替我臆測情況或編造不存在的能力,資訊不全先問清
- 不確定的設定或介面一律以官方文件為準,禁止照搬過時寫法
- 給的每條結論都要落到具體可照做的步驟或示例,不停留在「建議」「考慮一下」這類沒法直接執行的空泛表述

Gemini CLI 的成本和穩定性不只取決於模型,還取決於認證方式、配額來源、上下文大小、是否快取、是否進入自動化。

模型、配額和價格都會變。教學裡寫選擇邏輯和複核路徑,不要把某個時間點的額度數字寫成永久結論。

先分認證來源

Google 登入        適合個人互動使用
Gemini API Key    適合指令碼、工具和輕量自動化
Vertex AI         適合企業雲專案、統一賬單和治理

不同入口的配額、隱私、計費和快取能力可能不同。涉及金額或生產自動化時,以官方 quotas 和 pricing 頁面為準。

認證入口更適合主要關注
Google 登入本機互動、個人體驗賬號權益、地區、Code Assist 邊界
Gemini API Key指令碼、工具、輕量自動化API quota、key 儲存、請求頻率
Vertex AI企業、雲專案、統一治理IAM、專案、區域、賬單和審計

模型怎麼選

不要只選“最強模型”。更穩的判斷是:

簡單解釋       低成本模型
複雜重構       更強推理模型
大儲存庫理解     關注上下文視窗和快取
CI 自動化      關注穩定、速度和失敗重試
敏感專案       關注認證入口和資料治理

token caching 的意義

長上下文任務裡,反覆傳同一批專案上下文會浪費 token。Token caching 能降低重複上下文成本,但是否可用取決於認證和 API 能力。

官方 FAQ 裡提到,cached token 資訊並不總會顯示;OAuth 使用者和 API key 使用者看到的統計可能不同。

控制成本的實際做法

  • .geminiignore 排除無關大檔案。
  • 先讓 agent 列計劃,不要直接喂全儲存庫。
  • 大任務分階段,每階段只給必要上下文。
  • headless 批次任務加頻率限制。
  • CI 中限制觸發條件和最大輪數。
  • 對高成本任務輸出結構化結果,便於失敗重試。

配額錯誤怎麼判斷

429 Resource exhausted 通常是配額或頻率問題。先降低請求頻率、減少批處理併發,再檢查 AI Studio 或 Google Cloud 專案用量。

自動化裡的成本邊界

互動式使用裡,成本通常來自少數長任務;自動化裡,成本來自“重複”。一個 PR review workflow 如果對每次 push 都讀取全儲存庫,費用和配額很快會失控。更穩的方式是隻讀取 diff、相關檔案、測試輸出和必要設定。

Headless 批次指令碼要設定觸發條件、最大檔案數、最大輪數和失敗重試間隔。指令碼失敗時儲存輸入、輸出和錯誤碼,方便下次只重跑失敗項,而不是整批重跑。

成本失控的典型來源

來源表現控制方式
上下文過大每輪都讀取無關檔案.geminiignore、限定路徑、分階段讀取
自動化過頻每次 push 都跑完整 review限制觸發條件、只讀 diff、加併發控制
模型過強簡單分類也用高推理模型預設 Auto,按任務升級
重試粗糙失敗後整批重跑儲存輸入輸出,只重跑失敗項
認證混亂quota 和賬單來源不清明確 API key / OAuth / Vertex AI

選擇模型的落地規則

預設用 Auto。只有當任務失敗原因明確是推理能力不足時,再切 Pro;如果任務是格式整理、摘要、分類、提取,優先 Flash 或更低成本模型。模型切換要記錄在教學或指令碼設定裡,否則後續復現成本不可控。

認證方式會限制可用模型:用 Gemini API Key 免費層時,只能用 Flash 模型——Auto / Pro 都用不了。要用更強模型,要麼走 Google 賬號登入(Code Assist Individual / AI Pro / Ultra),要麼把 API key 切到 Pay-as-you-go。詳見 Quota and pricing

驗收標準

任何長期工作流都要能回答:用什麼認證入口,預設模型是什麼,觸發頻率是多少,失敗如何重試,是否用了 .geminiignore 控制上下文,是否記錄 token / latency / error。回答不出來,就還不是可運營的工作流。

官方核驗點

模型、配額、preview、token caching 和價格都屬於高時效資訊。教學釋出前要回官方 quota/pricing、model selection、token caching 頁面複核,並寫清測試日期。不要把一次截圖裡的數字當作長期承諾。

自動化指令碼里還要記錄最終模型和失敗原因。否則 fallback 或配額變化後,你無法判斷成本上升來自模型、上下文還是重試策略。

成本覆盤必須能回到具體輸入和具體模型。

互動式任務也要看 /stats 或等價用量記錄。至少記錄模型、輪數、失敗重試次數和是否啟用快取,才能判斷一次任務貴在上下文、模型選擇還是無效重試。

官方資料

下一篇

本頁目錄