AI 程式設計教程中文版
從原理到實戰

模型、配額和成本

理解 Gemini CLI 的模型選擇、認證入口、配額、token caching 和成本控制。

Gemini CLI 的成本和穩定性不只取決於模型,還取決於認證方式、配額來源、上下文大小、是否快取、是否進入自動化。

模型、配額和價格都會變。教程裡寫選擇邏輯和複核路徑,不要把某個時間點的額度數字寫成永久結論。

先分認證來源

Google 登录        适合个人交互使用
Gemini API Key    适合脚本、工具和轻量自动化
Vertex AI         适合企业云项目、统一账单和治理

不同入口的配額、隱私、計費和快取能力可能不同。涉及金額或生產自動化時,以官方 quotas 和 pricing 頁面為準。

認證入口更適合主要關注
Google 登入本機互動、個人體驗賬號權益、地區、Code Assist 邊界
Gemini API Key指令碼、工具、輕量自動化API quota、key 儲存、請求頻率
Vertex AI企業、雲專案、統一治理IAM、專案、區域、賬單和審計

模型怎麼選

不要只選“最強模型”。更穩的判斷是:

简单解释       低成本模型
复杂重构       更强推理模型
大仓库理解     关注上下文窗口和缓存
CI 自动化      关注稳定、速度和失败重试
敏感项目       关注认证入口和数据治理

token caching 的意義

長上下文任務裡,反覆傳同一批專案上下文會浪費 token。Token caching 能降低重複上下文成本,但是否可用取決於認證和 API 能力。

官方 FAQ 裡提到,cached token 資訊並不總會顯示;OAuth 使用者和 API key 使用者看到的統計可能不同。

控制成本的實際做法

  • .geminiignore 排除無關大檔案。
  • 先讓 agent 列計劃,不要直接喂全儲存庫。
  • 大任務分階段,每階段只給必要上下文。
  • headless 批次任務加頻率限制。
  • CI 中限制觸發條件和最大輪數。
  • 對高成本任務輸出結構化結果,便於失敗重試。

配額錯誤怎麼判斷

429 Resource exhausted 通常是配額或頻率問題。先降低請求頻率、減少批處理併發,再檢查 AI Studio 或 Google Cloud 專案用量。

自動化裡的成本邊界

互動式使用裡,成本通常來自少數長任務;自動化裡,成本來自“重複”。一個 PR review workflow 如果對每次 push 都讀取全儲存庫,費用和配額很快會失控。更穩的方式是隻讀取 diff、相關檔案、測試輸出和必要配置。

Headless 批次指令碼要設定觸發條件、最大檔案數、最大輪數和失敗重試間隔。指令碼失敗時儲存輸入、輸出和錯誤碼,方便下次只重跑失敗項,而不是整批重跑。

成本失控的典型來源

來源表現控制方式
上下文過大每輪都讀取無關檔案.geminiignore、限定路徑、分階段讀取
自動化過頻每次 push 都跑完整 review限制觸發條件、只讀 diff、加併發控制
模型過強簡單分類也用高推理模型預設 Auto,按任務升級
重試粗糙失敗後整批重跑儲存輸入輸出,只重跑失敗項
認證混亂quota 和賬單來源不清明確 API key / OAuth / Vertex AI

選擇模型的落地規則

預設用 Auto。只有當任務失敗原因明確是推理能力不足時,再切 Pro;如果任務是格式整理、摘要、分類、提取,優先 Flash 或更低成本模型。模型切換要記錄在教程或指令碼配置裡,否則後續復現成本不可控。

認證方式會限制可用模型:用 Gemini API Key 免費層時,只能用 Flash 模型——Auto / Pro 都用不了。要用更強模型,要麼走 Google 賬號登入(Code Assist Individual / AI Pro / Ultra),要麼把 API key 切到 Pay-as-you-go。詳見 Quota and pricing

驗收標準

任何長期工作流都要能回答:用什麼認證入口,預設模型是什麼,觸發頻率是多少,失敗如何重試,是否用了 .geminiignore 控制上下文,是否記錄 token / latency / error。回答不出來,就還不是可運營的工作流。

官方核驗點

模型、配額、preview、token caching 和價格都屬於高時效資訊。教程釋出前要回官方 quota/pricing、model selection、token caching 頁面複核,並寫清測試日期。不要把一次截圖裡的數字當作長期承諾。

自動化指令碼里還要記錄最終模型和失敗原因。否則 fallback 或配額變化後,你無法判斷成本上升來自模型、上下文還是重試策略。

成本覆盤必須能回到具體輸入和具體模型。

互動式任務也要看 /stats 或等價用量記錄。至少記錄模型、輪數、失敗重試次數和是否啟用快取,才能判斷一次任務貴在上下文、模型選擇還是無效重試。

官方資料

下一篇

本頁目錄