開放權重 LLM 快取:為何你的快取是供應商輪盤賭
目錄
對於封閉模型,提示詞快取是一份有明確文件的契約。Claude 有 cache_control 中斷點;OpenAI 與 Gemini 在超過權杖數門檻後自動快取;折扣公開且穩定。你只需讀一頁文件就搞定了。
開放權重打破了這個假設。同一個 Qwen 或 Llama 檢查點由數十家主機提供服務,而快取不是模型的屬性——它是模型執行位置的屬性。 為了說明這有多大的影響,以下是一個實測請求——透過多供應商路由器將相同的約 4,700 個權杖提示詞傳送至同一個 Qwen 模型六次,未固定上游:
| 呼叫次數 | 路由器選擇的上游 | 費用 | 已快取的權杖數 |
|---|---|---|---|
| 1 | 上游 A | $0.0141 | 0 |
| 2 | 上游 B | $0.000709 | 0(冷啟動) |
| 3–6 | 上游 B | $0.000286 | 4,224(已預熱) |
相同模型、相同路由器、相同提示詞:費用從 $0.0141 到 $0.000286,相差 49 倍——純粹取決於路由器選擇了哪個上游,以及該上游是否已預熱前綴快取。
摘要
- 開放權重模型的提示詞快取是路由結果,而非模型功能。 它在推論引擎中實作——免費且自動——然後被上層的每一層保留或破壞。
- 五層架構:一層提供快取,三層可能破壞它。 模型(決定可快取性,本身不提供快取)→ 推論引擎(快取,免費)→ 運算主機(將其產品化,程度不一)→ 閘道(多叢集路由)→ 路由器(分散至各自擁有獨立快取的不同供應商)。
- 實測數據。 相同請求被路由器分散後,某次選擇的費用比另一次貴 49 倍;在同一個模型上,某主機提供 59.6% 折扣,另一家則為 0%;各模型公開的快取折扣範圍從 0% 到約 98%。
- 建議做法。 固定路由,讓重複的前綴能命中同一個已預熱的快取;透過費用差異來稽核,而非依賴
cached_tokens欄位(該欄位在實際命中時往往顯示為 0);另外單獨評估延遲——已預熱的預填充速度快 2 到 10 倍,即使費用折扣接近 0%。
實測數據於 2026-06-14 針對多供應商路由器及我們自己的閘道進行量測,使用固定的約 4,700 個權杖英文提示詞、較小的
max_tokens,依序執行。文件化定價已於同日對照各供應商主要文件進行核查,並以對抗性方式交叉驗證。比率(折扣百分比、延遲變化)是可移植的部分;絕對金額取決於服務場所、你的提示詞及負載情況。引用前請自行重現驗證。
你實際會遇到的快取類型
在介紹整個堆疊之前,先統一術語。在開放權重的託管服務中,有四種截然不同的快取形式,計費方式也各不相同。
1. 自動前綴快取(無需標記)。 最主流的模式。伺服器對你的提示詞前綴進行雜湊,若與先前的請求相符則重用 KV 狀態,並自動套用折扣——無需 cache_control,無需修改程式碼,通常也無法停用。DeepSeek、智譜 GLM 以及大多數開放權重託管服務都採用此方式。寫入免費;快取的存活位置從 VRAM(數分鐘)到磁碟不等(DeepSeek 會將前綴保留「數小時至數天」)。
2. 明確斷點快取(cache_control)。 Anthropic 的模式,少數開放權重託管服務也提供此功能。阿里巴巴的模型服務靈積(Model Studio)支援在 Qwen 訊息區塊上使用 "cache_control": {"type": "ephemeral"};部分推理平台也提供等效的標記。你標記邊界,支付寫入附加費,換取更深的讀取折扣。
3. 租用快取物件(含儲存費)。 值得特別留意的模式。Moonshot 的舊版 moonshot-v1 系列需要你透過 POST /v1/caching 建立快取,並收取寫入費、每權杖每分鐘的儲存費,以及每次命中費。Google 的 明確 Gemini 快取也是相同概念——輸入費用加上儲存費,大約為每百萬權杖每小時 $1.00–$4.50。快取是一種你需要租用並自行進行垃圾回收的資源。
4. 自架 KV 重用(免費)。 自行運行模型權重時,推理引擎會自動免費進行快取。無寫入費、無讀取費率、無儲存租金——命中時只是跳過預填充(prefill)階段。
| 快取類型 | 需要標記? | 寫入費 | 儲存費 | 適用場景 |
|---|---|---|---|---|
| 自動前綴 | 否 | 免費 | 無 | 大多數開放權重託管服務;DeepSeek、GLM |
| 明確斷點 | cache_control | 附加費 | 無 | Qwen(明確模式);部分平台 |
| 租用快取物件 | 建立/TTL/刪除 | 有 | 有 | Moonshot moonshot-v1、Gemini 明確模式 |
| 自架 KV 重用 | 否 | 免費 | 無 | vLLM、SGLang、TensorRT-LLM |
Model Studio 上的 Qwen 同時提供自動與明確兩種模式,兩者之間存在真實的取捨:隱式模式命中時收取輸入費用的 20%,寫入免費;明確模式命中時收取輸入費用的 10%,但寫入時收取 125% 的費用,且快取條目的 TTL 限制為 5 分鐘。折扣更深,但你需要為填充快取付費,每次過期後也需再次付費。
快取在堆疊中的位置
關鍵概念如下。開放權重的提示詞快取恰好在某一層被解決,卻在其上的每一層都面臨風險。 從模型權重往上逐層審視,在每一層問自己:這一層是在提供快取,還是僅僅在轉發它——以及它是否會破壞下層已完成的快取?
request
|
v
+--------------------------------------------------+
| L5 router scatters across vendors | can break it
| L4 gateway multi-cluster routing | can break it
| L3 compute host uneven delivery | can break it
|==================================================|
| L2 inference engine CACHING LIVES HERE, free | <-- the cache is born here
|==================================================|
| L1 model cacheability: MLA / GQA | sets the ceiling
+--------------------------------------------------+
A cache hit is born at L2 and must survive L3-L5 routing to reach you;
every layer above L2 is a chance to land where your prefix isn't.
第一層 — 模型:可快取性,而非快取
這是大多數人認為快取所在的層次——「DeepSeek 有快取」——因此也是第一個需要精確釐清的層次。一個檢查點是一組權重;無論 KV 快取是否存在,它執行的注意力機制都相同。它不附帶任何快取、折扣、TTL 或 cache_control 標記——那些都是服務層的功能。嚴格來說,權重本身並不提供任何快取產品。
但權重並非中立的,而 DeepSeek 正是最好的例子。模型的注意力架構決定了 KV 快取的大小,進而決定了快取的成本下限:
- DeepSeek 的**多頭潛在注意力(MLA)**將 KV 快取壓縮為低秩潛在表示——大約是標準多頭快取的 4–14%。正是這種壓縮,讓 DeepSeek 的 API 得以將前綴持久化到磁碟,並將快取讀取定價為輸入成本的約 2%。架構是促成因素;磁碟快取是建立在其上的產品。
- 分組查詢注意力(GQA)——被 Llama、Qwen、Mistral 和 DeepSeek 採用——透過共享 KV 頭來縮小快取,縮減比例為分組係數(Llama-3 約為 8 倍)。
因此,第一層的貢獻是可快取性,而非快取:架構設定了上層所有快取成本的天花板,但權重本身從不服務已快取的權杖。而「DeepSeek 有快取」這句話,悄悄地將兩個使用同一名稱的不同事物混為一談——權重(本層,提供 MLA)和 DeepSeek 的 API 與服務堆疊(第二、三層,提供磁碟快取、折扣和用量欄位)。下載開放權重自行執行,你保留了 MLA 的小型 KV 快取,但磁碟快取產品仍留在 DeepSeek 的伺服器上——你繼承的是你所部署的第二層。因此,實際操作上的重點依然成立:不要問一個模型是否有快取,而要問它在哪裡服務——只是別因此誤以為架構不重要。架構設定了天花板;部署路徑決定了你實際能得到什麼。
第二層 — 推論引擎:快取在此建立,且免費
再往上一層,快取不僅存在——它已被解決,且免費。 現代推論引擎會自動快取前綴:
- vLLM — 自動前綴快取:對每個 KV 區塊進行雜湊,重複使用任何已見過前綴雜湊的區塊,並以 LRU 策略淘汰。在 V1 中預設開啟。
- SGLang — RadixAttention:將 KV 快取儲存在基數樹中,使任何共享前綴都能被重複使用,並搭配快取感知排程。
- TensorRT-LLM — 區塊重複使用(
enable_block_reuse,預設開啟),並可選擇將 KV 區塊卸載至主機記憶體。
LMCache 等專案進一步延伸了這一點——將 KV 卸載至 CPU/磁碟,並跨實例共享,這正是解決我們即將面臨的路由問題的雛形。重點在於:如果你自行託管,就大功告成了。快取是自動的,除了你已在運行的 GPU 之外不需額外成本,以 LRU 策略淘汰,且由你掌控——命中時只需跳過預填充,降低 TTFT 並提升吞吐量。不存在 cached_tokens 計費欄位,因為沒有任何費用;收益體現在你自己的延遲指標上。對於封閉模型,你租用快取;對於開放模型,你可以完全擁有它。代價與託管環境恰好相反:快取是短暫的(VRAM、LRU),因此只有在前綴保持熱狀態時才能存活——而這正是上層必須維護的事情。
第三層 — 運算主機:產品化程度參差不齊
商業推論主機封裝了第二層並運行多個副本叢集。它們繼承了免費的自動快取機制——問題在於是否妥善實作,而答案在兩個維度上都褒貶不一。
首先,揭露方式與定價差異懸殊。在主要的開放權重主機中:有的對快取輸入一律打五折,並讓快取權杖跳過速率限制;有的在無伺服器模式下預設打五折;有的按模型分別定價快取輸入(例如某個 Qwen 方案約打二折),並提供快取鍵提示以提升親和性;還有的在專用端點上讓快取始終開啟且無法關閉。底層引擎相同,卻有四種截然不同的定價哲學。
其次——這是快取首次出現問題的地方——是多副本問題。您暖好的前綴存在於處理冷請求的那一個副本的 VRAM 中。主機自身的負載平衡器可能將您的下一個請求送往另一個快取為冷狀態的副本。我們親眼見到了這個現象:將同一個 Qwen 模型一次固定到單一上游,並執行冷→暖測試:
| 固定上游 | 冷請求 | 暖請求 | 折扣 | cached_tokens |
|---|---|---|---|---|
| 供應商 A | $0.000709 | $0.000286 | 59.6% | 4,224 ✓ |
| 供應商 B | $0.000662 | $0.000662 | 0% | 0 |
供應商 A 快取運作正常並有所回報。供應商 B——其官方廣告中有列出此模型的快取讀取價格——在我們的測試中,經過一次冷呼叫與兩次暖呼叫後,完全沒有任何折扣。無論原因是資格限制、副本扇出,還是需要超過兩次請求才能暖機,在這條路徑上的實測結果就是零。快取能力在第二層已是解決的問題;您是否真的能享受到它,則是第三層的執行細節,且因主機而異。
第四層 — 閘道:多叢集問題
閘道位於一個或多個上游服務之前,將副本問題放大為叢集問題。若閘道在叢集或供應商之間以輪詢方式分配請求,且不具備快取親和性,則已預熱的快取在結構上將無法被命中——每個請求都會落到沒有對應前綴的節點上。具備快取感知能力的閘道必須依前綴雜湊進行路由,使相同的前綴固定對應到同一個上游,就如同第二層將前綴固定對應到相同的 KV 區塊一樣。
我們針對第三方閘道上的開放權重模型執行了冷啟動→預熱的完整測試,直接讀取每個請求的 cost 欄位:
| 模型 | 冷啟動 | 預熱後 | 折扣幅度 | 延遲 |
|---|---|---|---|---|
deepseek-v4-pro | $0.00189 | $0.0000155 | 99.2% | 6.0s → 1.1s |
deepseek-v4-flash | $0.000564 | $0.0000116 | 97.9% | 4.9s → 1.2s |
qwen3.5-flash | $0.000561 | $0.0000853 | 84.8% | 10.2s → 1.0s |
kimi-k2.5 | $0.00242 | $0.000469 | 80.6% | 3.2s → 1.2s |
qwen3-max | $0.00350 | $0.00336 | 3.8% | 2.2s → 1.1s |
qwen3.5-plus | $0.00114 | $0.00114 | 0.0% | 1.8s → 1.0s |
DeepSeek-V4 達到了 97–99% 的折扣(親和性端到端正常運作);qwen3.5-plus 與 qwen3-max 在預熱呼叫中回傳約 0% 的折扣,儘管其定價目錄中列有快取讀取費率。這張表格還隱藏了兩個關於閘道的重要教訓:
- usage 欄位會說謊;cost 欄位不會。 此處所有呼叫的
cached_tokens均讀取為 0,包括那些成本下降 99% 的案例。許多相容 OpenAI 的閘道,對於會自動快取的上游服務,並不會填入快取權杖欄位。應透過冷啟動與預熱呼叫之間的cost差異來進行稽核,而非依賴權杖欄位——這與稽核閘道快取聲明的方法相同。 - 即使成本沒有降低,延遲仍會改善。 每次預熱呼叫的速度都快了 2 至 10 倍——
qwen3.5-flash從 10.2s 降至 1.0s——包括那些折扣約為 0% 的案例。快取命中會跳過預填充階段,無論主機如何計費,因此即使帳單上毫無優惠,快取仍可在 TTFT 方面帶來顯著效益。
一個不保留親和性的閘道,給了你一個無法命中的快取;一個不揭露快取成本的閘道,給了你一個無法驗證的快取。
第 5 層 — 路由器:跨供應商的隨機分配
在最頂層,多供應商路由器將同一個模型 ID 的負載平衡分散到不同公司的叢集上——每個叢集都有獨立的快取。此時即使在單一供應商內做到完美的親和性也無濟於事:如果第 1 次呼叫路由到某個廠商,第 2 次路由到另一個廠商,就不存在共享快取可以命中。這正是本文開頭所說的分散問題,而且它與第 4 層的問題相互疊加——不只是多個叢集,而是多個廠商,各自擁有互不相通的快取狀態與互不相同的定價(最貴的選擇比最便宜上游的基本費率高出 20 倍)。只有當路由恰好固定在同一個供應商時,快取才會生效。
解決方法是消除隨機性——讓路由具有確定性,使重複的前綴能夠落在同一個已預熱的快取上:
# Pin the upstream; otherwise load-balancing scatters you across disjoint caches.
# (field names follow a common multi-provider router's API)
import requests
requests.post(f"{ROUTER_BASE}/chat/completions",
headers={"Authorization": f"Bearer {API_KEY}"},
json={
"model": "qwen/qwen3.5-35b-a3b",
"messages": messages,
"usage": {"include": True}, # return cost + cached_tokens
"provider": { # the part that makes caching work
"order": ["<your-chosen-upstream>"],
"allow_fallbacks": False,
},
})
值得肯定的是,這個路由器確實會回報 cached_tokens(命中時為 4,224)以及每次請求的 cost,讓你可以同時驗證兩者——這比第 4 層那個回報 0 的閘道要好。但路由的約束仍需由你自行設定。快取本質上是一個偽裝成定價功能的路由問題: 快取在第 2 層是免費的,而第 3、4、5 層則是三種層層遞進的方式,讓你把自己路由到快取之外。
折扣有多深?因地而異
當路由確實對齊時,你能省多少錢?對於閉源模型,快取讀取折扣大約集中在 90% 左右。對於開放權重模型,各家廠商公布的快取讀取價格從象徵性的優惠到近乎全免都有,即使在同一家廠商的產品線內也是如此。以下是第一方公布的費率:
| 模型(第一方/模式) | 輸入 $/M | 快取讀取 $/M | 折扣 | 第 2 層類型 |
|---|---|---|---|---|
| DeepSeek-v4-flash | 0.14 | 0.0028 | ~98% | 自動磁碟 |
| DeepSeek-v4-pro | 1.74 | 0.145 | ~92% | 自動磁碟 |
| Qwen(顯式模式) | base | 0.10× base | 90% | 顯式 |
| Kimi K2.6 | 0.95 | 0.16 | ~83% | 自動 |
| GLM-5 | 1.0 | 0.20 | 80% | 自動隱式 |
| Qwen(隱式模式) | base | 0.20× base | 80% | 自動 |
DeepSeek 的自動磁碟快取是業界折扣最深的——deepseek-v4-flash 的快取輸入讀取費率為 $0.0028/M,而未命中費率為 $0.14/M,比例為 1:50,我們在第 4 層的測試中也重現了 97.9% 的折扣。這些相同開放權重模型的第三方託管商會獨立定價快取輸入——有些統一打約 50% 折扣,其他則依模型從約 50% 到約 90% 不等——因此你實際獲得的折扣取決於你落在哪個託管商,而不僅僅是模型本身。同樣的功能名稱,卻有 48 個百分點的差距。
由於折扣是場所的屬性,同一個模型在不同地方提供服務時,快取的經濟效益也各不相同。以 deepseek-v4-pro 為例,四種情境:
| 所在位置(層) | 快取讀取折扣 | 來源 |
|---|---|---|
| 第一方 API(L3) | ~92%($1.74 → $0.145) | 文件記載 |
| 第三方託管商 A(L3) | ~89%($1.74 → $0.20) | 文件記載 |
| 第三方託管商 B(L3) | ~92%($1.6 → $0.135) | 文件記載 |
| 第三方閘道(L4) | 99.2% | 實測(冷啟動→預熱) |
「DeepSeek-V4-Pro 支援快取」這句話是真的,但幾乎毫無意義;實際操作上真正重要的問題是:「在哪裡支援快取、費率是多少、如何回報」。
決策檢查清單
- ✅ 模型設定上限,而非快取(第一層)。模型的注意力架構(MLA、GQA)決定了快取能有多便宜,但它本身從不提供快取的權杖——因此仍需確認請求在哪裡被處理,以及該主機的技術堆疊為何。
- ✅ 自行託管?你已免費擁有快取(第二層)。確認自動前綴快取已啟用(vLLM/SGLang 預設即為開啟),並監控你的前綴命中率。
- ✅ 使用運算主機時,驗證快取是否真正生效,而非只看價格欄位(第三層)。快取讀取價格只是一種聲明;請實際測量冷啟動→暖啟動的成本差異。若主機提供快取鍵親和性提示,請善加利用。
- ✅ 透過閘道時,要求快取親和性路由與成本回報(第四層)。若相同的前綴無法固定路由至同一個上游,或暖呼叫時
cost沒有下降,則快取無法被存取或無法驗證。 - ✅ 使用路由器時,固定上游(第五層)。限制路由方式(例如設定具有停用備援的提供者順序欄位),否則負載均衡會將請求分散至不同的快取,導致命中率歸零——還可能面臨貴上 20–50 倍的上游費用。
- ✅ 將延遲與成本分開評估。 即使金錢折扣接近零,暖預填充仍快 2–10 倍。
- ✅ 留意需支付儲存費用的快取類型。 租用式快取(Moonshot
moonshot-v1、Gemini 顯式快取)會依閒置快取的每權杖時間計費;自動前綴快取則不會。
結論
對於閉源模型,「是否支援快取?」只有一個答案。對於開放權重模型,這項能力早在數年前就已在推論引擎層面解決——vLLM 與 SGLang 會自動、免費地快取所有前綴。在此之上的一切都是管線問題,這些管線要麼保留了命中機會,要麼讓你與快取漸行漸遠:運算主機的副本負載均衡器、閘道的叢集路由、路由器在不同供應商間的隨機分散。模型架構設定了快取能有多便宜的上限——MLA 與 GQA 是真實存在的模型層級優化——但你的請求所經過的路徑,決定了你實際能獲得什麼。請將快取行為視為一種路由屬性——在你實際執行的確切路徑上以成本指標加以衡量,固定路由以確保你命中的快取正是你預熱過的那個,並記住:若第二個請求落在第一個請求從未觸及的地方,世界上最深的折扣也毫無意義。
關於 KV 快取存在的原理以及 TTL 的運作方式,請從 How KV Cache & TTL Work 開始閱讀;若要稽核閘道的快取聲明,請參閱 Does Your LLM Gateway Lie About Cache?。
常見問題
開放權重模型支援提示詞快取嗎? 模型權重決定了快取的成本下限——MLA 和 GQA 等注意力架構可縮減 KV 快取的大小——但快取本身、折扣優惠以及 API 都來自推論服務堆疊。快取功能實作於推論引擎(vLLM、SGLang、TensorRT-LLM)中,由運算主機繼承,再由閘道和路由器轉發(或分散)。將相同的模型檢查點部署到三個主機,可能得到免費的自動快取、完全沒有快取,或僅支援顯式快取——三種結果都有可能。
為什麼同一個模型,某次呼叫的費用比另一次貴了 49 倍? 在多供應商路由器上,未固定供應商的請求會被負載平衡到不同廠商的叢集,而各叢集的基礎定價不同、快取狀態也互不相通。某次呼叫命中了昂貴供應商的冷快取,另一次則命中了便宜供應商的熱快取。請固定上游供應商(限制供應商順序並關閉備援切換)以同時控制這兩個變數。
如果我自行託管,需要為快取付費嗎? 不需要。vLLM、SGLang 和 TensorRT-LLM 中的自動前綴快取預設為開啟且免費——快取命中時只需跳過預填充階段。您只需支付原本就在運行的 GPU 費用,快取歸您所有,當 VRAM 不足時會以 LRU 策略淘汰。
API 回傳 cached_tokens: 0,但帳單金額下降了——快取有生效嗎?
很可能有。許多閘道對於自動快取的上游不會填入 cached_tokens 欄位。請以 cost 欄位為準:若冷快取與相同的熱快取呼叫之間費用大幅下降,即表示快取命中。
哪個開放權重模型的快取折扣最深?
DeepSeek 的自動磁碟快取:deepseek-v4-flash 讀取已快取輸入的費用約為 $0.0028/M,而未快取為 $0.14/M(折扣約 98%)。在我們的冷→熱測試中,V4 系列整體重現了 97.9–99.2% 的折扣率。許多第三方主機則統一套用約 50% 的折扣。
收取儲存費用的快取有什麼需要注意的地方嗎?
有。Moonshot 的 moonshot-v1 顯式快取以及 Gemini 的顯式快取,都會按每權杖時間計費以維持快取存活(Gemini 約 $1–4.50 / 1M 權杖 / 小時)。若您忘記刪除閒置的快取,費用將持續累積。自動前綴快取則不收取儲存費用。
驗證說明:即時費用與延遲數據於 2026-06-14 針對多供應商路由器及我們自有閘道進行測量,使用固定約 4,700 權杖的提示詞、較小的 max_tokens,以循序冷→熱方式執行;折扣由各請求回傳的 cost 計算得出。文件化定價與快取機制已於同日對照各供應商主要文件進行核查,並以對抗性方式交叉驗證;部分廠商數據(尤其是 Moonshot 的顯式快取費用)變動頻繁——引用前請確認當前數值。您的實際數據將因供應商、提示詞、地區及負載而有所不同。
參考資料
- DeepSeek — 定價
- DeepSeek — KV 快取 / 上下文快取指南
- DeepSeek-V3 技術報告 — MLA(KV 快取壓縮)
- GQA: Training Generalized Multi-Query Transformer Models(Ainslie 等人)
- 阿里雲模型工作室 — 上下文快取與定價
- Moonshot AI — 上下文快取
- Zhipu / Z.AI — 定價與快取
- vLLM — 自動前綴快取
- SGLang — RadixAttention / 快取
- LMCache — KV 快取卸載與共享
- Google — Gemini 上下文快取
所有連結均於 2026-06-14 確認有效。本文不構成財務建議;使用前請自行確認當前定價。