GLM 5.2:reasoning effort 才是成本的總開關
目錄
GLM 5.2 現在已經上架 Synthorai,每個 token 的價格大約只有頂尖模型的六分之一,而它「開放權重、跑出頂尖 benchmark」的宣傳也是真的。但你不該把每個 token 的單價當成衡量基準。在 GLM 5.2 上跑一個 coding 任務實際要花多少錢,會因為單一旋鈕,也就是 reasoning effort,而上下相差超過一個數量級,而預設值偏偏把這個旋鈕擺在最糟的位置。調好之後,不論簡單還是困難的任務,GLM 5.2 不但答得對,成本還比頂尖模型低。維持預設值的話,同一個答案會貴上二十倍,還得跑好幾分鐘。這些我們都實測過。
GLM 5.2 是什麼
GLM 5.2 是智譜(Zhipu)的開放權重頂尖模型,於 2026-06-13 發布:採用 mixture-of-experts 架構(總參數約 744B、啟用約 40B),有實用的 1M token 上下文,而且採用 MIT 授權、可以自行部署。它鎖定 coding 與 agentic 任務,公布的 benchmark 表現很強(SWE-bench Pro 62.1、Terminal-Bench 2.1 81.0、AIME 2026 99.2、GPQA Diamond 91.2)。在 Synthorai 上它的代號是 glm-5.2,輸入每百萬 token 收費 $1.40、輸出每百萬 token 收費 $4.40。
而真正左右下面這一切的關鍵細節是:它是一個 reasoning 模型,而它要 reason 多少,是由你來設定的。
它在價格上的定位
從每個 token 的標價來看,GLM 5.2 遠低於西方的頂尖模型,落在偏便宜的中國模型這一群。以下是 Synthorai 上一組具代表性模型的費率:
| 模型 | 輸入($/M) | 輸出($/M) | 快取讀取($/M) |
|---|---|---|---|
deepseek-v4-pro | 0.44 | 0.87 | 0.0036 |
kimi-k2.5 | 0.57 | 3.01 | 0.12 |
glm-5.2 | 1.40 | 4.40 | 0.26 |
qwen3-max | 1.20 | 6.00 | 0.36 |
gemini-3.1-pro | 2.00 | 12.00 | 0.20 |
claude-opus-4-8 | 5.00 | 25.00 | 0.50 |
gpt-5.5 | 5.00 | 30.00 | 0.50 |
它 $4.40 的輸出費率大約是 gpt-5.5 的七分之一、claude-opus-4-8 的六分之一,不過 deepseek-v4-pro 和 kimi-k2.5 還是比它更便宜。所以 GLM 5.2 是用差不多中國模型的價格,提供頂尖等級的能力,但它並不是價格的絕對地板。它沒有另外收快取寫入費:快取寫入是以輸入費率計費,只有快取讀取才會折扣到上表那個費率。各家折扣幅度不一樣,GLM 5.2 的快取讀取大約是輸入費率的五分之一,而頂尖模型(gpt-5.5、claude-opus-4-8、gemini-3.1-pro)的讀取則折到大約十分之一。
它比起自家前幾代也是一次升級。前一代 GLM 便宜得誇張;GLM 5 系列拉高了價格,而 GLM 5.2 的輸入費率大約是 GLM-4.6 的 3 倍(智譜官方費率):
| GLM 模型 | 發布時間 | 輸入($/M) | 輸出($/M) |
|---|---|---|---|
| GLM-4.5 | 2025-07 | 0.60 | 2.20 |
| GLM-4.6 | 2025-09 | 0.43 | 1.74 |
| GLM-5 | 2026 | 1.00 | 3.20 |
| GLM-5.2 | 2026-06 | 1.40 | 4.40 |
這些錢換來的是 1M 上下文和那些頂尖 benchmark。但每個 token 的費率只是表面數字。你每個任務實際付出的成本,是由 reasoning effort 決定的。
reasoning effort 這個旋鈕
GLM 5.2 的 reasoning 是一個旋鈕,不是一個開關。你可以把它關掉(enable_thinking: false),把 reasoning_effort 設成 low、medium 或 high,或是維持預設,讓 reasoning 不設上限地跑。這個設定對成本和延遲的影響,遠比價格本身大得多。我們把一個簡單的和一個困難的 coding 任務,分別在各種設定下跑過,並用數百組隨機案例對照參考答案,逐一檢查每個回答。
簡單的任務:開推理只是徒增成本
加權區間排程(weighted interval scheduling),一個難度中等的動態規劃問題:
| 模式 | 推理 token | 答案 token | 成本 | 延遲 | 正確 |
|---|---|---|---|---|---|
glm-5.2,關閉 thinking | 0 | 169 | $0.0008 | ≈5s | 是 |
glm-5.2,reasoning_effort: low | 1,563 | 150 | $0.0076 | 39s | 是 |
glm-5.2,預設不設上限 | ≈6,290 | ≈150 | $0.0285 | 137s | 是 |
gpt-5.5(參考) | 59 | 141 | $0.0064 | 4.8s | 是 |
claude-opus-4-8(參考) | 0 | 201 | $0.0057 | 3.3s | 是 |
有兩點很明顯。關閉 thinking 不但答對,還是全場最便宜的,大約是前沿模型的 1/8,而每往上調一格旋鈕,得到的答案一樣,只是成本變高。而且帳單跟著推理走,不是跟著答案走:GLM 回傳的程式碼每次都大約是 150 個 token,前面的推理卻從零一路膨脹到約 6,300,而且以同樣的 $4.40/M output 費率計費。預設不設上限的模式,花掉這些推理只是為了得到關閉 thinking 完全沒推理就產出的同一個答案,而這段差距正是成本差異的全部來源。前沿模型在這裡幾乎沒回報什麼推理就答出來了:gpt-5.5 用掉 59 個推理 token,claude-opus-4-8 的用量回報則是零。
困難任務:reasoning 確實值得,但 default 不值得
萬用字元字串比對(? 與 *),這是個經典題目,很容易在細節上出錯。這裡關掉 thinking 就翻車了。它回傳的是一個有 memoization 的遞迴:
def is_match(s, p):
memo = {}
def match(i, j):
if (i, j) in memo:
return memo[(i, j)]
if j == len(p):
result = i == len(s)
elif i < len(s) and p[j] in (s[i], '?'):
result = match(i + 1, j + 1)
elif p[j] == '*':
result = match(i + 1, j) or match(i, j + 1)
else:
result = False
memo[(i, j)] = result
return result
return match(0, 0)
看起來沒問題,連 memo 都用上了,似乎下了點功夫。但 * 那條分支在遞迴 match(i + 1, j) 時沒有對 i 設上界。一旦字串已經消耗完、pattern 還剩 *,i 就會無止盡往上爬,最後 stack overflow。又快又便宜,但是錯的。
把旋鈕往上轉,它回傳的就是正確的迭代式雙指標演算法,靠回溯到最後一個 *,而不是用遞迴:
def is_match(s, p):
s_idx, p_idx, star_idx, match_idx = 0, 0, -1, 0
while s_idx < len(s):
if p_idx < len(p) and (p[p_idx] == '?' or p[p_idx] == s[s_idx]):
s_idx += 1
p_idx += 1
elif p_idx < len(p) and p[p_idx] == '*':
star_idx = p_idx
match_idx = s_idx
p_idx += 1
elif star_idx != -1:
p_idx = star_idx + 1
match_idx += 1
s_idx = match_idx
else:
return False
while p_idx < len(p) and p[p_idx] == '*':
p_idx += 1
return p_idx == len(p)
這個任務從頭到尾轉一輪旋鈕:
| GLM 5.2 設定 | 成本 | 延遲 | 正確 |
|---|---|---|---|
| thinking off | $0.0007 | 6s | 否(stack overflow) |
reasoning_effort: high | $0.0031 | 13s | 是 |
reasoning_effort: medium | $0.0032 | 16s | 是 |
reasoning_effort: low | $0.0068 | 40s | 是 |
| unbounded default | $0.062 | 405s | 是 |
gpt-5.5(參考) | $0.0064 | 5.4s | 是 |
claude-opus-4-8(參考) | $0.0069 | 4.6s | 是 |
每個明確的 effort 等級都解出來了。reasoning_effort: high 用 $0.0031、13 秒就搞定,對同樣的答案來說,比 unbounded default 便宜約二十倍、快約三十倍,成本上甚至比前沿模型還低,只慢了幾秒。有個值得知道的怪現象:GLM 的 low 產生的 reasoning 比 high 還多,兩個任務上都一致如此,所以等級名稱跟 token 數量並不對應。medium 和 high 才是又便宜又快的設定。
唯一要避開的就是 unbounded default。它兩邊的壞處都佔了:它買了任務可能根本不需要的 reasoning,還花了好幾分鐘才做完,最後得到的答案跟 reasoning_effort: high 一樣,成本卻是二十倍。
決策規則
控制桿就是 reasoning effort,而正確的設定取決於任務,不是模型:
- 簡單或大量的工作,正確性很容易達到:關掉 thinking(
enable_thinking: false)。答案正確,成本約為前沿模型的八分之一。 - 較難的問題,關掉 thinking 會失敗的那種:用
reasoning_effort: medium或high。答案正確,每個任務約 $0.003,成本低於前沿模型,只慢幾秒。 - 絕對不要用 unbounded default。 把 reasoning 開著又不設 effort 上限,就是讓一個 $0.003 的答案變成 $0.06、要花七分鐘的答案的途徑。
如果你事先無法判斷某個任務是否需要 reasoning,reasoning_effort: high 是個安全的預設:它便宜、兩個任務都解出來了,而且從不失控。
快取省的是 input,不是 reasoning
GLM 5.2 在閘道上支援快取,效果也如預期般落在該省的地方。我們送出一段 1,494 token 的共用前綴(一個要 review 的程式碼模組),搭配幾個不同的問題:
| 呼叫 | Prompt tokens | 快取 | Output | 成本 | 延遲 |
|---|---|---|---|---|---|
| 新問題,前綴尚未快取 | 1,493 | 0 | 120 | $0.0026 | 6.5s |
| 新問題,前綴已快取 | 1,494 | 1,472 | 120 | $0.0009 | 5.1s |
| 完全重複(語意命中) | 1,494 | 1,494 | 120 | $0.0009 | 1.0s |
只要一段較大的前綴被看過一次,就會進快取。快取的 input token 計費大約只有正常 input 費率的五分之一,讓一個其餘條件完全相同的請求從 $0.0026 降到 $0.0009,省了大約 64%。完全重複的請求則直接由語意快取回應:答案一樣、成本跟已快取的呼叫一樣,但回應時間從五秒縮到大約一秒。
問題還是那個刻度盤教過我們的事:快取折抵的是 input,而只要 reasoning 一開,成本與延遲就落在 reasoning 的 output 上,那部分並不會被快取。所以對 thinking-off、高 context 的工作(每次呼叫都帶相同的 system prompt 或同一份程式碼庫)來說,快取是實打實的勝利;一旦 reasoning 開了,省下的就有限了。
在 Synthorai 上使用
glm-5.2 已在閘道上線。從測試中歸納出三個實用的注意事項:
- 明確設定 reasoning effort。 簡單的工作用
enable_thinking: false,較難的問題用reasoning_effort: medium或high。唯一要避免的,是把 reasoning 開著卻不設 effort 上限(也就是無上限的預設值),這正是那個 $0.06、七分鐘的陷阱。 - reasoning 開著時請用 streaming。 reasoning 回應可能跑上好幾分鐘,非 streaming 的請求會一直掛在一條沒有任何回應的連線上,久到你的 client 多半會在答案回來之前就 timeout。改用
stream: true,你就能拿到逐步輸出與完整結果。 - 重複利用你的 context。 如果每次呼叫都送相同的大型 system prompt 或程式碼庫,前綴快取會降低 input 成本,再搭配關掉 thinking,整個請求就會很便宜。
定價為每百萬 token $1.40 / $4.40,而閘道會在每次呼叫回傳一個 cost 欄位,讓你清楚看到每個請求實際花了多少。
結論
GLM 5.2 是一款真正便宜又夠用的 coding 模型,設定得當的話,在簡單與困難的工作上都能打贏前沿模型的價格。關鍵就在設定。它的 reasoning 是一個刻度盤,而預設值把它放成無上限,這就是為什麼一個本該花 $0.003 的任務會變成 $0.06、七分鐘的呼叫。簡單的工作設 enable_thinking: false,其餘的用 reasoning_effort: medium 或 high,GLM 5.2 就能在各種情況下兼顧便宜與正確。把 reasoning 留在預設值,它就會是你能挑到的最慢、最貴的選項。
來源
- VentureBeat: Z.ai’s open-weight GLM-5.2 beats GPT-5.5 on long-horizon coding for 1/6 the cost
- eigent.ai: GLM-5.2 specs and overview
- CloudPrice: GLM-5.2 pricing and specs
- Z.ai: official GLM API pricing (GLM-4.5 / 4.6 / 5 generations)
(上方的 Synthorai 列出價格為本平台截至 2026-06-24 的費率;GLM 各世代費率為 Zhipu 的官方定價。)
成本於 2026-06-24 在 Synthorai 上實測(glm-5.2,每百萬 token $1.40 / $4.40);在依賴這些數字前,請先確認當前定價。