GLM 5.2：reasoning effort 才是成本的總開關

2026年6月24日 · glm · coding · llm-gateway · cost · reasoning

GLM 5.2 是什麼
它在價格上的定位
reasoning effort 這個旋鈕
簡單的任務：開推理只是徒增成本
困難任務：reasoning 確實值得，但 default 不值得
決策規則
快取省的是 input，不是 reasoning
在 Synthorai 上使用
結論
來源

GLM 5.2 現在已經上架 Synthorai，每個 token 的價格大約只有頂尖模型的六分之一，而它「開放權重、跑出頂尖 benchmark」的宣傳也是真的。但你不該把每個 token 的單價當成衡量基準。在 GLM 5.2 上跑一個 coding 任務實際要花多少錢，會因為單一旋鈕，也就是 reasoning effort，而上下相差超過一個數量級，而預設值偏偏把這個旋鈕擺在最糟的位置。調好之後，不論簡單還是困難的任務，GLM 5.2 不但答得對，成本還比頂尖模型低。維持預設值的話，同一個答案會貴上二十倍，還得跑好幾分鐘。這些我們都實測過。

GLM 5.2 是什麼

GLM 5.2 是智譜（Zhipu）的開放權重頂尖模型，於 2026-06-13 發布：採用 mixture-of-experts 架構（總參數約 744B、啟用約 40B），有實用的 1M token 上下文，而且採用 MIT 授權、可以自行部署。它鎖定 coding 與 agentic 任務，公布的 benchmark 表現很強（SWE-bench Pro 62.1、Terminal-Bench 2.1 81.0、AIME 2026 99.2、GPQA Diamond 91.2）。在 Synthorai 上它的代號是 glm-5.2，輸入每百萬 token 收費 $1.40、輸出每百萬 token 收費 $4.40。

而真正左右下面這一切的關鍵細節是：它是一個 reasoning 模型，而它要 reason 多少，是由你來設定的。

它在價格上的定位

從每個 token 的標價來看，GLM 5.2 遠低於西方的頂尖模型，落在偏便宜的中國模型這一群。以下是 Synthorai 上一組具代表性模型的費率：

模型	輸入（$/M）	輸出（$/M）	快取讀取（$/M）
`deepseek-v4-pro`	0.44	0.87	0.0036
`kimi-k2.5`	0.57	3.01	0.12
`glm-5.2`	1.40	4.40	0.26
`qwen3-max`	1.20	6.00	0.36
`gemini-3.1-pro`	2.00	12.00	0.20
`claude-opus-4-8`	5.00	25.00	0.50
`gpt-5.5`	5.00	30.00	0.50

它 $4.40 的輸出費率大約是 gpt-5.5 的七分之一、claude-opus-4-8 的六分之一，不過 deepseek-v4-pro 和 kimi-k2.5 還是比它更便宜。所以 GLM 5.2 是用差不多中國模型的價格，提供頂尖等級的能力，但它並不是價格的絕對地板。它沒有另外收快取寫入費：快取寫入是以輸入費率計費，只有快取讀取才會折扣到上表那個費率。各家折扣幅度不一樣，GLM 5.2 的快取讀取大約是輸入費率的五分之一，而頂尖模型（gpt-5.5、claude-opus-4-8、gemini-3.1-pro）的讀取則折到大約十分之一。

它比起自家前幾代也是一次升級。前一代 GLM 便宜得誇張；GLM 5 系列拉高了價格，而 GLM 5.2 的輸入費率大約是 GLM-4.6 的 3 倍（智譜官方費率）：

GLM 模型	發布時間	輸入（$/M）	輸出（$/M）
GLM-4.5	2025-07	0.60	2.20
GLM-4.6	2025-09	0.43	1.74
GLM-5	2026	1.00	3.20
GLM-5.2	2026-06	1.40	4.40

這些錢換來的是 1M 上下文和那些頂尖 benchmark。但每個 token 的費率只是表面數字。你每個任務實際付出的成本，是由 reasoning effort 決定的。

reasoning effort 這個旋鈕

GLM 5.2 的 reasoning 是一個旋鈕，不是一個開關。你可以把它關掉（enable_thinking: false），把 reasoning_effort 設成 low、medium 或 high，或是維持預設，讓 reasoning 不設上限地跑。這個設定對成本和延遲的影響，遠比價格本身大得多。我們把一個簡單的和一個困難的 coding 任務，分別在各種設定下跑過，並用數百組隨機案例對照參考答案，逐一檢查每個回答。

簡單的任務：開推理只是徒增成本

加權區間排程（weighted interval scheduling），一個難度中等的動態規劃問題：

模式	推理 token	答案 token	成本	延遲	正確
`glm-5.2`，關閉 thinking	0	169	$0.0008	≈5s	是
`glm-5.2`，`reasoning_effort: low`	1,563	150	$0.0076	39s	是
`glm-5.2`，預設不設上限	≈6,290	≈150	$0.0285	137s	是
`gpt-5.5`（參考）	59	141	$0.0064	4.8s	是
`claude-opus-4-8`（參考）	0	201	$0.0057	3.3s	是

有兩點很明顯。關閉 thinking 不但答對，還是全場最便宜的，大約是前沿模型的 1/8，而每往上調一格旋鈕，得到的答案一樣，只是成本變高。而且帳單跟著推理走，不是跟著答案走：GLM 回傳的程式碼每次都大約是 150 個 token，前面的推理卻從零一路膨脹到約 6,300，而且以同樣的 $4.40/M output 費率計費。預設不設上限的模式，花掉這些推理只是為了得到關閉 thinking 完全沒推理就產出的同一個答案，而這段差距正是成本差異的全部來源。前沿模型在這裡幾乎沒回報什麼推理就答出來了：gpt-5.5 用掉 59 個推理 token，claude-opus-4-8 的用量回報則是零。

困難任務：reasoning 確實值得，但 default 不值得

萬用字元字串比對（? 與 *），這是個經典題目，很容易在細節上出錯。這裡關掉 thinking 就翻車了。它回傳的是一個有 memoization 的遞迴：

def is_match(s, p):
    memo = {}
    def match(i, j):
        if (i, j) in memo:
            return memo[(i, j)]
        if j == len(p):
            result = i == len(s)
        elif i < len(s) and p[j] in (s[i], '?'):
            result = match(i + 1, j + 1)
        elif p[j] == '*':
            result = match(i + 1, j) or match(i, j + 1)
        else:
            result = False
        memo[(i, j)] = result
        return result
    return match(0, 0)

看起來沒問題，連 memo 都用上了，似乎下了點功夫。但 * 那條分支在遞迴 match(i + 1, j) 時沒有對 i 設上界。一旦字串已經消耗完、pattern 還剩 *，i 就會無止盡往上爬，最後 stack overflow。又快又便宜，但是錯的。

把旋鈕往上轉，它回傳的就是正確的迭代式雙指標演算法，靠回溯到最後一個 *，而不是用遞迴：

def is_match(s, p):
    s_idx, p_idx, star_idx, match_idx = 0, 0, -1, 0
    while s_idx < len(s):
        if p_idx < len(p) and (p[p_idx] == '?' or p[p_idx] == s[s_idx]):
            s_idx += 1
            p_idx += 1
        elif p_idx < len(p) and p[p_idx] == '*':
            star_idx = p_idx
            match_idx = s_idx
            p_idx += 1
        elif star_idx != -1:
            p_idx = star_idx + 1
            match_idx += 1
            s_idx = match_idx
        else:
            return False
    while p_idx < len(p) and p[p_idx] == '*':
        p_idx += 1
    return p_idx == len(p)

這個任務從頭到尾轉一輪旋鈕：

GLM 5.2 設定	成本	延遲	正確
thinking off	$0.0007	6s	否（stack overflow）
`reasoning_effort: high`	$0.0031	13s	是
`reasoning_effort: medium`	$0.0032	16s	是
`reasoning_effort: low`	$0.0068	40s	是
unbounded default	$0.062	405s	是
`gpt-5.5`（參考）	$0.0064	5.4s	是
`claude-opus-4-8`（參考）	$0.0069	4.6s	是

每個明確的 effort 等級都解出來了。reasoning_effort: high 用 $0.0031、13 秒就搞定，對同樣的答案來說，比 unbounded default 便宜約二十倍、快約三十倍，成本上甚至比前沿模型還低，只慢了幾秒。有個值得知道的怪現象：GLM 的 low 產生的 reasoning 比 high 還多，兩個任務上都一致如此，所以等級名稱跟 token 數量並不對應。medium 和 high 才是又便宜又快的設定。

唯一要避開的就是 unbounded default。它兩邊的壞處都佔了：它買了任務可能根本不需要的 reasoning，還花了好幾分鐘才做完，最後得到的答案跟 reasoning_effort: high 一樣，成本卻是二十倍。

決策規則

控制桿就是 reasoning effort，而正確的設定取決於任務，不是模型：

簡單或大量的工作，正確性很容易達到：關掉 thinking（enable_thinking: false）。答案正確，成本約為前沿模型的八分之一。
較難的問題，關掉 thinking 會失敗的那種：用 reasoning_effort: medium 或 high。答案正確，每個任務約 $0.003，成本低於前沿模型，只慢幾秒。
絕對不要用 unbounded default。 把 reasoning 開著又不設 effort 上限，就是讓一個 $0.003 的答案變成 $0.06、要花七分鐘的答案的途徑。

如果你事先無法判斷某個任務是否需要 reasoning，reasoning_effort: high 是個安全的預設：它便宜、兩個任務都解出來了，而且從不失控。

快取省的是 input，不是 reasoning

GLM 5.2 在閘道上支援快取，效果也如預期般落在該省的地方。我們送出一段 1,494 token 的共用前綴（一個要 review 的程式碼模組），搭配幾個不同的問題：

呼叫	Prompt tokens	快取	Output	成本	延遲
新問題，前綴尚未快取	1,493	0	120	$0.0026	6.5s
新問題，前綴已快取	1,494	1,472	120	$0.0009	5.1s
完全重複（語意命中）	1,494	1,494	120	$0.0009	1.0s

只要一段較大的前綴被看過一次，就會進快取。快取的 input token 計費大約只有正常 input 費率的五分之一，讓一個其餘條件完全相同的請求從 $0.0026 降到 $0.0009，省了大約 64%。完全重複的請求則直接由語意快取回應：答案一樣、成本跟已快取的呼叫一樣，但回應時間從五秒縮到大約一秒。

問題還是那個刻度盤教過我們的事：快取折抵的是 input，而只要 reasoning 一開，成本與延遲就落在 reasoning 的 output 上，那部分並不會被快取。所以對 thinking-off、高 context 的工作（每次呼叫都帶相同的 system prompt 或同一份程式碼庫）來說，快取是實打實的勝利；一旦 reasoning 開了，省下的就有限了。

在 Synthorai 上使用

glm-5.2 已在閘道上線。從測試中歸納出三個實用的注意事項：

明確設定 reasoning effort。 簡單的工作用 enable_thinking: false，較難的問題用 reasoning_effort: medium 或 high。唯一要避免的，是把 reasoning 開著卻不設 effort 上限（也就是無上限的預設值），這正是那個 $0.06、七分鐘的陷阱。
reasoning 開著時請用 streaming。 reasoning 回應可能跑上好幾分鐘，非 streaming 的請求會一直掛在一條沒有任何回應的連線上，久到你的 client 多半會在答案回來之前就 timeout。改用 stream: true，你就能拿到逐步輸出與完整結果。
重複利用你的 context。 如果每次呼叫都送相同的大型 system prompt 或程式碼庫，前綴快取會降低 input 成本，再搭配關掉 thinking，整個請求就會很便宜。

定價為每百萬 token $1.40 / $4.40，而閘道會在每次呼叫回傳一個 cost 欄位，讓你清楚看到每個請求實際花了多少。

結論

GLM 5.2 是一款真正便宜又夠用的 coding 模型，設定得當的話，在簡單與困難的工作上都能打贏前沿模型的價格。關鍵就在設定。它的 reasoning 是一個刻度盤，而預設值把它放成無上限，這就是為什麼一個本該花 $0.003 的任務會變成 $0.06、七分鐘的呼叫。簡單的工作設 enable_thinking: false，其餘的用 reasoning_effort: medium 或 high，GLM 5.2 就能在各種情況下兼顧便宜與正確。把 reasoning 留在預設值，它就會是你能挑到的最慢、最貴的選項。

來源

（上方的 Synthorai 列出價格為本平台截至 2026-06-24 的費率；GLM 各世代費率為 Zhipu 的官方定價。）

成本於 2026-06-24 在 Synthorai 上實測（glm-5.2，每百萬 token $1.40 / $4.40）；在依賴這些數字前，請先確認當前定價。

← 返回部落格