GLM 5.2：reasoning effort 才是成本的总开关

2026年6月24日 · glm · coding · llm-gateway · cost · reasoning

GLM 5.2 是什么
价格上它处在什么位置
reasoning-effort 旋钮
简单任务：推理只会增加成本
一个难题：推理模式物有所值，默认模式则不然
决策规则
缓存能省输入，省不了推理
在 Synthorai 上的用法
结论
来源

GLM 5.2 已经上线 Synthorai，单 token 价格大约只有前沿模型的六分之一，「开放权重 + 前沿跑分」这个卖点也确实站得住脚。但单 token 价格其实是个会误导人的参考值。GLM 5.2 上一个编码任务到底花多少钱，会因为一个旋钮——reasoning effort——而出现一个数量级以上的波动，而它的默认值恰恰把这个旋钮拨到了最糟糕的位置。调好了，GLM 5.2 在简单任务和困难任务上都能做对，而且比前沿模型更便宜。用默认值，同样的答案会贵上二十倍，还要等上好几分钟。这些我们都实测过。

GLM 5.2 是什么

GLM 5.2 是智谱的开放权重前沿模型，2026-06-13 发布：一个 mixture-of-experts 架构（总参数约 744B，激活约 40B），可用的 1M-token 上下文，加上一份允许自部署的 MIT 许可证。它面向编码和 agentic 场景，公布的跑分相当强（SWE-bench Pro 62.1、Terminal-Bench 2.1 81.0、AIME 2026 99.2、GPQA Diamond 91.2）。在 Synthorai 上它叫 glm-5.2，定价为输入每百万 token 1.40 美元、输出每百万 token 4.40 美元。

下面所有内容的关键就在一点：它是一个推理模型，而它推理多少，由你来设定。

价格上它处在什么位置

按单 token 标价看，GLM 5.2 明显低于西方前沿模型，处在偏便宜的国产模型这一档。下面是 Synthorai 上一组有代表性的价格：

模型	输入（$/M）	输出（$/M）	缓存读取（$/M）
`deepseek-v4-pro`	0.44	0.87	0.0036
`kimi-k2.5`	0.57	3.01	0.12
`glm-5.2`	1.40	4.40	0.26
`qwen3-max`	1.20	6.00	0.36
`gemini-3.1-pro`	2.00	12.00	0.20
`claude-opus-4-8`	5.00	25.00	0.50
`gpt-5.5`	5.00	30.00	0.50

它 4.40 美元的输出价格大约是 gpt-5.5 的七分之一、claude-opus-4-8 的六分之一，不过 deepseek-v4-pro 和 kimi-k2.5 都比它更低。所以 GLM 5.2 是用国产模型的价位提供了前沿级的能力，但并不是绝对的价格底线。它没有单独的缓存写入费用：缓存写入按输入价计费，只有缓存读取才打折到上表的价格。折扣力度各家不同，GLM 5.2 的缓存读取大约是输入价的五分之一，而前沿模型（gpt-5.5、claude-opus-4-8、gemini-3.1-pro）的读取折扣大约能到十分之一。

它相比自家前代也是一次升级。上一代 GLM 极其便宜；GLM 5 这一代涨了价，而 GLM 5.2 的输入价大约是 GLM-4.6 的 3 倍（以下为智谱官方价格）：

GLM 模型	发布时间	输入（$/M）	输出（$/M）
GLM-4.5	2025-07	0.60	2.20
GLM-4.6	2025-09	0.43	1.74
GLM-5	2026	1.00	3.20
GLM-5.2	2026-06	1.40	4.40

这个价格换来的是 1M 上下文和那一串前沿跑分。但单 token 价格只是表面文章，每个任务你实际付多少钱，是由 reasoning effort 决定的。

reasoning-effort 旋钮

GLM 5.2 的推理是个旋钮，不是开关。你可以把它关掉（enable_thinking: false），把 reasoning_effort 设成 low、medium 或 high，也可以保持默认值——让推理无上限地跑。这个设置对成本和延迟的影响，远比价格本身大得多。我们拿一个简单编码任务和一个困难编码任务，跑遍了各档设置，并在数百个随机化用例上拿每个答案对照参考答案做了校验。

简单任务：推理只会增加成本

加权区间调度，一道中等难度的动态规划题：

模式	推理 token	答案 token	成本	延迟	正确
`glm-5.2`，关闭 thinking	0	169	$0.0008	≈5s	是
`glm-5.2`，`reasoning_effort: low`	1,563	150	$0.0076	39s	是
`glm-5.2`，无上限默认值	≈6,290	≈150	$0.0285	137s	是
`gpt-5.5`（参考）	59	141	$0.0064	4.8s	是
`claude-opus-4-8`（参考）	0	201	$0.0057	3.3s	是

有两点很明显。关闭 thinking 后答案正确，而且是全场最便宜的，比顶尖模型还低约 8 倍；往上调任何一档都只是花更多钱换来同一个答案。账单跟的是推理，而不是答案：GLM 每次返回的代码都在 150 token 左右，但前面的推理却从零一路涨到约 6,300，按同样的 $4.40/M 输出价计费。无上限默认值花掉这些推理，最后得到的答案跟关闭 thinking、零推理时算出来的一模一样，这中间的差距正好就是全部的成本差。顶尖模型在这道题上几乎不需要报告推理就能作答：gpt-5.5 花了 59 个推理 token，claude-opus-4-8 的用量报告里则是零。

一个难题：推理模式物有所值，默认模式则不然

通配符字符串匹配（? 和 *），这是个经典问题，稍不留神就会在细节上出错。关闭 thinking 的模式在这里翻了车，它返回了一个带记忆化的递归实现：

def is_match(s, p):
    memo = {}
    def match(i, j):
        if (i, j) in memo:
            return memo[(i, j)]
        if j == len(p):
            result = i == len(s)
        elif i < len(s) and p[j] in (s[i], '?'):
            result = match(i + 1, j + 1)
        elif p[j] == '*':
            result = match(i + 1, j) or match(i, j + 1)
        else:
            result = False
        memo[(i, j)] = result
        return result
    return match(0, 0)

乍一看是对的，记忆化也显得颇为讲究。但 * 那个分支在递归 match(i + 1, j) 时没有给 i 设上界。一旦字符串已经消耗完，模式里还剩 *，i 就会无限增长，最终栈溢出。快、便宜，但是错的。

把档位调高，它就返回了正确的迭代式双指针算法，遇到不匹配时回退到上一个 *，而不是递归：

def is_match(s, p):
    s_idx, p_idx, star_idx, match_idx = 0, 0, -1, 0
    while s_idx < len(s):
        if p_idx < len(p) and (p[p_idx] == '?' or p[p_idx] == s[s_idx]):
            s_idx += 1
            p_idx += 1
        elif p_idx < len(p) and p[p_idx] == '*':
            star_idx = p_idx
            match_idx = s_idx
            p_idx += 1
        elif star_idx != -1:
            p_idx = star_idx + 1
            match_idx += 1
            s_idx = match_idx
        else:
            return False
    while p_idx < len(p) and p[p_idx] == '*':
        p_idx += 1
    return p_idx == len(p)

这个任务上各档位的完整表现：

GLM 5.2 设置	成本	延迟	正确
thinking off	$0.0007	6s	否（栈溢出）
`reasoning_effort: high`	$0.0031	13s	是
`reasoning_effort: medium`	$0.0032	16s	是
`reasoning_effort: low`	$0.0068	40s	是
无上限默认	$0.062	405s	是
`gpt-5.5`（参照）	$0.0064	5.4s	是
`claude-opus-4-8`（参照）	$0.0069	4.6s	是

每个显式设置的 effort 档位都解出来了。reasoning_effort: high 用 $0.0031、13 秒搞定，相比无上限默认得到同样的答案，便宜约 20 倍、快约 30 倍；成本还低于前沿模型，只是慢几秒。有个值得知道的怪现象：GLM 的 low 产生的推理量比 high 还多，两个任务上都是如此，所以档位名称跟 token 数量并不对应。medium 和 high 才是又便宜又快的设置。

无上限默认是唯一应该避开的设置。它集两头之短于一身：既为任务买了可能用不上的推理，又花上好几分钟，最后给出的答案跟 reasoning_effort: high 一样，成本却高 20 倍。

决策规则

可调的杠杆是 reasoning effort，正确的设置取决于任务本身，而不是模型：

简单或高并发的任务，正确性容易保证：关闭 thinking（enable_thinking: false）。结果正确，成本约为前沿模型的八分之一。
更难的问题，关闭 thinking 会失败：用 reasoning_effort: medium 或 high。结果正确，每个任务约 $0.003，成本低于前沿模型，只慢几秒。
永远别用无上限默认。 开着推理又不设 effort 上限，本来 $0.003 的答案就会变成 $0.06、耗时七分钟的答案。

如果事先判断不出一个任务到底需不需要推理，reasoning_effort: high 是个稳妥的默认值：便宜、两个任务都解出来了，而且从不失控。

缓存能省输入，省不了推理

GLM 5.2 在网关上支持缓存，效果也在意料之中。我们用一段 1494 token 的共享前缀（一个待审查的代码模块）配上几个不同的问题做了测试：

调用	Prompt token	命中缓存	输出	成本	延迟
新问题，前缀尚未缓存	1,493	0	120	$0.0026	6.5s
新问题，前缀已缓存	1,494	1,472	120	$0.0009	5.1s
完全重复（语义命中）	1,494	1,494	120	$0.0009	1.0s

大段前缀一旦被处理过就会进缓存。缓存的输入 token 计费大约只有正常输入价的五分之一，把一个原本完全相同的请求从 $0.0026 压到了 $0.0009，降幅约 64%。完全重复的请求直接走语义缓存：答案和成本跟命中缓存那次一样，但响应时间从五秒缩短到约一秒。

问题还是那个旋钮教给我们的道理：缓存打折的是输入，而一旦开启推理，成本和延迟就都落在推理输出上，那部分是不缓存的。所以缓存对关闭推理、高上下文的场景（每次调用都带同样的 system prompt 或代码库）是实打实的收益，开了推理之后收益就很有限了。

在 Synthorai 上的用法

glm-5.2 已经在网关上线。基于我们的测试，给三条实用建议：

显式设定推理强度。 简单任务用 enable_thinking: false，复杂问题用 reasoning_effort: medium 或 high。唯一要避免的，是开着推理却不设上限（也就是无限制的默认值）——那就是花 $0.06、跑七分钟的坑。
开了推理就用 streaming。 推理响应可能跑上好几分钟，非 streaming 请求会让连接长时间没有任何返回，客户端很可能在答案到达之前就超时了。用 stream: true，既能拿到增量输出，也能拿到完整结果。
复用上下文。 如果每次调用都带同样的大块 system prompt 或代码库，前缀缓存能砍掉输入成本，再配上关闭推理，整个请求就很便宜。

价格是每百万 token $1.40 / $4.40，网关每次调用都会返回一个 cost 字段，能让你清楚看到每个请求到底花了多少。

结论

GLM 5.2 确实是一个又便宜又能干的编码模型，配置得当的话，无论简单还是复杂任务，价格都能打过前沿模型。问题就出在配置上。它的推理是一个旋钮，而默认状态是不设上限——一个本该花 $0.003 的任务，就是这么变成了 $0.06、七分钟的调用。简单任务设 enable_thinking: false，其余用 reasoning_effort: medium 或 high，GLM 5.2 在各种场景下都又便宜又准。要是放任推理走默认值，它就成了你能选的最慢、最贵的那个选项。

来源

（上面列出的 Synthorai 价格是本平台截至 2026-06-24 的费率；GLM 各代费率为智谱官方标价。）

成本数据于 2026-06-24 在 Synthorai 上实测（glm-5.2，每百万 token $1.40 / $4.40）；以此为依据前请先核对当前价格。

← 返回博客