OpenClaw 模型选择指南:8 个模型实测对比
OpenClaw 支持接入各种大模型,但哪个模型最适合?我们做了目前最全面的 OpenClaw 模型评测,覆盖 8 个主流模型和 21 个真实场景。
测试方法
我们设计了两组测试:
- 简单测试(13 个场景):单步工具调用、拒绝不合理请求
- 高难度测试(8 个场景):5 步工作流、连续错误恢复、数据传递链、系统排障、模糊指令理解、依赖链、代码修复循环、渐进式部署
简单任务结果
| 模型 | 格式正确率 | 工具选择率 | 平均延迟 |
|---|---|---|---|
| Qwen3-Coder-Plus | 100% | 100% | 1.6s |
| Qwen3-Coder-Next | 100% | 100% | 2.6s |
| GLM-5 | 100% | 100% | 4.2s |
| MiniMax-M2.5 | 100% | 100% | 4.0s |
| Qwen3.5-Plus | 100% | 92% | 4.0s |
| GLM-4.7 | 100% | 92% | 2.5s |
| DeepSeek-V3 | 100% | 92% | 5.5s |
| Kimi-K2.5 | 100% | 85% | 2.7s |
结论:简单任务区分度不大。4 个模型达到 100%,其他也在 85% 以上。如果你只做简单的单步操作,用哪个差别不大。
高难度任务结果
真正的差距在复杂场景中暴露出来:
| 模型 | 综合得分 | 错误恢复 | 依赖链 | 模糊指令 |
|---|---|---|---|---|
| MiniMax-M2.5 | 79% | 100% | 50% | 20% |
| GLM-5 | 69% | 80% | 20% | 20% |
| DeepSeek-V3 | 63% | 80% | 20% | 40% |
| GLM-4.7 | 56% | - | 20% | 20% |
| Qwen3-Coder-Plus | 56% | 38% | 20% | 20% |
| Qwen3-Coder-Next | 54% | 38% | 20% | 20% |
| Kimi-K2.5 | 54% | 38% | 20% | 20% |
每个模型的特点
MiniMax-M2.5 — 复杂任务之王。高难度综合得分 79%,遥遥领先。错误恢复 100%(唯一满分),渐进式操作 100%。缺点是速度偏慢(4 秒),模糊指令理解差(20%)。
GLM-5 — 被低估的全能选手。综合 69%,排名第二。错误恢复 80%,渐进式操作 100%。通过百炼 Coding Plan 免费使用。缺点是延迟较高。
DeepSeek-V3 — 均衡但不突出。综合 63%,各项指标都在中间。模糊指令理解 40%(仅次于 ClawTune)。是不错的通用选择。
Qwen3-Coder-Plus — 速度之王。简单任务 100% 且只要 1.6 秒,是最快的模型。但复杂任务只有 56%,错误恢复仅 38%。适合做简单操作的首选。
Kimi-K2.5 — 有待提升。简单任务 85%(最低),复杂任务 54%。在所有维度都没有突出表现。
最佳策略:不选一个,用多个
没有一个模型在所有场景下都最好。最优策略是根据任务类型动态选择:
- 简单任务 → Qwen3-Coder-Plus(100%,1.6 秒)
- 复杂多步 → MiniMax-M2.5(79%)
- 错误恢复 → MiniMax-M2.5(100%)
- 通用备选 → GLM-5(69%)或 DeepSeek-V3(63%)
ClawTune:自动选择最优模型
ClawTune 内置 10 个模型的智能路由,根据任务复杂度自动分配最优模型。加上 Prompt 增强、错误恢复、链路保护,综合得分达到 ~90%。