免责声明:本文所有基准测试数据均来自各模型官方发布的模型卡、技术报告、官方定价页面及第三方评测平台 Artificial Analysis 的公开结果,并非我们独立测试。不同评测环境的分数不可直接等同,仅供参考。
xAI 在 4 月 30 日正式将 Grok 4.3 推向 API 全量开放1。此前它在 4 月 17 日以 Beta 身份出现在 SuperGrok Heavy($300/月)订阅中2,Elon Musk 当时确认线上 checkpoint 约 0.5 万亿参数,一个 1T 参数版本距完成训练约五天2。
与此同时,三款中国产低成本开源模型也在近期密集发布:DeepSeek V4 Flash(4 月 24 日)3、MiniMax M2.7(3 月 18 日)4、小米 MiMo 2.5(4 月 22 日)5。它们的共同策略是用 10-15B 激活参数追求高性价比,而 Grok 4.3 走的是另一条路线——参数更大、推理始终开启、更强调法律金融等垂直场景的精度。
核心规格对比
| 项目 | Grok 4.3 | DeepSeek V4 Flash | MiniMax M2.7 | MiMo 2.5 |
|---|---|---|---|---|
| 开发商 | xAI | DeepSeek | MiniMax | 小米 |
| 发布日 | 2026.04.17 Beta / 04.30 GA12 | 2026.04.243 | 2026.03.184 | 2026.04.225 |
| 总参数 | ~0.5T(Musk 确认)2 | 284B3 | 229B4 | 310B5 |
| 激活参数 | 未披露 | 13B3 | 10B4 | 15B5 |
| 架构 | 未披露 | MoE + CSA/HCA 混合注意力3 | MoE4 | MoE + 混合滑窗注意力5 |
| 上下文窗口 | 1M(API)/ 2M(App)12 | 1M3 | 200K4 | 1M5 |
| 推理模式 | 始终开启,不可关闭1 | 三档:Non-Think / High / Max3 | 支持推理切换4 | 支持推理切换5 |
| 多模态 | 文本 + 图片 + 视频2 | 仅文本3 | 仅文本6 | 文本 + 图片 + 音频 + 视频5 |
| 开源 | 闭源2 | MIT 协议3 | 开源(协议未明确)7 | MIT 协议8 |
| 文档生成 | PDF / PPTX / Excel2 | 不支持 | 不支持 | 不支持 |
Grok 4.3 在参数规模和功能完整度上明显高出半档——它原生支持视频理解和结构化文档生成,这两项能力在三款开源模型中只有 MiMo 2.5 的多模态能力可以部分对应。但 MiMo 2.5 不支持文档输出。
基准测试:Grok 4.3 领先,但差距因任务而异
以下数据全部来自各模型官方披露及 Artificial Analysis 第三方评测:
| 基准 | Grok 4.3 | DeepSeek V4 Flash (Max) | MiniMax M2.7 | MiMo 2.5 |
|---|---|---|---|---|
| GPQA Diamond | 90.1%1 | 88.1%3 | 87.4%9 | 84.9%10 |
| HLE(人类最后的考试) | 35.0%1 | 34.8%3 | 28.1%9 | 25.2%10 |
| AA 智力指数(综合) | 53.21 | 4711 | 49.69 | 49.010 |
| SciCode | 47.3%1 | — | 47.0%9 | — |
| τ²-Bench | 97.7%1 | 95.6%(High)3 | 84.8%9 | 90.6%11 |
| IFBench | 81.3%1 | 79.2%(Max)3 | 75.7%9 | 67.1%10 |
| GDPval-AA(ELO) | ~150012 | 13953 | 14954 | 1578–158113 |
| 输出速度(tok/s) | 225.41 | ~8011 | ~429 | 100–15014 |
| 首 Token 延迟 | 13.13s1 | 1.03s(Non-Think)11 | 1.75s–2.31s9 | 未披露 |
几个关键信号:
综合智力 Grok 4.3 领先,但领先幅度不算悬殊。 AA 智力指数 53.2 对阵三款开源模型的 47-49.6,差距在 4-6 分。GPQA Diamond 上 Grok 4.3 的 90.1% 领先 DeepSeek V4 Flash 的 88.1% 两个百分点,但差距不大。真正拉开距离的是 HLE(人类最后的考试),Grok 4.3 比 MiniMax M2.7 高 6.9 个百分点。
Agent 和工具使用上,出现了”各有千秋”的局面。 τ²-Bench 上 Grok 4.3 以 97.7% 领先,但 DeepSeek V4 Flash 的 95.6% 差距不到 2 个点。GDPval-AA 上更意外:MiMo 2.5 以 1578-1581 ELO 领先 Grok 4.3 的约 1500 ELO1312。MiniMax M2.7 的 1495 也与 Grok 基本持平4。VentureBeat 报道指出 Grok 4.3 在 GDPval-AA 上的约 300 ELO 提升(对比 Grok 4.20)确实大幅提高了 Agent 任务表现,但这个进步是把分数拉到和开源阵营接近的水平,而非甩开12。
速度方面,Grok 4.3 输出最快但首 Token 最慢。 225.4 tok/s 的输出速度是 MiniMax M2.7 的 5 倍多,但 13.13 秒的首 Token 延迟在所有模型中垫底1。这是因为 Grok 4.3 的推理始终开启,每次请求都要先”思考”。DeepSeek V4 Flash 在 Non-Think 模式下首 Token 仅需约 1 秒,但切换到 Max 推理后也会显著变慢11。
法律和金融是 Grok 4.3 的绝对优势区。 它在 CaseLaw v2(法律推理)上以 79.3% 排第一,CorpFin(金融分析)也是第一12。这在三款开源模型中没有任何对标数据——它们都未在这些垂直基准上公开发布成绩。
定价:Grok 居中,开源阵营两端分化
| 项目 | Grok 4.3 | DeepSeek V4 Flash | MiniMax M2.7 | MiMo 2.5 |
|---|---|---|---|---|
| 输入($/1M tokens) | $1.251 | $0.143 | $0.304 | 约 $0.5013 |
| 输出($/1M tokens) | $2.501 | $0.283 | $1.204 | 约 $1.5013 |
| 缓存读取($/1M) | $0.201 | $0.00283 | $0.0615 | 未披露 |
| 高价阈值 | >200K tokens 价格翻倍1 | 无分层3 | 无分层4 | 无分层 |
| 推理 token 计费 | 按输出 token 同价1 | 按输出 token 同价3 | 包含在输出价格中4 | 含在内 |
| 消费端订阅 | $30/月 SuperGrok / $300/月 Heavy2 | 无固定订阅,按量计费3 | 有 Token Plan4 | 有 Token Plan13 |
Grok 4.3 的输入价格($1.25/M)是 DeepSeek V4 Flash 的近 9 倍,输出价格($2.50/M)也是 9 倍。但比起 MiniMax M2.7 的 $1.20/M 输出和 MiMo 2.5 的约 $1.50/M,差距缩小到 1.7-2 倍。
需要注意的是推理 token 开销——Grok 4.3 每次都要推理,这些”思考 token”按输出价格计费。如果你在 DeepSeek V4 Flash 上开 Max 模式,同样要承担额外的推理成本。实际使用成本往往比表面价格高。
Grok 4.3 的不可替代之处
三件事是 Grok 4.3 独有的:
- 垂直领域精度:CaseLaw v2 79.3%(法律)、CorpFin 第一(金融)的成绩意味着它在条文分析、合规审查、财务建模等场景中有明确的工程价值12,开源模型目前在这个维度上没有公开的对标数据。
- 原生文档生成:直接从对话输出格式化的 PDF、PPTX、Excel 文件2,在竞争分析、尽职调查报告等场景中能省去人工排版环节。
- X 平台深度集成:Grok 4.3 可以搜索 X 上的实时帖子和用户画像1,这个数据通道是其他模型无法替代的。
开源阵营的反击点
- 价格护城河:DeepSeek V4 Flash 的 $0.28/M 输出意味着在聊天、分类、内容提取等大流量场景中,即使性能略输,总成本也可能只有 Grok 4.3 的几分之一。
- 自由部署:MIT 协议的模型可以在私有云或本地运行,没有数据外泄的合规风险。Grok 4.3 是闭源的,只能通过 API 调用。
- Agent 能力不弱:GDPval-AA 上 MiMo 2.5 甚至比 Grok 4.3 更高,MiniMax M2.7 持平——这三款在办公自动化和 Agent 工作流场景中并不处于劣势。
值得期待什么
Grok 4.3 的发布说明了两件事:
第一,中等规模模型的能力天花板还在上移。 Grok 4.3 约 0.5T 参数就能在综合智力上达到 53.2,而这个级别的参数规模对于有足够算力的团队来说并非不可企及。Musk 还公布了 1T 版本在训练中的消息2,如果如期发布,可能会进一步拉高这个级别的能力基准。
第二,推理-成本-垂直精度的三角平衡是 2026 年的主战场。 Grok 4.3 选择了”始终推理但单价适中”的定位;DeepSeek V4 Flash 选择”极致便宜但推理可开关”;MiniMax M2.7 选择”Agent 均衡”;MiMo 2.5 选择”多模态+办公 Agent”。四家各有取舍,没有一家能在所有维度上通吃。
对于开发者来说,这意味着 2026 年年中做模型选型时,不太可能只绑一家。更合理的策略是把不同任务路由到不同模型:法律金融分析走 Grok 4.3,高并发低成本的 API 服务走 DeepSeek V4 Flash,多模态应用走 MiMo 2.5,复杂 Agent 工作流对比测试 MiniMax M2.7 和 Grok 4.3 的实际效果。
如果 Grok 4.3 的 1T 版本在二季度末推出并维持相似定价,可能会把”中等规模”模型的能力再推高一个台阶。届时开源阵营能否在 10-20B 激活参数的框架下追平,会是下半年最值得观察的技术故事。
参考来源
Footnotes
-
Artificial Analysis / Easy Benchmarks / xAI Docs — Grok 4.3 第三方基准测试汇总,含 AA 智力指数 53.2、GPQA Diamond 90.1%、HLE 35.0%、速度 225.4 tok/s、定价 $1.25/$2.50 https://easy-benchmarks.com/models/grok-4-3 及 https://docs.x.ai/docs/models ↩ ↩2 ↩3 ↩4 ↩5 ↩6 ↩7 ↩8 ↩9 ↩10 ↩11 ↩12 ↩13 ↩14 ↩15 ↩16 ↩17 ↩18 ↩19
-
Awesome Agents — Grok 4.3 发布会参数、视频理解、文档生成、Musk 对 0.5T/1T 参数的确认 https://awesomeagents.ai/models/grok-4-3/ ↩ ↩2 ↩3 ↩4 ↩5 ↩6 ↩7 ↩8 ↩9 ↩10 ↩11
-
DeepSeek Hugging Face — DeepSeek-V4-Flash 官方模型卡,含完整参数(284B/13B)、基准测试和 MIT 协议 https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash ↩ ↩2 ↩3 ↩4 ↩5 ↩6 ↩7 ↩8 ↩9 ↩10 ↩11 ↩12 ↩13 ↩14 ↩15 ↩16 ↩17 ↩18 ↩19 ↩20
-
DataLearnerAI — MiniMax M2.7 官方规格(229B/10B)、基准测试和定价信息 https://www.datalearner.com/en/ai-models/pretrained-models/minimax-m2-7 ↩ ↩2 ↩3 ↩4 ↩5 ↩6 ↩7 ↩8 ↩9 ↩10 ↩11 ↩12 ↩13 ↩14
-
小米 MiMo 官网 — MiMo-V2.5 官方发布页面,含 310B/15B 参数、1M 上下文和 ClawEval 基准 https://mimo.xiaomi.com/mimo-v2-5/ ↩ ↩2 ↩3 ↩4 ↩5 ↩6 ↩7 ↩8
-
DocsBot — MiniMax M2.7 模型规格,确认为文本模态 https://docsbot.ai/models/minimax-m2-7 ↩
-
RemoteOpenClaw Blog — MiniMax M2.7 系列模型对比,含开源状态和参数分析 https://www.remoteopenclaw.com/blog/best-minimax-models-for-openclaw ↩
-
VentureBeat — 报道小米 MiMo-V2.5 系列以 MIT 协议开源 https://venturebeat.com/technology/open-source-xiaomi-mimo-v2-5-and-v2-5-pro-are-among-the-most-efficient-and-affordable-at-agentic-claw-tasks ↩
-
Ufuk Ozen (Artificial Analysis 数据) — MiniMax M2.7 智力指数 49.6、编码指数 41.9、速度 42 tok/s 等 https://ufukozen.com/model/minimax-minimax-m2.7 ↩ ↩2 ↩3 ↩4 ↩5 ↩6 ↩7 ↩8
-
LLMBase.ai — MiMo-V2.5 与 Gemini 2.5 Flash 的基准对比,含 GPQA 84.9%、HLE 25.2%、τ²-Bench 90.6% 等 https://llmbase.ai/compare/gemini-2-5-flash-preview-09-2025-reasoning,mimo-v2-5-0424/ ↩ ↩2 ↩3 ↩4
-
Codersera — DeepSeek V4 Flash 深度分析,含 AA 智力指数 47、速度 ~80 tok/s、首 Token 1.03s(Non-Think) https://codersera.com/blog/deepseek-v4-flash-deep-dive/ ↩ ↩2 ↩3 ↩4 ↩5
-
VentureBeat — Grok 4.3 发布报道,含 GDPval-AA 约 300 ELO 提升、CaseLaw v2 79.3%、CorpFin 第一等 https://venturebeat.com/technology/xai-launches-grok-4-3-at-an-aggressively-low-price-and-a-new-fast-powerful-voice-cloning-suite ↩ ↩2 ↩3 ↩4 ↩5
-
Agmazon — MiMo-V2.5 完整指南,含 Terminal-Bench 56.1%、GDPval-AA 1578-1581、定价约 $0.50/$1.50 https://agmazon.com/blog/articles/technology/202604/mimo-v2-5-complete-guide-en.html ↩ ↩2 ↩3 ↩4 ↩5
-
Yahoo Tech — MiMo 2.5 速度 100-150 tok/s 报道 https://tech.yahoo.com/ai/articles/xiaomis-mimo-2-5-pro-204235330.html ↩
-
Price Per Token — MiniMax M2.7 缓存读取价格 $0.06/M https://pricepertoken.com/pricing-page/model/minimax-minimax-m2.7 ↩