新闻 深度 观点 研究 数据 资源 活动 关于

Grok 4.3 登场:对比三款中国产低成本开源模型,差距在哪、期待什么

xAI 发布 Grok 4.3(约5000亿参数),以 $1.25/$2.50 的定价对标 DeepSeek V4 Flash、MiniMax M2.7、MiMo 2.5 三款国产开源模型

免责声明:本文所有基准测试数据均来自各模型官方发布的模型卡、技术报告、官方定价页面及第三方评测平台 Artificial Analysis 的公开结果,并非我们独立测试。不同评测环境的分数不可直接等同,仅供参考。

xAI 在 4 月 30 日正式将 Grok 4.3 推向 API 全量开放1。此前它在 4 月 17 日以 Beta 身份出现在 SuperGrok Heavy($300/月)订阅中2,Elon Musk 当时确认线上 checkpoint 约 0.5 万亿参数,一个 1T 参数版本距完成训练约五天2

与此同时,三款中国产低成本开源模型也在近期密集发布:DeepSeek V4 Flash(4 月 24 日)3、MiniMax M2.7(3 月 18 日)4、小米 MiMo 2.5(4 月 22 日)5。它们的共同策略是用 10-15B 激活参数追求高性价比,而 Grok 4.3 走的是另一条路线——参数更大、推理始终开启、更强调法律金融等垂直场景的精度。

核心规格对比

项目Grok 4.3DeepSeek V4 FlashMiniMax M2.7MiMo 2.5
开发商xAIDeepSeekMiniMax小米
发布日2026.04.17 Beta / 04.30 GA122026.04.2432026.03.1842026.04.225
总参数~0.5T(Musk 确认)2284B3229B4310B5
激活参数未披露13B310B415B5
架构未披露MoE + CSA/HCA 混合注意力3MoE4MoE + 混合滑窗注意力5
上下文窗口1M(API)/ 2M(App)121M3200K41M5
推理模式始终开启,不可关闭1三档:Non-Think / High / Max3支持推理切换4支持推理切换5
多模态文本 + 图片 + 视频2仅文本3仅文本6文本 + 图片 + 音频 + 视频5
开源闭源2MIT 协议3开源(协议未明确)7MIT 协议8
文档生成PDF / PPTX / Excel2不支持不支持不支持

Grok 4.3 在参数规模和功能完整度上明显高出半档——它原生支持视频理解和结构化文档生成,这两项能力在三款开源模型中只有 MiMo 2.5 的多模态能力可以部分对应。但 MiMo 2.5 不支持文档输出。

基准测试:Grok 4.3 领先,但差距因任务而异

以下数据全部来自各模型官方披露及 Artificial Analysis 第三方评测:

基准Grok 4.3DeepSeek V4 Flash (Max)MiniMax M2.7MiMo 2.5
GPQA Diamond90.1%188.1%387.4%984.9%10
HLE(人类最后的考试)35.0%134.8%328.1%925.2%10
AA 智力指数(综合)53.21471149.6949.010
SciCode47.3%147.0%9
τ²-Bench97.7%195.6%(High)384.8%990.6%11
IFBench81.3%179.2%(Max)375.7%967.1%10
GDPval-AA(ELO)~15001213953149541578–158113
输出速度(tok/s)225.41~8011~429100–15014
首 Token 延迟13.13s11.03s(Non-Think)111.75s–2.31s9未披露

几个关键信号:

综合智力 Grok 4.3 领先,但领先幅度不算悬殊。 AA 智力指数 53.2 对阵三款开源模型的 47-49.6,差距在 4-6 分。GPQA Diamond 上 Grok 4.3 的 90.1% 领先 DeepSeek V4 Flash 的 88.1% 两个百分点,但差距不大。真正拉开距离的是 HLE(人类最后的考试),Grok 4.3 比 MiniMax M2.7 高 6.9 个百分点。

Agent 和工具使用上,出现了”各有千秋”的局面。 τ²-Bench 上 Grok 4.3 以 97.7% 领先,但 DeepSeek V4 Flash 的 95.6% 差距不到 2 个点。GDPval-AA 上更意外:MiMo 2.5 以 1578-1581 ELO 领先 Grok 4.3 的约 1500 ELO1312。MiniMax M2.7 的 1495 也与 Grok 基本持平4。VentureBeat 报道指出 Grok 4.3 在 GDPval-AA 上的约 300 ELO 提升(对比 Grok 4.20)确实大幅提高了 Agent 任务表现,但这个进步是把分数拉到和开源阵营接近的水平,而非甩开12

速度方面,Grok 4.3 输出最快但首 Token 最慢。 225.4 tok/s 的输出速度是 MiniMax M2.7 的 5 倍多,但 13.13 秒的首 Token 延迟在所有模型中垫底1。这是因为 Grok 4.3 的推理始终开启,每次请求都要先”思考”。DeepSeek V4 Flash 在 Non-Think 模式下首 Token 仅需约 1 秒,但切换到 Max 推理后也会显著变慢11

法律和金融是 Grok 4.3 的绝对优势区。 它在 CaseLaw v2(法律推理)上以 79.3% 排第一,CorpFin(金融分析)也是第一12。这在三款开源模型中没有任何对标数据——它们都未在这些垂直基准上公开发布成绩。

定价:Grok 居中,开源阵营两端分化

项目Grok 4.3DeepSeek V4 FlashMiniMax M2.7MiMo 2.5
输入($/1M tokens)$1.251$0.143$0.304约 $0.5013
输出($/1M tokens)$2.501$0.283$1.204约 $1.5013
缓存读取($/1M)$0.201$0.00283$0.0615未披露
高价阈值>200K tokens 价格翻倍1无分层3无分层4无分层
推理 token 计费按输出 token 同价1按输出 token 同价3包含在输出价格中4含在内
消费端订阅$30/月 SuperGrok / $300/月 Heavy2无固定订阅,按量计费3有 Token Plan4有 Token Plan13

Grok 4.3 的输入价格($1.25/M)是 DeepSeek V4 Flash 的近 9 倍,输出价格($2.50/M)也是 9 倍。但比起 MiniMax M2.7 的 $1.20/M 输出和 MiMo 2.5 的约 $1.50/M,差距缩小到 1.7-2 倍。

需要注意的是推理 token 开销——Grok 4.3 每次都要推理,这些”思考 token”按输出价格计费。如果你在 DeepSeek V4 Flash 上开 Max 模式,同样要承担额外的推理成本。实际使用成本往往比表面价格高。

Grok 4.3 的不可替代之处

三件事是 Grok 4.3 独有的:

  • 垂直领域精度:CaseLaw v2 79.3%(法律)、CorpFin 第一(金融)的成绩意味着它在条文分析、合规审查、财务建模等场景中有明确的工程价值12,开源模型目前在这个维度上没有公开的对标数据。
  • 原生文档生成:直接从对话输出格式化的 PDF、PPTX、Excel 文件2,在竞争分析、尽职调查报告等场景中能省去人工排版环节。
  • X 平台深度集成:Grok 4.3 可以搜索 X 上的实时帖子和用户画像1,这个数据通道是其他模型无法替代的。

开源阵营的反击点

  • 价格护城河:DeepSeek V4 Flash 的 $0.28/M 输出意味着在聊天、分类、内容提取等大流量场景中,即使性能略输,总成本也可能只有 Grok 4.3 的几分之一。
  • 自由部署:MIT 协议的模型可以在私有云或本地运行,没有数据外泄的合规风险。Grok 4.3 是闭源的,只能通过 API 调用。
  • Agent 能力不弱:GDPval-AA 上 MiMo 2.5 甚至比 Grok 4.3 更高,MiniMax M2.7 持平——这三款在办公自动化和 Agent 工作流场景中并不处于劣势。

值得期待什么

Grok 4.3 的发布说明了两件事:

第一,中等规模模型的能力天花板还在上移。 Grok 4.3 约 0.5T 参数就能在综合智力上达到 53.2,而这个级别的参数规模对于有足够算力的团队来说并非不可企及。Musk 还公布了 1T 版本在训练中的消息2,如果如期发布,可能会进一步拉高这个级别的能力基准。

第二,推理-成本-垂直精度的三角平衡是 2026 年的主战场。 Grok 4.3 选择了”始终推理但单价适中”的定位;DeepSeek V4 Flash 选择”极致便宜但推理可开关”;MiniMax M2.7 选择”Agent 均衡”;MiMo 2.5 选择”多模态+办公 Agent”。四家各有取舍,没有一家能在所有维度上通吃。

对于开发者来说,这意味着 2026 年年中做模型选型时,不太可能只绑一家。更合理的策略是把不同任务路由到不同模型:法律金融分析走 Grok 4.3,高并发低成本的 API 服务走 DeepSeek V4 Flash,多模态应用走 MiMo 2.5,复杂 Agent 工作流对比测试 MiniMax M2.7 和 Grok 4.3 的实际效果。

如果 Grok 4.3 的 1T 版本在二季度末推出并维持相似定价,可能会把”中等规模”模型的能力再推高一个台阶。届时开源阵营能否在 10-20B 激活参数的框架下追平,会是下半年最值得观察的技术故事。

参考来源

Footnotes

  1. Artificial Analysis / Easy Benchmarks / xAI Docs — Grok 4.3 第三方基准测试汇总,含 AA 智力指数 53.2、GPQA Diamond 90.1%、HLE 35.0%、速度 225.4 tok/s、定价 $1.25/$2.50 https://easy-benchmarks.com/models/grok-4-3https://docs.x.ai/docs/models 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19

  2. Awesome Agents — Grok 4.3 发布会参数、视频理解、文档生成、Musk 对 0.5T/1T 参数的确认 https://awesomeagents.ai/models/grok-4-3/ 2 3 4 5 6 7 8 9 10 11

  3. DeepSeek Hugging Face — DeepSeek-V4-Flash 官方模型卡,含完整参数(284B/13B)、基准测试和 MIT 协议 https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

  4. DataLearnerAI — MiniMax M2.7 官方规格(229B/10B)、基准测试和定价信息 https://www.datalearner.com/en/ai-models/pretrained-models/minimax-m2-7 2 3 4 5 6 7 8 9 10 11 12 13 14

  5. 小米 MiMo 官网 — MiMo-V2.5 官方发布页面,含 310B/15B 参数、1M 上下文和 ClawEval 基准 https://mimo.xiaomi.com/mimo-v2-5/ 2 3 4 5 6 7 8

  6. DocsBot — MiniMax M2.7 模型规格,确认为文本模态 https://docsbot.ai/models/minimax-m2-7

  7. RemoteOpenClaw Blog — MiniMax M2.7 系列模型对比,含开源状态和参数分析 https://www.remoteopenclaw.com/blog/best-minimax-models-for-openclaw

  8. VentureBeat — 报道小米 MiMo-V2.5 系列以 MIT 协议开源 https://venturebeat.com/technology/open-source-xiaomi-mimo-v2-5-and-v2-5-pro-are-among-the-most-efficient-and-affordable-at-agentic-claw-tasks

  9. Ufuk Ozen (Artificial Analysis 数据) — MiniMax M2.7 智力指数 49.6、编码指数 41.9、速度 42 tok/s 等 https://ufukozen.com/model/minimax-minimax-m2.7 2 3 4 5 6 7 8

  10. LLMBase.ai — MiMo-V2.5 与 Gemini 2.5 Flash 的基准对比,含 GPQA 84.9%、HLE 25.2%、τ²-Bench 90.6% 等 https://llmbase.ai/compare/gemini-2-5-flash-preview-09-2025-reasoning,mimo-v2-5-0424/ 2 3 4

  11. Codersera — DeepSeek V4 Flash 深度分析,含 AA 智力指数 47、速度 ~80 tok/s、首 Token 1.03s(Non-Think) https://codersera.com/blog/deepseek-v4-flash-deep-dive/ 2 3 4 5

  12. VentureBeat — Grok 4.3 发布报道,含 GDPval-AA 约 300 ELO 提升、CaseLaw v2 79.3%、CorpFin 第一等 https://venturebeat.com/technology/xai-launches-grok-4-3-at-an-aggressively-low-price-and-a-new-fast-powerful-voice-cloning-suite 2 3 4 5

  13. Agmazon — MiMo-V2.5 完整指南,含 Terminal-Bench 56.1%、GDPval-AA 1578-1581、定价约 $0.50/$1.50 https://agmazon.com/blog/articles/technology/202604/mimo-v2-5-complete-guide-en.html 2 3 4 5

  14. Yahoo Tech — MiMo 2.5 速度 100-150 tok/s 报道 https://tech.yahoo.com/ai/articles/xiaomis-mimo-2-5-pro-204235330.html

  15. Price Per Token — MiniMax M2.7 缓存读取价格 $0.06/M https://pricepertoken.com/pricing-page/model/minimax-minimax-m2.7