May 3, 2026

Grok 4.3 登场：对比三款中国产低成本开源模型，差距在哪、期待什么

xAI 发布 Grok 4.3（约5000亿参数），以 $1.25/$2.50 的定价对标 DeepSeek V4 Flash、MiniMax M2.7、MiMo 2.5 三款国产开源模型

免责声明：本文所有基准测试数据均来自各模型官方发布的模型卡、技术报告、官方定价页面及第三方评测平台 Artificial Analysis 的公开结果，并非我们独立测试。不同评测环境的分数不可直接等同，仅供参考。

xAI 在 4 月 30 日正式将 Grok 4.3 推向 API 全量开放¹。此前它在 4 月 17 日以 Beta 身份出现在 SuperGrok Heavy（$300/月）订阅中²，Elon Musk 当时确认线上 checkpoint 约 0.5 万亿参数，一个 1T 参数版本距完成训练约五天²。

与此同时，三款中国产低成本开源模型也在近期密集发布：DeepSeek V4 Flash（4 月 24 日）³、MiniMax M2.7（3 月 18 日）⁴、小米 MiMo 2.5（4 月 22 日）⁵。它们的共同策略是用 10-15B 激活参数追求高性价比，而 Grok 4.3 走的是另一条路线——参数更大、推理始终开启、更强调法律金融等垂直场景的精度。

核心规格对比

项目	Grok 4.3	DeepSeek V4 Flash	MiniMax M2.7	MiMo 2.5
开发商	xAI	DeepSeek	MiniMax	小米
发布日	2026.04.17 Beta / 04.30 GA¹²	2026.04.24³	2026.03.18⁴	2026.04.22⁵
总参数	~0.5T（Musk 确认）²	284B³	229B⁴	310B⁵
激活参数	未披露	13B³	10B⁴	15B⁵
架构	未披露	MoE + CSA/HCA 混合注意力³	MoE⁴	MoE + 混合滑窗注意力⁵
上下文窗口	1M（API）/ 2M（App）¹²	1M³	200K⁴	1M⁵
推理模式	始终开启，不可关闭¹	三档：Non-Think / High / Max³	支持推理切换⁴	支持推理切换⁵
多模态	文本 + 图片 + 视频²	仅文本³	仅文本⁶	文本 + 图片 + 音频 + 视频⁵
开源	闭源²	MIT 协议³	开源（协议未明确）⁷	MIT 协议⁸
文档生成	PDF / PPTX / Excel²	不支持	不支持	不支持

Grok 4.3 在参数规模和功能完整度上明显高出半档——它原生支持视频理解和结构化文档生成，这两项能力在三款开源模型中只有 MiMo 2.5 的多模态能力可以部分对应。但 MiMo 2.5 不支持文档输出。

基准测试：Grok 4.3 领先，但差距因任务而异

以下数据全部来自各模型官方披露及 Artificial Analysis 第三方评测：

基准	Grok 4.3	DeepSeek V4 Flash (Max)	MiniMax M2.7	MiMo 2.5
GPQA Diamond	90.1%¹	88.1%³	87.4%⁹	84.9%¹⁰
HLE（人类最后的考试）	35.0%¹	34.8%³	28.1%⁹	25.2%¹⁰
AA 智力指数（综合）	53.2¹	47¹¹	49.6⁹	49.0¹⁰
SciCode	47.3%¹	—	47.0%⁹	—
τ²-Bench	97.7%¹	95.6%（High）³	84.8%⁹	90.6%¹¹
IFBench	81.3%¹	79.2%（Max）³	75.7%⁹	67.1%¹⁰
GDPval-AA（ELO）	~1500¹²	1395³	1495⁴	1578–1581¹³
输出速度（tok/s）	225.4¹	~80¹¹	~42⁹	100–150¹⁴
首 Token 延迟	13.13s¹	1.03s（Non-Think）¹¹	1.75s–2.31s⁹	未披露

几个关键信号：

综合智力 Grok 4.3 领先，但领先幅度不算悬殊。 AA 智力指数 53.2 对阵三款开源模型的 47-49.6，差距在 4-6 分。GPQA Diamond 上 Grok 4.3 的 90.1% 领先 DeepSeek V4 Flash 的 88.1% 两个百分点，但差距不大。真正拉开距离的是 HLE（人类最后的考试），Grok 4.3 比 MiniMax M2.7 高 6.9 个百分点。

Agent 和工具使用上，出现了”各有千秋”的局面。 τ²-Bench 上 Grok 4.3 以 97.7% 领先，但 DeepSeek V4 Flash 的 95.6% 差距不到 2 个点。GDPval-AA 上更意外：MiMo 2.5 以 1578-1581 ELO 领先 Grok 4.3 的约 1500 ELO¹³¹²。MiniMax M2.7 的 1495 也与 Grok 基本持平⁴。VentureBeat 报道指出 Grok 4.3 在 GDPval-AA 上的约 300 ELO 提升（对比 Grok 4.20）确实大幅提高了 Agent 任务表现，但这个进步是把分数拉到和开源阵营接近的水平，而非甩开¹²。

速度方面，Grok 4.3 输出最快但首 Token 最慢。 225.4 tok/s 的输出速度是 MiniMax M2.7 的 5 倍多，但 13.13 秒的首 Token 延迟在所有模型中垫底¹。这是因为 Grok 4.3 的推理始终开启，每次请求都要先”思考”。DeepSeek V4 Flash 在 Non-Think 模式下首 Token 仅需约 1 秒，但切换到 Max 推理后也会显著变慢¹¹。

法律和金融是 Grok 4.3 的绝对优势区。 它在 CaseLaw v2（法律推理）上以 79.3% 排第一，CorpFin（金融分析）也是第一¹²。这在三款开源模型中没有任何对标数据——它们都未在这些垂直基准上公开发布成绩。

定价：Grok 居中，开源阵营两端分化

项目	Grok 4.3	DeepSeek V4 Flash	MiniMax M2.7	MiMo 2.5
输入（$/1M tokens）	$1.25¹	$0.14³	$0.30⁴	约 $0.50¹³
输出（$/1M tokens）	$2.50¹	$0.28³	$1.20⁴	约 $1.50¹³
缓存读取（$/1M）	$0.20¹	$0.0028³	$0.06¹⁵	未披露
高价阈值	>200K tokens 价格翻倍¹	无分层³	无分层⁴	无分层
推理 token 计费	按输出 token 同价¹	按输出 token 同价³	包含在输出价格中⁴	含在内
消费端订阅	$30/月 SuperGrok / $300/月 Heavy²	无固定订阅，按量计费³	有 Token Plan⁴	有 Token Plan¹³

Grok 4.3 的输入价格（$1.25/M）是 DeepSeek V4 Flash 的近 9 倍，输出价格（$2.50/M）也是 9 倍。但比起 MiniMax M2.7 的 $1.20/M 输出和 MiMo 2.5 的约 $1.50/M，差距缩小到 1.7-2 倍。

需要注意的是推理 token 开销——Grok 4.3 每次都要推理，这些”思考 token”按输出价格计费。如果你在 DeepSeek V4 Flash 上开 Max 模式，同样要承担额外的推理成本。实际使用成本往往比表面价格高。

Grok 4.3 的不可替代之处

三件事是 Grok 4.3 独有的：

垂直领域精度：CaseLaw v2 79.3%（法律）、CorpFin 第一（金融）的成绩意味着它在条文分析、合规审查、财务建模等场景中有明确的工程价值¹²，开源模型目前在这个维度上没有公开的对标数据。
原生文档生成：直接从对话输出格式化的 PDF、PPTX、Excel 文件²，在竞争分析、尽职调查报告等场景中能省去人工排版环节。
X 平台深度集成：Grok 4.3 可以搜索 X 上的实时帖子和用户画像¹，这个数据通道是其他模型无法替代的。

开源阵营的反击点

价格护城河：DeepSeek V4 Flash 的 $0.28/M 输出意味着在聊天、分类、内容提取等大流量场景中，即使性能略输，总成本也可能只有 Grok 4.3 的几分之一。
自由部署：MIT 协议的模型可以在私有云或本地运行，没有数据外泄的合规风险。Grok 4.3 是闭源的，只能通过 API 调用。
Agent 能力不弱：GDPval-AA 上 MiMo 2.5 甚至比 Grok 4.3 更高，MiniMax M2.7 持平——这三款在办公自动化和 Agent 工作流场景中并不处于劣势。

值得期待什么

Grok 4.3 的发布说明了两件事：

第一，中等规模模型的能力天花板还在上移。 Grok 4.3 约 0.5T 参数就能在综合智力上达到 53.2，而这个级别的参数规模对于有足够算力的团队来说并非不可企及。Musk 还公布了 1T 版本在训练中的消息²，如果如期发布，可能会进一步拉高这个级别的能力基准。

第二，推理-成本-垂直精度的三角平衡是 2026 年的主战场。 Grok 4.3 选择了”始终推理但单价适中”的定位；DeepSeek V4 Flash 选择”极致便宜但推理可开关”；MiniMax M2.7 选择”Agent 均衡”；MiMo 2.5 选择”多模态+办公 Agent”。四家各有取舍，没有一家能在所有维度上通吃。

对于开发者来说，这意味着 2026 年年中做模型选型时，不太可能只绑一家。更合理的策略是把不同任务路由到不同模型：法律金融分析走 Grok 4.3，高并发低成本的 API 服务走 DeepSeek V4 Flash，多模态应用走 MiMo 2.5，复杂 Agent 工作流对比测试 MiniMax M2.7 和 Grok 4.3 的实际效果。

如果 Grok 4.3 的 1T 版本在二季度末推出并维持相似定价，可能会把”中等规模”模型的能力再推高一个台阶。届时开源阵营能否在 10-20B 激活参数的框架下追平，会是下半年最值得观察的技术故事。

参考来源

Artificial Analysis / Easy Benchmarks / xAI Docs — Grok 4.3 第三方基准测试汇总，含 AA 智力指数 53.2、GPQA Diamond 90.1%、HLE 35.0%、速度 225.4 tok/s、定价 $1.25/$2.50 https://easy-benchmarks.com/models/grok-4-3 及 https://docs.x.ai/docs/models ↩ ↩² ↩³ ↩⁴ ↩⁵ ↩⁶ ↩⁷ ↩⁸ ↩⁹ ↩¹⁰ ↩¹¹ ↩¹² ↩¹³ ↩¹⁴ ↩¹⁵ ↩¹⁶ ↩¹⁷ ↩¹⁸ ↩¹⁹
Awesome Agents — Grok 4.3 发布会参数、视频理解、文档生成、Musk 对 0.5T/1T 参数的确认 https://awesomeagents.ai/models/grok-4-3/ ↩ ↩² ↩³ ↩⁴ ↩⁵ ↩⁶ ↩⁷ ↩⁸ ↩⁹ ↩¹⁰ ↩¹¹
DeepSeek Hugging Face — DeepSeek-V4-Flash 官方模型卡，含完整参数（284B/13B）、基准测试和 MIT 协议 https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash ↩ ↩² ↩³ ↩⁴ ↩⁵ ↩⁶ ↩⁷ ↩⁸ ↩⁹ ↩¹⁰ ↩¹¹ ↩¹² ↩¹³ ↩¹⁴ ↩¹⁵ ↩¹⁶ ↩¹⁷ ↩¹⁸ ↩¹⁹ ↩²⁰
DataLearnerAI — MiniMax M2.7 官方规格（229B/10B）、基准测试和定价信息 https://www.datalearner.com/en/ai-models/pretrained-models/minimax-m2-7 ↩ ↩² ↩³ ↩⁴ ↩⁵ ↩⁶ ↩⁷ ↩⁸ ↩⁹ ↩¹⁰ ↩¹¹ ↩¹² ↩¹³ ↩¹⁴
小米 MiMo 官网 — MiMo-V2.5 官方发布页面，含 310B/15B 参数、1M 上下文和 ClawEval 基准 https://mimo.xiaomi.com/mimo-v2-5/ ↩ ↩² ↩³ ↩⁴ ↩⁵ ↩⁶ ↩⁷ ↩⁸
DocsBot — MiniMax M2.7 模型规格，确认为文本模态 https://docsbot.ai/models/minimax-m2-7 ↩
RemoteOpenClaw Blog — MiniMax M2.7 系列模型对比，含开源状态和参数分析 https://www.remoteopenclaw.com/blog/best-minimax-models-for-openclaw ↩
VentureBeat — 报道小米 MiMo-V2.5 系列以 MIT 协议开源 https://venturebeat.com/technology/open-source-xiaomi-mimo-v2-5-and-v2-5-pro-are-among-the-most-efficient-and-affordable-at-agentic-claw-tasks ↩
Ufuk Ozen (Artificial Analysis 数据) — MiniMax M2.7 智力指数 49.6、编码指数 41.9、速度 42 tok/s 等 https://ufukozen.com/model/minimax-minimax-m2.7 ↩ ↩² ↩³ ↩⁴ ↩⁵ ↩⁶ ↩⁷ ↩⁸
LLMBase.ai — MiMo-V2.5 与 Gemini 2.5 Flash 的基准对比，含 GPQA 84.9%、HLE 25.2%、τ²-Bench 90.6% 等 https://llmbase.ai/compare/gemini-2-5-flash-preview-09-2025-reasoning,mimo-v2-5-0424/ ↩ ↩² ↩³ ↩⁴
Codersera — DeepSeek V4 Flash 深度分析，含 AA 智力指数 47、速度 ~80 tok/s、首 Token 1.03s（Non-Think） https://codersera.com/blog/deepseek-v4-flash-deep-dive/ ↩ ↩² ↩³ ↩⁴ ↩⁵
VentureBeat — Grok 4.3 发布报道，含 GDPval-AA 约 300 ELO 提升、CaseLaw v2 79.3%、CorpFin 第一等 https://venturebeat.com/technology/xai-launches-grok-4-3-at-an-aggressively-low-price-and-a-new-fast-powerful-voice-cloning-suite ↩ ↩² ↩³ ↩⁴ ↩⁵
Agmazon — MiMo-V2.5 完整指南，含 Terminal-Bench 56.1%、GDPval-AA 1578-1581、定价约 $0.50/$1.50 https://agmazon.com/blog/articles/technology/202604/mimo-v2-5-complete-guide-en.html ↩ ↩² ↩³ ↩⁴ ↩⁵
Yahoo Tech — MiMo 2.5 速度 100-150 tok/s 报道 https://tech.yahoo.com/ai/articles/xiaomis-mimo-2-5-pro-204235330.html ↩
Price Per Token — MiniMax M2.7 缓存读取价格 $0.06/M https://pricepertoken.com/pricing-page/model/minimax-minimax-m2.7 ↩