Jun 25, 2026

AI 学会了物理，然后开始做实验

世界模型让机器人从看视频学动作，让 AI 从 240 万晶体里筛出超导体。假设生成和实验验证正在分离，科研的资源结构正在改变。

6 月 17 日，OpenAI 发布了一项研究：GPT-5.4 找到了一种改善 Chan-Lam 耦合反应的方法，产率从 16.6% 提升到 25.2%，88% 的底物表现更好¹。这个反应困扰了药物化学家几十年——磺酰胺和硼酸的碳-氮键形成一直是合成瓶颈。AI 不是分析了已有的数据，而是提出了一个新假设：在反应体系里加 TEMPO 做温和氧化剂。然后 Molecule.one 的自动化实验室跑了 10,080 次反应来验证它¹。

同一周，另一个 AI agent 在 28 个小时内筛了 240 万晶体，找到了 68,000 个超导体候选，然后指导实验人员合成了 4 种全新的超导材料²。一个机器人基础模型发布了第七个版本，展现出涌现能力——没人教它的东西，它自己学会了³。

这些事情的共同点是：AI 正在从”理解物理世界”变成”在物理世界里做实验”。

世界模型：从生成视频到理解物理

世界模型这个概念不新鲜，但过去两年它的含义变了。早期的世界模型主要是视频生成——给一个场景，预测下一帧画面。现在的世界模型要做的事更多：理解力、空间关系、因果推理，然后输出动作。

Physical Intelligence 的 π0 是这个转变的标志性产品。2025 年 2 月开源了 π0 的权重和代码⁴，到 2026 年 4 月发布 π0.7 时，模型展现出了”涌现能力”——在训练数据里没见过的场景中，自己学会了新的操作方式³。这家公司的投资人包括 Jeff Bezos、Sequoia Capital 和 OpenAI⁵。

Figure AI 走的路线不同。它不只做模型，还做硬件和数据的全栈。2025 年 9 月，Figure 发布了 Project Go-Big：和 Brookfield 合作，在 10 万套住宅里采集人类行为数据，然后训练 Helix 模型⁶。结果是：机器人看了 100% 的人类视频，没看过任何机器人演示，就能在真实家庭环境里听懂”走到冰箱旁边”这种指令，自己导航过去⁶。这是人形机器人第一次实现从人类视频到机器人行为的端到端迁移。

表 1：世界模型关键进展 ³⁴⁶⁷

公司	产品	核心能力	时间
Physical Intelligence	π0.7	可控机器人基础模型，涌现能力	2026.04
Figure AI	Helix + Go-Big	零样本人类视频→机器人行为迁移	2025.09
ACE Robotics	Kairos 3.0	开源 4B 世界模型，72x 快于 NVIDIA Cosmos 2.5	2026.03
World Labs	Marble	文本/图像→3D 世界生成	2025-2026

中国的 ACE Robotics 走的是开源路线。2026 年 3 月发布 Kairos 3.0-4B，Apache 2.0 协议，在 Hugging Face 和 ModelScope 上都能下载⁷。这个模型只有 40 亿参数，23.5GB 显存就能跑，在 A800 GPU 上的推理速度是 NVIDIA Cosmos 2.5 的 72 倍⁷。它能在 NVIDIA Jetson Thor 边缘平台上实时运行，输出速度比实时视频快 1.5 倍⁷。

更重要的是跨身体迁移：同一个 Kairos 模型能控制 Agilex PIPER、宇树 G1、银河通用 G1 三种不同的机器人，不需要针对每种机器人单独训练⁷。

AI 开始做实验了

世界模型让 AI 理解了物理世界。但更让人意外的是，AI 开始在物理世界里做实验——不是分析已有数据，而是提出新假设、设计实验方案、然后让人去验证。

超导体：ElementsClaw 是一个由大型原子模型（LAM）和大语言模型（LLM）协同工作的 agent 框架²。它的 10 亿参数模型 Elements 负责原子级别的数值计算，LLM 负责高层语义推理。在超导体发现任务中，ElementsClaw 在 28 个 GPU 小时内筛了 240 万稳定晶体，找到了 68,000 个高置信度候选²。最终，实验人员根据它的指导合成了 4 种全新的超导材料：Zr₃ScRe₈（Tc = 6.5K）、HfZrRe₄（Tc = 5.9K）、Zr₄VRe₇（Tc = 3.5K）、Hf₂₁Re₂₅（Tc = 2.5K）²。

光学：Qiushi Discovery Engine 是一个端到端自主科学发现系统⁸。在一个真实的光学平台上，它花了 145.9 万 token、3,242 次 LLM 调用、1,242 次工具调用，自主提出并实验验证了一种新的物理机制——光学双线性交互⁸。这个机制在结构上类似于 Transformer 注意力机制的核心操作，可能为高速、低功耗的光学硬件提供新思路⁸。据论文作者称，这是 AI agent 系统首次自主发现并实验验证一个此前未知的物理机制⁸。

催化剂：MASTER 系统用层级 LLM 推理驱动催化剂发现，把需要的原子模拟量减少了 90%⁹。它不是随机搜索，而是像化学家一样思考——先推理哪些方向值得试，再用模拟验证。

表 2：AI 科学发现已验证案例 ¹²⁸⁹¹⁰

领域	系统	发现	验证方式	时间
药物化学	GPT-5.4 + Molecule.one	TEMPO 改善 Chan-Lam 反应	10,080 次实验，人工验证 14 组	2026.06
超导体	ElementsClaw	4 种新超导材料	实验合成 + 磁化率测量	2026.04
光学	Qiushi Engine	光学双线性交互机制	真实光学平台实验	2026.04
催化剂	MASTER	高效催化剂筛选	减少 90% 原子模拟	2026.05
蛋白质	ProteinMPNN	蛋白序列设计	52.4% 序列恢复率（Rosetta 32.9%）	已验证

同一个架构，两种用途

世界模型和科学发现用的技术底座越来越像。都是 transformer，都在学物理规律，区别只在训练数据。

Kairos 的论文里有一句话说得很清楚：世界模型正在从”被动的视频生成器”变成”物理 AI 的基础设施”——它需要理解空间、预测未来、输出动作¹¹。这个描述放在科学发现上也成立：AI 需要理解分子结构、预测反应结果、提出实验方案。

Physical Intelligence 的投资人名单里有 OpenAI⁵。这不是巧合——同一个公司，既在做语言模型，也在投资机器人世界模型。背后的逻辑是：物理世界的理解和语言世界的理解，最终会汇合到同一个架构里。

AlphaFold 是这个汇合的早期证明。2020 年解决了蛋白质结构预测问题，2024 年拿了诺贝尔奖，到 2025 年已经催生了 Isomorphic Labs 这样的 AI 药物发现公司¹⁰。Google DeepMind 在 AlphaFold 五周年回顾里写道：他们把 AlphaFold 当作”AI 加速所有科学的模板”¹⁰。

假设生成和实验验证正在分离

这些案例揭示了一个正在发生的变化：AI 擅长的事和人擅长的事正在分开。

AI 擅长的：在高维空间搜索——240 万晶体、10,080 种反应条件、145.9 万 token 的实验推理。它能把分散在不同论文里的知识连接起来（TEMPO 在铜催化氧化中的角色 + 磺酰胺产率问题），然后大规模并行试错。

人不可替代的：设计实验、动手做实验、判断结果的物理意义、决定”这个问题值不值得问”。

DiscoverPhysics 基准测试说明了一件事：最强的 AI agent 在 22 个”非标准物理”世界里只通过了 50%¹²。这些世界的物理规律被刻意改过——不是已知的牛顿力学，而是需要从实验数据中自己发现的新规律。AI 能找到答案，但不一定理解为什么那是答案。预测准确性不等于理解深度。

GPT-5.4 找到了 TEMPO，但反应机理和工业适用性，是 Molecule.one 的化学家手动验证了 14 组对照实验才确认的¹。Qiushi 发现了光学双线性交互，但这个机制是否真的成立，还需要其他实验室复现⁸。

角色变化：科学家从”亲自做实验的人”变成”审核 AI 实验提案、动手验证的人”。一个化学家一天能审核的假设数量，比他一辈子能亲手做的实验还多。人的判断力被放大了。

科研资源结构在变

传统科研的瓶颈是人的时间——一个 PI 带几个博士生，一年做几十个实验。现在瓶颈在转移。

算力成为基础设施：ElementsClaw 用 28 个 GPU 小时筛了 240 万晶体，相当于传统数据库几十年的积累²。实验室需要 GPU 集群，就像以前需要核磁共振仪。

数据成为壁垒：Physical Intelligence 和 Figure 的竞争核心不是模型架构，是数据。Figure 拿 Brookfield 的 10 万住宅做数据采集⁶，Physical Intelligence 开源了模型但数据不公开。谁有独家数据，谁有护城河。

前端变快，后端没变：假设筛选从几个月变成几天，但实验验证、临床试验、工业放大——这些还是人的时间。AI 加速的是”想”，不是”做”。

人才在重组：需要的人从”会做实验的化学家”变成”能判断 AI 输出对不对的领域专家”。核心能力不是编程——代码也由 AI 来写了——而是物理直觉：知道 AI 提出的假设哪里可能有坑，知道实验结果是不是符合预期，知道哪些异常值得追、哪些是噪声。这种能力来自几十年的实验经验，没法用模型替代。

当 AI 能在 28 小时内做完传统数据库几十年的工作，科研的竞争会从”谁有最好的科学家”部分转向”谁有最好的 AI + 最好的数据 + 最好的验证平台”。但最终验证还是得人来做——这不是 AI 能跳过的环节。

后续观察

OpenAI + Molecule.one 的 TEMPO 发现能否被其他实验室复现？反应机理是否清楚？
ElementsClaw 的 68,000 个超导体候选里，还有多少能实验验证？
世界模型的跨身体迁移能力在真实商业场景中表现如何？
当 AI 生成的假设越来越多，实验验证会不会成为新的瓶颈？

参考来源

TechsCurrent — OpenAI’s AI Chemist Finds a Lab-Tested Way to Improve Drug Discovery Chemistry https://techscurrent.com/2026/06/openai-ai-chemist-drug-discovery-chan-lam-reaction/ ↩ ↩² ↩³ ↩⁴
arXiv — Agentic Fusion of Large Atomic and Language Models to Accelerate Superconductor Discovery https://arxiv.org/abs/2604.23758 ↩ ↩² ↩³ ↩⁴ ↩⁵ ↩⁶
Physical Intelligence — π0.7: a Steerable Model with Emergent Capabilities https://www.pi.website/blog/pi07 ↩ ↩² ↩³
Physical Intelligence — Open Sourcing π0 https://www.pi.website/blog/openpi ↩ ↩²
Physical Intelligence — About / Investors https://www.pi.website/ ↩ ↩²
Figure AI — Project Go-Big: Internet-Scale Humanoid Pretraining and Direct Human-to-Robot Transfer https://www.figure.ai/news/project-go-big ↩ ↩² ↩³ ↩⁴
ACE Robotics / GitHub — Kairos 3.0: A Native World Model Stack for Physical AI https://github.com/kairos-agi/kairos-sensenova ↩ ↩² ↩³ ↩⁴ ↩⁵
arXiv — End-to-end autonomous scientific discovery on a real optical platform https://arxiv.org/abs/2604.27092 ↩ ↩² ↩³ ↩⁴ ↩⁵ ↩⁶
Nature Communications — Hierarchical Multi-agent Large Language Model Reasoning for Autonomous Heterogeneous Catalyst Discovery https://www.nature.com/articles/s41524-026-02139-1 ↩ ↩²
Google DeepMind Blog — AlphaFold: Five Years of Impact https://deepmind.google/blog/alphafold-five-years-of-impact/ ↩ ↩² ↩³
arXiv — Kairos: A Native World Model Stack for Physical AI https://arxiv.org/html/2606.16533v2 ↩
arXiv — DiscoverPhysics: Benchmarking LLMs for Out-of-the-Box Scientific Thinking https://arxiv.org/html/2605.26087v1 ↩