6 月 17 日,OpenAI 发布了一项研究:GPT-5.4 找到了一种改善 Chan-Lam 耦合反应的方法,产率从 16.6% 提升到 25.2%,88% 的底物表现更好1。这个反应困扰了药物化学家几十年——磺酰胺和硼酸的碳-氮键形成一直是合成瓶颈。AI 不是分析了已有的数据,而是提出了一个新假设:在反应体系里加 TEMPO 做温和氧化剂。然后 Molecule.one 的自动化实验室跑了 10,080 次反应来验证它1。
同一周,另一个 AI agent 在 28 个小时内筛了 240 万晶体,找到了 68,000 个超导体候选,然后指导实验人员合成了 4 种全新的超导材料2。一个机器人基础模型发布了第七个版本,展现出涌现能力——没人教它的东西,它自己学会了3。
这些事情的共同点是:AI 正在从”理解物理世界”变成”在物理世界里做实验”。
世界模型:从生成视频到理解物理
世界模型这个概念不新鲜,但过去两年它的含义变了。早期的世界模型主要是视频生成——给一个场景,预测下一帧画面。现在的世界模型要做的事更多:理解力、空间关系、因果推理,然后输出动作。
Physical Intelligence 的 π0 是这个转变的标志性产品。2025 年 2 月开源了 π0 的权重和代码4,到 2026 年 4 月发布 π0.7 时,模型展现出了”涌现能力”——在训练数据里没见过的场景中,自己学会了新的操作方式3。这家公司的投资人包括 Jeff Bezos、Sequoia Capital 和 OpenAI5。
Figure AI 走的路线不同。它不只做模型,还做硬件和数据的全栈。2025 年 9 月,Figure 发布了 Project Go-Big:和 Brookfield 合作,在 10 万套住宅里采集人类行为数据,然后训练 Helix 模型6。结果是:机器人看了 100% 的人类视频,没看过任何机器人演示,就能在真实家庭环境里听懂”走到冰箱旁边”这种指令,自己导航过去6。这是人形机器人第一次实现从人类视频到机器人行为的端到端迁移。
| 公司 | 产品 | 核心能力 | 时间 |
|---|---|---|---|
| Physical Intelligence | π0.7 | 可控机器人基础模型,涌现能力 | 2026.04 |
| Figure AI | Helix + Go-Big | 零样本人类视频→机器人行为迁移 | 2025.09 |
| ACE Robotics | Kairos 3.0 | 开源 4B 世界模型,72x 快于 NVIDIA Cosmos 2.5 | 2026.03 |
| World Labs | Marble | 文本/图像→3D 世界生成 | 2025-2026 |
中国的 ACE Robotics 走的是开源路线。2026 年 3 月发布 Kairos 3.0-4B,Apache 2.0 协议,在 Hugging Face 和 ModelScope 上都能下载7。这个模型只有 40 亿参数,23.5GB 显存就能跑,在 A800 GPU 上的推理速度是 NVIDIA Cosmos 2.5 的 72 倍7。它能在 NVIDIA Jetson Thor 边缘平台上实时运行,输出速度比实时视频快 1.5 倍7。
更重要的是跨身体迁移:同一个 Kairos 模型能控制 Agilex PIPER、宇树 G1、银河通用 G1 三种不同的机器人,不需要针对每种机器人单独训练7。
AI 开始做实验了
世界模型让 AI 理解了物理世界。但更让人意外的是,AI 开始在物理世界里做实验——不是分析已有数据,而是提出新假设、设计实验方案、然后让人去验证。
超导体:ElementsClaw 是一个由大型原子模型(LAM)和大语言模型(LLM)协同工作的 agent 框架2。它的 10 亿参数模型 Elements 负责原子级别的数值计算,LLM 负责高层语义推理。在超导体发现任务中,ElementsClaw 在 28 个 GPU 小时内筛了 240 万稳定晶体,找到了 68,000 个高置信度候选2。最终,实验人员根据它的指导合成了 4 种全新的超导材料:Zr₃ScRe₈(Tc = 6.5K)、HfZrRe₄(Tc = 5.9K)、Zr₄VRe₇(Tc = 3.5K)、Hf₂₁Re₂₅(Tc = 2.5K)2。
光学:Qiushi Discovery Engine 是一个端到端自主科学发现系统8。在一个真实的光学平台上,它花了 145.9 万 token、3,242 次 LLM 调用、1,242 次工具调用,自主提出并实验验证了一种新的物理机制——光学双线性交互8。这个机制在结构上类似于 Transformer 注意力机制的核心操作,可能为高速、低功耗的光学硬件提供新思路8。据论文作者称,这是 AI agent 系统首次自主发现并实验验证一个此前未知的物理机制8。
催化剂:MASTER 系统用层级 LLM 推理驱动催化剂发现,把需要的原子模拟量减少了 90%9。它不是随机搜索,而是像化学家一样思考——先推理哪些方向值得试,再用模拟验证。
| 领域 | 系统 | 发现 | 验证方式 | 时间 |
|---|---|---|---|---|
| 药物化学 | GPT-5.4 + Molecule.one | TEMPO 改善 Chan-Lam 反应 | 10,080 次实验,人工验证 14 组 | 2026.06 |
| 超导体 | ElementsClaw | 4 种新超导材料 | 实验合成 + 磁化率测量 | 2026.04 |
| 光学 | Qiushi Engine | 光学双线性交互机制 | 真实光学平台实验 | 2026.04 |
| 催化剂 | MASTER | 高效催化剂筛选 | 减少 90% 原子模拟 | 2026.05 |
| 蛋白质 | ProteinMPNN | 蛋白序列设计 | 52.4% 序列恢复率(Rosetta 32.9%) | 已验证 |
同一个架构,两种用途
世界模型和科学发现用的技术底座越来越像。都是 transformer,都在学物理规律,区别只在训练数据。
Kairos 的论文里有一句话说得很清楚:世界模型正在从”被动的视频生成器”变成”物理 AI 的基础设施”——它需要理解空间、预测未来、输出动作11。这个描述放在科学发现上也成立:AI 需要理解分子结构、预测反应结果、提出实验方案。
Physical Intelligence 的投资人名单里有 OpenAI5。这不是巧合——同一个公司,既在做语言模型,也在投资机器人世界模型。背后的逻辑是:物理世界的理解和语言世界的理解,最终会汇合到同一个架构里。
AlphaFold 是这个汇合的早期证明。2020 年解决了蛋白质结构预测问题,2024 年拿了诺贝尔奖,到 2025 年已经催生了 Isomorphic Labs 这样的 AI 药物发现公司10。Google DeepMind 在 AlphaFold 五周年回顾里写道:他们把 AlphaFold 当作”AI 加速所有科学的模板”10。
假设生成和实验验证正在分离
这些案例揭示了一个正在发生的变化:AI 擅长的事和人擅长的事正在分开。
AI 擅长的:在高维空间搜索——240 万晶体、10,080 种反应条件、145.9 万 token 的实验推理。它能把分散在不同论文里的知识连接起来(TEMPO 在铜催化氧化中的角色 + 磺酰胺产率问题),然后大规模并行试错。
人不可替代的:设计实验、动手做实验、判断结果的物理意义、决定”这个问题值不值得问”。
DiscoverPhysics 基准测试说明了一件事:最强的 AI agent 在 22 个”非标准物理”世界里只通过了 50%12。这些世界的物理规律被刻意改过——不是已知的牛顿力学,而是需要从实验数据中自己发现的新规律。AI 能找到答案,但不一定理解为什么那是答案。预测准确性不等于理解深度。
GPT-5.4 找到了 TEMPO,但反应机理和工业适用性,是 Molecule.one 的化学家手动验证了 14 组对照实验才确认的1。Qiushi 发现了光学双线性交互,但这个机制是否真的成立,还需要其他实验室复现8。
角色变化:科学家从”亲自做实验的人”变成”审核 AI 实验提案、动手验证的人”。一个化学家一天能审核的假设数量,比他一辈子能亲手做的实验还多。人的判断力被放大了。
科研资源结构在变
传统科研的瓶颈是人的时间——一个 PI 带几个博士生,一年做几十个实验。现在瓶颈在转移。
算力成为基础设施:ElementsClaw 用 28 个 GPU 小时筛了 240 万晶体,相当于传统数据库几十年的积累2。实验室需要 GPU 集群,就像以前需要核磁共振仪。
数据成为壁垒:Physical Intelligence 和 Figure 的竞争核心不是模型架构,是数据。Figure 拿 Brookfield 的 10 万住宅做数据采集6,Physical Intelligence 开源了模型但数据不公开。谁有独家数据,谁有护城河。
前端变快,后端没变:假设筛选从几个月变成几天,但实验验证、临床试验、工业放大——这些还是人的时间。AI 加速的是”想”,不是”做”。
人才在重组:需要的人从”会做实验的化学家”变成”能判断 AI 输出对不对的领域专家”。核心能力不是编程——代码也由 AI 来写了——而是物理直觉:知道 AI 提出的假设哪里可能有坑,知道实验结果是不是符合预期,知道哪些异常值得追、哪些是噪声。这种能力来自几十年的实验经验,没法用模型替代。
当 AI 能在 28 小时内做完传统数据库几十年的工作,科研的竞争会从”谁有最好的科学家”部分转向”谁有最好的 AI + 最好的数据 + 最好的验证平台”。但最终验证还是得人来做——这不是 AI 能跳过的环节。
后续观察
- OpenAI + Molecule.one 的 TEMPO 发现能否被其他实验室复现?反应机理是否清楚?
- ElementsClaw 的 68,000 个超导体候选里,还有多少能实验验证?
- 世界模型的跨身体迁移能力在真实商业场景中表现如何?
- 当 AI 生成的假设越来越多,实验验证会不会成为新的瓶颈?
参考来源
Footnotes
-
TechsCurrent — OpenAI’s AI Chemist Finds a Lab-Tested Way to Improve Drug Discovery Chemistry https://techscurrent.com/2026/06/openai-ai-chemist-drug-discovery-chan-lam-reaction/ ↩ ↩2 ↩3 ↩4
-
arXiv — Agentic Fusion of Large Atomic and Language Models to Accelerate Superconductor Discovery https://arxiv.org/abs/2604.23758 ↩ ↩2 ↩3 ↩4 ↩5 ↩6
-
Physical Intelligence — π0.7: a Steerable Model with Emergent Capabilities https://www.pi.website/blog/pi07 ↩ ↩2 ↩3
-
Physical Intelligence — Open Sourcing π0 https://www.pi.website/blog/openpi ↩ ↩2
-
Physical Intelligence — About / Investors https://www.pi.website/ ↩ ↩2
-
Figure AI — Project Go-Big: Internet-Scale Humanoid Pretraining and Direct Human-to-Robot Transfer https://www.figure.ai/news/project-go-big ↩ ↩2 ↩3 ↩4
-
ACE Robotics / GitHub — Kairos 3.0: A Native World Model Stack for Physical AI https://github.com/kairos-agi/kairos-sensenova ↩ ↩2 ↩3 ↩4 ↩5
-
arXiv — End-to-end autonomous scientific discovery on a real optical platform https://arxiv.org/abs/2604.27092 ↩ ↩2 ↩3 ↩4 ↩5 ↩6
-
Nature Communications — Hierarchical Multi-agent Large Language Model Reasoning for Autonomous Heterogeneous Catalyst Discovery https://www.nature.com/articles/s41524-026-02139-1 ↩ ↩2
-
Google DeepMind Blog — AlphaFold: Five Years of Impact https://deepmind.google/blog/alphafold-five-years-of-impact/ ↩ ↩2 ↩3
-
arXiv — Kairos: A Native World Model Stack for Physical AI https://arxiv.org/html/2606.16533v2 ↩
-
arXiv — DiscoverPhysics: Benchmarking LLMs for Out-of-the-Box Scientific Thinking https://arxiv.org/html/2605.26087v1 ↩