新闻 深度 观点 研究 数据 资源 活动 关于

AI 学会了物理,然后开始做实验

世界模型让机器人从看视频学动作,让 AI 从 240 万晶体里筛出超导体。假设生成和实验验证正在分离,科研的资源结构正在改变。

6 月 17 日,OpenAI 发布了一项研究:GPT-5.4 找到了一种改善 Chan-Lam 耦合反应的方法,产率从 16.6% 提升到 25.2%,88% 的底物表现更好1。这个反应困扰了药物化学家几十年——磺酰胺和硼酸的碳-氮键形成一直是合成瓶颈。AI 不是分析了已有的数据,而是提出了一个新假设:在反应体系里加 TEMPO 做温和氧化剂。然后 Molecule.one 的自动化实验室跑了 10,080 次反应来验证它1

同一周,另一个 AI agent 在 28 个小时内筛了 240 万晶体,找到了 68,000 个超导体候选,然后指导实验人员合成了 4 种全新的超导材料2。一个机器人基础模型发布了第七个版本,展现出涌现能力——没人教它的东西,它自己学会了3

这些事情的共同点是:AI 正在从”理解物理世界”变成”在物理世界里做实验”。

世界模型:从生成视频到理解物理

世界模型这个概念不新鲜,但过去两年它的含义变了。早期的世界模型主要是视频生成——给一个场景,预测下一帧画面。现在的世界模型要做的事更多:理解力、空间关系、因果推理,然后输出动作。

Physical Intelligence 的 π0 是这个转变的标志性产品。2025 年 2 月开源了 π0 的权重和代码4,到 2026 年 4 月发布 π0.7 时,模型展现出了”涌现能力”——在训练数据里没见过的场景中,自己学会了新的操作方式3。这家公司的投资人包括 Jeff Bezos、Sequoia Capital 和 OpenAI5

Figure AI 走的路线不同。它不只做模型,还做硬件和数据的全栈。2025 年 9 月,Figure 发布了 Project Go-Big:和 Brookfield 合作,在 10 万套住宅里采集人类行为数据,然后训练 Helix 模型6。结果是:机器人看了 100% 的人类视频,没看过任何机器人演示,就能在真实家庭环境里听懂”走到冰箱旁边”这种指令,自己导航过去6。这是人形机器人第一次实现从人类视频到机器人行为的端到端迁移。

表 1:世界模型关键进展 3467

公司产品核心能力时间
Physical Intelligenceπ0.7可控机器人基础模型,涌现能力2026.04
Figure AIHelix + Go-Big零样本人类视频→机器人行为迁移2025.09
ACE RoboticsKairos 3.0开源 4B 世界模型,72x 快于 NVIDIA Cosmos 2.52026.03
World LabsMarble文本/图像→3D 世界生成2025-2026

中国的 ACE Robotics 走的是开源路线。2026 年 3 月发布 Kairos 3.0-4B,Apache 2.0 协议,在 Hugging Face 和 ModelScope 上都能下载7。这个模型只有 40 亿参数,23.5GB 显存就能跑,在 A800 GPU 上的推理速度是 NVIDIA Cosmos 2.5 的 72 倍7。它能在 NVIDIA Jetson Thor 边缘平台上实时运行,输出速度比实时视频快 1.5 倍7

更重要的是跨身体迁移:同一个 Kairos 模型能控制 Agilex PIPER、宇树 G1、银河通用 G1 三种不同的机器人,不需要针对每种机器人单独训练7

AI 开始做实验了

世界模型让 AI 理解了物理世界。但更让人意外的是,AI 开始在物理世界里做实验——不是分析已有数据,而是提出新假设、设计实验方案、然后让人去验证。

超导体:ElementsClaw 是一个由大型原子模型(LAM)和大语言模型(LLM)协同工作的 agent 框架2。它的 10 亿参数模型 Elements 负责原子级别的数值计算,LLM 负责高层语义推理。在超导体发现任务中,ElementsClaw 在 28 个 GPU 小时内筛了 240 万稳定晶体,找到了 68,000 个高置信度候选2。最终,实验人员根据它的指导合成了 4 种全新的超导材料:Zr₃ScRe₈(Tc = 6.5K)、HfZrRe₄(Tc = 5.9K)、Zr₄VRe₇(Tc = 3.5K)、Hf₂₁Re₂₅(Tc = 2.5K)2

光学:Qiushi Discovery Engine 是一个端到端自主科学发现系统8。在一个真实的光学平台上,它花了 145.9 万 token、3,242 次 LLM 调用、1,242 次工具调用,自主提出并实验验证了一种新的物理机制——光学双线性交互8。这个机制在结构上类似于 Transformer 注意力机制的核心操作,可能为高速、低功耗的光学硬件提供新思路8。据论文作者称,这是 AI agent 系统首次自主发现并实验验证一个此前未知的物理机制8

催化剂:MASTER 系统用层级 LLM 推理驱动催化剂发现,把需要的原子模拟量减少了 90%9。它不是随机搜索,而是像化学家一样思考——先推理哪些方向值得试,再用模拟验证。

表 2:AI 科学发现已验证案例 128910

领域系统发现验证方式时间
药物化学GPT-5.4 + Molecule.oneTEMPO 改善 Chan-Lam 反应10,080 次实验,人工验证 14 组2026.06
超导体ElementsClaw4 种新超导材料实验合成 + 磁化率测量2026.04
光学Qiushi Engine光学双线性交互机制真实光学平台实验2026.04
催化剂MASTER高效催化剂筛选减少 90% 原子模拟2026.05
蛋白质ProteinMPNN蛋白序列设计52.4% 序列恢复率(Rosetta 32.9%)已验证

同一个架构,两种用途

世界模型和科学发现用的技术底座越来越像。都是 transformer,都在学物理规律,区别只在训练数据。

Kairos 的论文里有一句话说得很清楚:世界模型正在从”被动的视频生成器”变成”物理 AI 的基础设施”——它需要理解空间、预测未来、输出动作11。这个描述放在科学发现上也成立:AI 需要理解分子结构、预测反应结果、提出实验方案。

Physical Intelligence 的投资人名单里有 OpenAI5。这不是巧合——同一个公司,既在做语言模型,也在投资机器人世界模型。背后的逻辑是:物理世界的理解和语言世界的理解,最终会汇合到同一个架构里。

AlphaFold 是这个汇合的早期证明。2020 年解决了蛋白质结构预测问题,2024 年拿了诺贝尔奖,到 2025 年已经催生了 Isomorphic Labs 这样的 AI 药物发现公司10。Google DeepMind 在 AlphaFold 五周年回顾里写道:他们把 AlphaFold 当作”AI 加速所有科学的模板”10

假设生成和实验验证正在分离

这些案例揭示了一个正在发生的变化:AI 擅长的事和人擅长的事正在分开。

AI 擅长的:在高维空间搜索——240 万晶体、10,080 种反应条件、145.9 万 token 的实验推理。它能把分散在不同论文里的知识连接起来(TEMPO 在铜催化氧化中的角色 + 磺酰胺产率问题),然后大规模并行试错。

人不可替代的:设计实验、动手做实验、判断结果的物理意义、决定”这个问题值不值得问”。

DiscoverPhysics 基准测试说明了一件事:最强的 AI agent 在 22 个”非标准物理”世界里只通过了 50%12。这些世界的物理规律被刻意改过——不是已知的牛顿力学,而是需要从实验数据中自己发现的新规律。AI 能找到答案,但不一定理解为什么那是答案。预测准确性不等于理解深度。

GPT-5.4 找到了 TEMPO,但反应机理和工业适用性,是 Molecule.one 的化学家手动验证了 14 组对照实验才确认的1。Qiushi 发现了光学双线性交互,但这个机制是否真的成立,还需要其他实验室复现8

角色变化:科学家从”亲自做实验的人”变成”审核 AI 实验提案、动手验证的人”。一个化学家一天能审核的假设数量,比他一辈子能亲手做的实验还多。人的判断力被放大了。

科研资源结构在变

传统科研的瓶颈是人的时间——一个 PI 带几个博士生,一年做几十个实验。现在瓶颈在转移。

算力成为基础设施:ElementsClaw 用 28 个 GPU 小时筛了 240 万晶体,相当于传统数据库几十年的积累2。实验室需要 GPU 集群,就像以前需要核磁共振仪。

数据成为壁垒:Physical Intelligence 和 Figure 的竞争核心不是模型架构,是数据。Figure 拿 Brookfield 的 10 万住宅做数据采集6,Physical Intelligence 开源了模型但数据不公开。谁有独家数据,谁有护城河。

前端变快,后端没变:假设筛选从几个月变成几天,但实验验证、临床试验、工业放大——这些还是人的时间。AI 加速的是”想”,不是”做”。

人才在重组:需要的人从”会做实验的化学家”变成”能判断 AI 输出对不对的领域专家”。核心能力不是编程——代码也由 AI 来写了——而是物理直觉:知道 AI 提出的假设哪里可能有坑,知道实验结果是不是符合预期,知道哪些异常值得追、哪些是噪声。这种能力来自几十年的实验经验,没法用模型替代。

当 AI 能在 28 小时内做完传统数据库几十年的工作,科研的竞争会从”谁有最好的科学家”部分转向”谁有最好的 AI + 最好的数据 + 最好的验证平台”。但最终验证还是得人来做——这不是 AI 能跳过的环节。

后续观察

  • OpenAI + Molecule.one 的 TEMPO 发现能否被其他实验室复现?反应机理是否清楚?
  • ElementsClaw 的 68,000 个超导体候选里,还有多少能实验验证?
  • 世界模型的跨身体迁移能力在真实商业场景中表现如何?
  • 当 AI 生成的假设越来越多,实验验证会不会成为新的瓶颈?

参考来源

Footnotes

  1. TechsCurrent — OpenAI’s AI Chemist Finds a Lab-Tested Way to Improve Drug Discovery Chemistry https://techscurrent.com/2026/06/openai-ai-chemist-drug-discovery-chan-lam-reaction/ 2 3 4

  2. arXiv — Agentic Fusion of Large Atomic and Language Models to Accelerate Superconductor Discovery https://arxiv.org/abs/2604.23758 2 3 4 5 6

  3. Physical Intelligence — π0.7: a Steerable Model with Emergent Capabilities https://www.pi.website/blog/pi07 2 3

  4. Physical Intelligence — Open Sourcing π0 https://www.pi.website/blog/openpi 2

  5. Physical Intelligence — About / Investors https://www.pi.website/ 2

  6. Figure AI — Project Go-Big: Internet-Scale Humanoid Pretraining and Direct Human-to-Robot Transfer https://www.figure.ai/news/project-go-big 2 3 4

  7. ACE Robotics / GitHub — Kairos 3.0: A Native World Model Stack for Physical AI https://github.com/kairos-agi/kairos-sensenova 2 3 4 5

  8. arXiv — End-to-end autonomous scientific discovery on a real optical platform https://arxiv.org/abs/2604.27092 2 3 4 5 6

  9. Nature Communications — Hierarchical Multi-agent Large Language Model Reasoning for Autonomous Heterogeneous Catalyst Discovery https://www.nature.com/articles/s41524-026-02139-1 2

  10. Google DeepMind Blog — AlphaFold: Five Years of Impact https://deepmind.google/blog/alphafold-five-years-of-impact/ 2 3

  11. arXiv — Kairos: A Native World Model Stack for Physical AI https://arxiv.org/html/2606.16533v2

  12. arXiv — DiscoverPhysics: Benchmarking LLMs for Out-of-the-Box Scientific Thinking https://arxiv.org/html/2605.26087v1