Jun 25, 2026

世界モデルとAI科学発見｜仮説を立てるAIと検証する人間の新しい分業

世界モデルがロボットに動作を学ばせ、AIが240万個の結晶から超伝導体を選別する。仮説生成と実験検証が分離し、研究のリソース構造が変わりつつある。

6月17日、OpenAIが研究成果を発表した。GPT-5.4はChan-Lamカップリング反応の改善方法を見つけ、収率を16.6％から25.2％に引き上げた。基質の88％で性能が向上した¹。この反応は創薬化学者を何十年も悩ませてきた。スルホンアミドとホウ酸の炭素-窒素結合形成は合成上のボトルネックだった。AIが既存データを分析したわけではない。新しい仮説を立てたのだ。反応系にTEMPOを温和な酸化剤として加えるというもの。その後、Molecule.oneの自動化ラボが1万80回の反応を実行して検証した¹。

同じ週、別のAIエージェントが28時間で240万個の結晶を選別し、6万8000個の超伝導体候補を見つけ出した。そして実験担当者の手で4種類の全新規超伝導材料が合成された²。また、あるロボット基盤モデルの第7版が公開され、誰も教えていない能力が自ら現れた³。

これらの出来事の共通点は一つだ。AIが「物理世界を理解する」段階から「物理世界で実験をする」段階に移っている。

世界モデル：ビデオ生成から物理理解へ

世界モデルという概念自体は新しくない。だがここ2年で、その意味が変わった。初期の世界モデルはビデオ生成が中心だった。ある場面を与えれば、次のフレームを予測する。現在の世界モデルはもっと多くのことをする。力の働き、空間関係、因果推論を理解し、動作を出力する。

Physical Intelligenceのπ0は、この転換を象徴する製品だ。2025年2月にπ0の重みとコードがオープンソース化された⁴。2026年4月のπ0.7公開時には、訓練データにない場面で新しい操作方法を自ら学ぶ「創発能力」が現れた³。この会社の投資家にはJeff Bezos、Sequoia Capital、OpenAIが入っている⁵。

Figure AIは違う道を選んだ。モデルだけでなく、ハードウェアとデータのフルスタックを手がける。2025年9月、FigureはProject Go-Bigを発表した。Brookfieldと協力し、10万戸の住宅で人間の行動データを収集し、Helixモデルを訓練した⁶。その結果、ロボットは人間のビデオを100％見て、ロボットのデモンストレーションは一切見ていないのに、実際の家庭環境で「冷蔵庫の横まで歩いて」と言われれば自分でナビゲートできるようになった⁶。人型ロボットが人間のビデオからロボットの行動へのエンドツーエンド移行を初めて実現した。

表1：世界モデルの主要な進展 ³⁴⁶⁷

企業	製品	核心能力	時期
Physical Intelligence	π0.7	制御可能なロボット基盤モデル、創発能力	2026年4月
Figure AI	Helix + Go-Big	ゼロショット人間ビデオからロボット行動への移行	2025年9月
ACE Robotics	Kairos 3.0	オープンソース4B世界モデル、NVIDIA Cosmos 2.5の72倍高速	2026年3月
World Labs	Marble	テキスト/画像から3D世界生成	2025-2026年

中国のACE Roboticsはオープンソース路線を取る。2026年3月にKairos 3.0-4BをApache 2.0ライセンスで公開し、Hugging FaceとModelScopeからダウンロードできる⁷。パラメータ数は40億、VRAM 23.5GBで動作し、A800 GPU上での推論速度はNVIDIA Cosmos 2.5の72倍だ⁷。NVIDIA Jetson Thorエッジプラットフォーム上でリアルタイムに動作し、出力速度はリアルタイムビデオの1.5倍を超える⁷。

さらに重要なのはクロスボディ移行性だ。同じKairosモデルがAgilex PIPER、宇樹G1、銀河通用G1という3種類の異なるロボットを制御でき、機種ごとの個別訓練が不要だ⁷。

AIが実験を始めた

世界モデルがAIに物理世界を理解させた。だがもっと意外なのは、AIが物理世界で実験を始めたことだ。既存データを分析するのではなく、新しい仮説を立て、実験設計をして、人に検証を任せる。

超伝導体：ElementsClawは、大規模原子モデル（LAM）と大規模言語モデル（LLM）が協働するエージェントフレームワークだ²。10億パラメータのElementsモデルが原子レベルの数値計算を担当し、LLMが高次の意味推論を行う。超伝導体発見のタスクで、ElementsClawは28 GPU時間で240万個の安定結晶を選別し、6万8000個の高信頼度候補を見つけた²。最終的に、実験担当者はその指導のもと4種類の全新規超伝導材料を合成した。Zr₃ScRe₈（Tc＝6.5K）、HfZrRe₄（Tc＝5.9K）、Zr₄VRe₇（Tc＝3.5K）、Hf₂₁Re₂₅（Tc＝2.5K）だ²。

光学：Qiushi Discovery Engineはエンドツーエンドの自律科学発見システムだ⁸。実際の光学プラットフォーム上で、145万9000トークン、3242回のLLM呼び出し、1242回のツール呼び出しを消費し、新しい物理メカニズムである「光学双線形相互作用」を自律的に提唱し、実験で検証した⁸。このメカニズムはTransformerアテンション機構の核心操作と構造的に類似しており、高速低消費電力の光学ハードウェアに新たな可能性を示唆する⁸。論文著者によると、これはAIエージェントシステムがこれまで未知の物理メカニズムを自律的に発見し、実験で検証した初めての事例だという⁸。

触媒：MASTERシステムは階層的なLLM推論で触媒発見を行い、必要な原子シミュレーション量を90％削減した⁹。ランダムサーチではなく、化学者のように考える。まずどの方向性が試す価値があるかを推論し、シミュレーションで検証する。

表2：AIによる科学発見の検証済み事例 ¹²⁸⁹¹⁰

分野	システム	発見内容	検証方法	時期
創薬化学	GPT-5.4 + Molecule.one	TEMPOによるChan-Lam反応改善	1万80回実験、14組の対照実験を人間が検証	2026年6月
超伝導体	ElementsClaw	4種類の新規超伝導材料	実験合成と磁化率測定	2026年4月
光学	Qiushi Engine	光学双線形相互作用メカニズム	実際の光学プラットフォームでの実験	2026年4月
触媒	MASTER	効率的な触媒選別	原子シミュレーションを90％削減	2026年5月
タンパク質	ProteinMPNN	タンパク質配列設計	配列回復率52.4％（Rosetta 32.9％）	検証済み

同じ基盤、異なる用途

世界モデルと科学発見が使う技術的基盤は、ますます似てきている。どちらもTransformerであり、物理法則を学んでいる。違いは訓練データだけだ。

Kairosの論文にはこう書いてある。世界モデルは「受動的なビデオ生成器」から「物理AIの基盤」へと変わりつつある。空間を理解し、未来を予測し、動作を出力する必要がある¹¹。この記述は科学発見にも当てはまる。AIは分子構造を理解し、反応結果を予測し、実験設計をする必要がある。

Physical Intelligenceの投資家リストにOpenAIが入っている⁵。これは偶然ではない。同じ会社が言語モデルも手がけ、ロボット世界モデルにも投資している。背後にある論理は、物理世界の理解と言語世界の理解が、最終的に同じアーキテクチャに収束するというものだ。

AlphaFoldはこの収束の初期の証明だ。2020年にタンパク質構造予測問題を解決し、2024年にノーベル賞を受賞。2025年にはIsomorphic LabsのようなAI創薬企業を生み出した¹⁰。Google DeepMindはAlphaFold 5周年の振り返りで、AlphaFoldを「すべての科学を加速するAIのテンプレート」と位置づけた¹⁰。

仮説生成と実験検証が分かれる

これらの事例が示しているのは、AIが得意なことと人間が得意なことが分かれつつあるという変化だ。

AIが得意なこと：高次元空間での探索だ。240万個の結晶、1万80種類の反応条件、145万9000トークンの実験推論。異なる論文に散らばった知識を結びつけることもできる。TEMPOの銅触媒酸化における役割とスルホンアミドの収率問題だ。そして大規模に並列的に試行錯誤する。

人間が代替できないこと：実験の設計、実際の手を動かす実験、結果の物理的意味の判断、「この問題が問う価値があるか」という決断だ。

DiscoverPhysicsベンチマークが示しているのは、最強のAIエージェントでも22個の「非標準物理」世界の50％しか突破できなかったということだ¹²。これらの世界の物理法則は意図的に改変されており、既知のニュートン力学ではなく、実験データから自ら新しい法則を見つけ出す必要がある。AIは答えを見つけられるが、なぜそれが答えなのかを必ずしも理解しているわけではない。予測の正確さは、理解の深さと同じではない。

GPT-5.4はTEMPOを見つけた。だが反応メカニズムや工業的適用性は、Molecule.oneの化学者が14組の対照実験を手動で検証して初めて確認された¹。Qiushiは光学双線形相互作用を発見したが、このメカニズムが本当に成立するかどうかは、他のラボが再現実験をする必要がある⁸。

役割の変化：科学者は「自分で実験をする人」から「AIの実験提案を審査し、手を動かして検証する人」へと変わる。化学者が1日で審査できる仮説の数は、一生で自分の手でできる実験の数よりもはるかに多い。人間の判断力が拡張されている。

研究リソース構造が変わる

従来の研究のボトルネックは人の時間だった。PIが数人の博士課程学生を率いて、1年に数十回の実験をする。今、ボトルネックは移りつつある。

計算能力が基盤になる：ElementsClawは28 GPU時間で240万個の結晶を選別した。これは従来のデータベースで数十年かかる作業に相当する²。ラボにはGPUクラスタが必要だ。昔はNMR装置が必要だったように。

データが壁になる：Physical IntelligenceとFigureの競争の核心はモデルアーキテクチャではなくデータだ。FigureはBrookfieldの10万戸の住宅をデータ収集に使う⁶。Physical Intelligenceはモデルをオープンソース化したが、データは公開していない。独自データを持つ者が優位に立つ。

前段が速くなっても、後段は変わらない：仮説の選別が数ヶ月から数日に縮まっても、実験検証や臨床試験、工業的スケールアップは依然として人の時間に依存している。AIが速くしたのは「考える」部分で、「動かす」部分ではない。

人材が再編される：必要な人材が「実験のできる化学者」から「AIの出力が正しいか判断できる領域専門家」へと変わる。核心能力はプログラミングではない。コードもAIが書くようになった。核心能力は物理的直感だ。AIが立てた仮説のどこに落とし穴があるか、実験結果が予想と合っているか、どの異常が追う価値があり、どれがノイズかを見分ける力だ。この能力は数十年の実験経験から生まれ、モデルでは代替できない。

AIが28時間で従来のデータベース数十年分の作業をこなせるようになったとき、研究の競争は「最も優れた科学者を持つ者」から、「最も優れたAIと最も優れたデータと最も優れた検証プラットフォームを持つ者」へと部分的に移行する。だが最終的な検証は依然として人間が行う。これはAIが飛ばせるステップではない。

今後の観察点

OpenAIとMolecule.oneのTEMPO発見は、他のラボでも再現できるか。反応メカニズムは明らかになっているか。
ElementsClawの6万8000個の超伝導体候補のうち、さらに実験検証できるものはどれだけあるか。
世界モデルのクロスボディ移行能力は、実際の商業場面でどう機能するか。
AIが生成する仮説が増えれば増えるほど、実験検証が新しいボトルネックになるのではないか。

参考文献

TechsCurrent — OpenAI’s AI Chemist Finds a Lab-Tested Way to Improve Drug Discovery Chemistry https://techscurrent.com/2026/06/openai-ai-chemist-drug-discovery-chan-lam-reaction/ ↩ ↩² ↩³ ↩⁴
arXiv — Agentic Fusion of Large Atomic and Language Models to Accelerate Superconductor Discovery https://arxiv.org/abs/2604.23758 ↩ ↩² ↩³ ↩⁴ ↩⁵ ↩⁶
Physical Intelligence — π0.7: a Steerable Model with Emergent Capabilities https://www.pi.website/blog/pi07 ↩ ↩² ↩³
Physical Intelligence — Open Sourcing π0 https://www.pi.website/blog/openpi ↩ ↩²
Physical Intelligence — About / Investors https://www.pi.website/ ↩ ↩²
Figure AI — Project Go-Big: Internet-Scale Humanoid Pretraining and Direct Human-to-Robot Transfer https://www.figure.ai/news/project-go-big ↩ ↩² ↩³ ↩⁴
ACE Robotics / GitHub — Kairos 3.0: A Native World Model Stack for Physical AI https://github.com/kairos-agi/kairos-sensenova ↩ ↩² ↩³ ↩⁴ ↩⁵
arXiv — End-to-end autonomous scientific discovery on a real optical platform https://arxiv.org/abs/2604.27092 ↩ ↩² ↩³ ↩⁴ ↩⁵ ↩⁶
Nature Communications — Hierarchical Multi-agent Large Language Model Reasoning for Autonomous Heterogeneous Catalyst Discovery https://www.nature.com/articles/s41524-026-02139-1 ↩ ↩²
Google DeepMind Blog — AlphaFold: Five Years of Impact https://deepmind.google/blog/alphafold-five-years-of-impact/ ↩ ↩² ↩³
arXiv — Kairos: A Native World Model Stack for Physical AI https://arxiv.org/html/2606.16533v2 ↩
arXiv — DiscoverPhysics: Benchmarking LLMs for Out-of-the-Box Scientific Thinking https://arxiv.org/html/2605.26087v1 ↩