Anthropic 于 6 月 4 日发布题为《When AI Builds Itself》的报告,主题是”递归自我改进”(Recursive Self-Improvement,下文简称 RSI)1。联合创始人 Jack Clark 此前在 Import AI 通讯 455 期中预测,到 2028 年底,AI 自主训练下一代模型的概率超过 60%2。
报告披露:Anthropic 内部超过 80% 的代码合并工作由 AI 完成,工程师季度代码部署量达到 2021–2025 年平均水平的 8 倍1。
| 指标 | 2021–2025 平均 | 当前(2026年5月) | 变化 |
|---|---|---|---|
| AI 生成的合并代码占比 | < 10% | > 80% | 8 倍以上 |
| 工程师季度代码部署量 | 基准值 | 基准值的 8 倍 | 8 倍 |
| 自主任务时长 | 4 分钟(Opus 3) | 1.5–12 小时(最新模型) | 22–180 倍 |
RSI 是什么
RSI 指 AI 自主设计、训练并验证下一代系统,全过程无需人类参与。Anthropic 列出三种可能:AI 进步停滞、人类保持主导但 AI 完成大部分工作、闭环真正合上——AI 主导研发1。
Anthropic 提醒,第三种情况最值得警惕。报告中写道:“递归自我改进尚未实现,也不具备必然性,但它可能比大多数机构的准备来得更快。”1
闭环里最难的一步是判断
RSI 闭环跑下来一般是几步:AI 提议改进方案,在沙盒里执行,评估结果,决定是否采纳。数据显示,AI 在执行环节的能力提升幅度很大。例如,把”让一段 CPU 训练代码运行更快”的任务交给 AI,最新模型在 2026 年 4 月能把代码加速 52 倍,2025 年 5 月的版本只能加速 2.9 倍2。
表 2:AI 训练代码优化能力演进 2
| 模型 | 时间 | 加速倍数 |
|---|---|---|
| Claude Opus 4 | 2025 年 5 月 | 2.9× |
| Claude Opus 4.5 | 2025 年 11 月 | 16.5× |
| Claude Opus 4.6 | 2026 年 2 月 | 30× |
| Claude Mythos Preview | 2026 年 4 月 | 52× |
闭环里更难的环节是判断。AI 还不能准确判断什么问题值得研究、该做什么实验、哪些结果可信。Anthropic 写道:“目前尚不清楚 Claude 是否具备研究直觉——即选择正确问题的能力。”1
一旦判断环节也被 AI 接管,RSI 闭环将真正合上。Jack Clark 在 Import AI 455 中写道:“到那时,每一代 Claude 都将由上一代构建,无需人类参与。”2
对齐那套,得换思路
对齐这件事有一个前提:人类在系统部署前完成安全验证。RSI 一旦实现,这个前提就不成立了——AI 改进的速度比人类审查快得多。
Jack Clark 算过一笔账:假设一项安全技术准确率为 99.9%,看似接近完美。但进入 RSI 循环跑 50 代,准确率降到 95.1%;跑 500 代,准确率降到 60.5%2。这就是”复合错误”问题。
Anthropic 的对策是建立监控系统,给 AI 研发装仪表盘,实时监测加速信号3。这是一种预警机制——问题追上来之前先知道它来了。
国际协调的呼吁与地缘政治现实
Anthropic 在报告里呼吁国际社会协调应对 RSI 风险,建议建立类似军控协议的国际合作与验证机制1。报告原文写道:“单一公司单方面减速效果有限;多个国家和主要 AI 机构应该以可验证的方式协调速度。”1
但 Anthropic 把中国列为敌对国家,并参与对华出口管制。
一边呼吁各国协调应对,一边把中国列为对手——这是 Anthropic 提议”国际协调”时必须面对的现实。从中国一侧看,自主研发是唯一出路。中国加速自研,又被外方解读为”中国在搞军备竞赛”的证据。
训练数据的问题
RSI 还连带训练数据问题。
有研究表明,AI 在自己生成的数据上反复训练时,会出现”模型崩溃”(model collapse)现象——长尾信息逐代丢失,多样性下降,输出越来越不像人话4。
未来训练数据里 AI 生成内容占比持续上升,模型质量可能先升后降,拐点在哪里没人能预判。
本文写作过程
得说一下:本文的中文版本,初稿由 AI 完成。过程里”翻译腔”问题很突出——“关于""随着""在…方面”这类西式表达反复出现,“的""是""被”虚词叠着,句子一层套一层。
改了好几轮。AI 用上一轮输出当下一轮输入,结果每一轮都在上一轮基础上加一层偏差,翻译腔没消失,只是藏得更深。这与上文提到的”模型崩溃”在结构上一致——AI 用自己生成的内容训练自己,每一代都在上一代的错误上叠加。
区别在于:RSI 污染的是模型权重,这里污染的是表达习惯。AI 写的中文越来越像”AI 写的中文”——AI 和人类都读得懂、但谁都不这么说话的语言。
RSI 闭环里最难的是判断,本文写作过程也一样。AI 能写,但判断这稿子写得好不好,最终还是人在做。
参考来源
本文数据与引言均可通过以下来源核实:
Footnotes
-
Anthropic 官方报告 — 《When AI Builds Itself: Our progress toward recursive self-improvement, and its implications》,2026年6月4日 https://www.anthropic.com/institute/recursive-self-improvement ↩ ↩2 ↩3 ↩4 ↩5 ↩6 ↩7 ↩8
-
Import AI 通讯第 455 期 — Jack Clark 撰文分析 RSI 时间线与复合错误问题,2026年5月4日 https://importai.substack.com/p/import-ai-455-automating-ai-research ↩ ↩2 ↩3 ↩4 ↩5 ↩6
-
The Anthropic Institute 研究议程 — 提出建立 AI 研发 telemetry 监控系统,2026年5月 https://www.anthropic.com/research/anthropic-institute-agenda ↩
-
arXiv 论文 — Shumailov 等人《The Curse of Recursion: Training on Generated Data Makes Models Forget》,arXiv:2305.17493 https://arxiv.org/abs/2305.17493 ↩