Jun 4, 2026

递归自我改进：Anthropic 发布报告，呼吁国际协调

Anthropic 发布报告讨论 AI 递归自我改进（RSI），披露内部 AI 自动化程度，呼吁国际社会协调应对。Anthropic 把中国列为敌对国家并参与对华出口管制，'国际协调'的呼吁因此缺乏落地基础。

Anthropic 于 6 月 4 日发布题为《When AI Builds Itself》的报告，主题是”递归自我改进”（Recursive Self-Improvement，下文简称 RSI）¹。联合创始人 Jack Clark 此前在 Import AI 通讯 455 期中预测，到 2028 年底，AI 自主训练下一代模型的概率超过 60%²。

报告披露：Anthropic 内部超过 80% 的代码合并工作由 AI 完成，工程师季度代码部署量达到 2021–2025 年平均水平的 8 倍¹。

表 1：Anthropic 内部 AI 自动化程度 ¹²

指标	2021–2025 平均	当前（2026年5月）	变化
AI 生成的合并代码占比	< 10%	> 80%	8 倍以上
工程师季度代码部署量	基准值	基准值的 8 倍	8 倍
自主任务时长	4 分钟（Opus 3）	1.5–12 小时（最新模型）	22–180 倍

RSI 是什么

RSI 指 AI 自主设计、训练并验证下一代系统，全过程无需人类参与。Anthropic 列出三种可能：AI 进步停滞、人类保持主导但 AI 完成大部分工作、闭环真正合上——AI 主导研发¹。

Anthropic 提醒，第三种情况最值得警惕。报告中写道：“递归自我改进尚未实现，也不具备必然性，但它可能比大多数机构的准备来得更快。”¹

闭环里最难的一步是判断

RSI 闭环跑下来一般是几步：AI 提议改进方案，在沙盒里执行，评估结果，决定是否采纳。数据显示，AI 在执行环节的能力提升幅度很大。例如，把”让一段 CPU 训练代码运行更快”的任务交给 AI，最新模型在 2026 年 4 月能把代码加速 52 倍，2025 年 5 月的版本只能加速 2.9 倍²。

表 2：AI 训练代码优化能力演进 ²

模型	时间	加速倍数
Claude Opus 4	2025 年 5 月	2.9×
Claude Opus 4.5	2025 年 11 月	16.5×
Claude Opus 4.6	2026 年 2 月	30×
Claude Mythos Preview	2026 年 4 月	52×

闭环里更难的环节是判断。AI 还不能准确判断什么问题值得研究、该做什么实验、哪些结果可信。Anthropic 写道：“目前尚不清楚 Claude 是否具备研究直觉——即选择正确问题的能力。”¹

一旦判断环节也被 AI 接管，RSI 闭环将真正合上。Jack Clark 在 Import AI 455 中写道：“到那时，每一代 Claude 都将由上一代构建，无需人类参与。”²

对齐那套，得换思路

对齐这件事有一个前提：人类在系统部署前完成安全验证。RSI 一旦实现，这个前提就不成立了——AI 改进的速度比人类审查快得多。

Jack Clark 算过一笔账：假设一项安全技术准确率为 99.9%，看似接近完美。但进入 RSI 循环跑 50 代，准确率降到 95.1%；跑 500 代，准确率降到 60.5%²。这就是”复合错误”问题。

Anthropic 的对策是建立监控系统，给 AI 研发装仪表盘，实时监测加速信号³。这是一种预警机制——问题追上来之前先知道它来了。

国际协调的呼吁与地缘政治现实

Anthropic 在报告里呼吁国际社会协调应对 RSI 风险，建议建立类似军控协议的国际合作与验证机制¹。报告原文写道：“单一公司单方面减速效果有限；多个国家和主要 AI 机构应该以可验证的方式协调速度。”¹

但 Anthropic 把中国列为敌对国家，并参与对华出口管制。

一边呼吁各国协调应对，一边把中国列为对手——这是 Anthropic 提议”国际协调”时必须面对的现实。从中国一侧看，自主研发是唯一出路。中国加速自研，又被外方解读为”中国在搞军备竞赛”的证据。

训练数据的问题

RSI 还连带训练数据问题。

有研究表明，AI 在自己生成的数据上反复训练时，会出现”模型崩溃”（model collapse）现象——长尾信息逐代丢失，多样性下降，输出越来越不像人话⁴。

未来训练数据里 AI 生成内容占比持续上升，模型质量可能先升后降，拐点在哪里没人能预判。

本文写作过程

得说一下：本文的中文版本，初稿由 AI 完成。过程里”翻译腔”问题很突出——“关于""随着""在…方面”这类西式表达反复出现，“的""是""被”虚词叠着，句子一层套一层。

改了好几轮。AI 用上一轮输出当下一轮输入，结果每一轮都在上一轮基础上加一层偏差，翻译腔没消失，只是藏得更深。这与上文提到的”模型崩溃”在结构上一致——AI 用自己生成的内容训练自己，每一代都在上一代的错误上叠加。

区别在于：RSI 污染的是模型权重，这里污染的是表达习惯。AI 写的中文越来越像”AI 写的中文”——AI 和人类都读得懂、但谁都不这么说话的语言。

RSI 闭环里最难的是判断，本文写作过程也一样。AI 能写，但判断这稿子写得好不好，最终还是人在做。

参考来源

本文数据与引言均可通过以下来源核实：

Anthropic 官方报告 — 《When AI Builds Itself: Our progress toward recursive self-improvement, and its implications》，2026年6月4日 https://www.anthropic.com/institute/recursive-self-improvement ↩ ↩² ↩³ ↩⁴ ↩⁵ ↩⁶ ↩⁷ ↩⁸
Import AI 通讯第 455 期 — Jack Clark 撰文分析 RSI 时间线与复合错误问题，2026年5月4日 https://importai.substack.com/p/import-ai-455-automating-ai-research ↩ ↩² ↩³ ↩⁴ ↩⁵ ↩⁶
The Anthropic Institute 研究议程 — 提出建立 AI 研发 telemetry 监控系统，2026年5月 https://www.anthropic.com/research/anthropic-institute-agenda ↩
arXiv 论文 — Shumailov 等人《The Curse of Recursion: Training on Generated Data Makes Models Forget》，arXiv:2305.17493 https://arxiv.org/abs/2305.17493 ↩

参考来源

Footnotes