Qwen3 变身扩散语言模型？不从零训练也能跑，30B参数创纪录

2025/10/13

机器之心报道

编辑：张倩

扩散语言模型（Diffusion Language Models，DLM）一直以来都令研究者颇感兴趣，因为与必须按从左到右顺序生成的自回归模型（Autoregressive, AR）不同，DLM 能实现并行生成，这在理论上可以实现更快的生成速度，也能让模型基于前后文更好地理解生成语境。

然而，尽管其潜力巨大，DLM 的训练仍然充满挑战，主要原因是它在 scaling 上的效率相对低于 AR 模型。例如，直接训练 DLM 需要在有限的数据集上进行更多次迭代，才能超越直接训练的 AR 模型。此外，AR 模型还拥有显著的「先发优势」—— 包括成熟的训练基础设施、稳定的训练配方以及广泛的从业者经验积累。

为了克服这些难点，来自 Radical Numerics（一个新的 AI 初创）的研究团队选择了另一条路：在现有自回归模型的基础上进行改造，让它具备扩散语言模型的能力

他们刚刚发布的RND1-Base（Radical Numerics Diffusion）是迄今为止规模最大的开源扩散语言模型。其生成效果如下：

这是一个实验性的30B 参数稀疏 MoE 模型，其中有3B 激活参数，由一个预训练的 AR 模型（Qwen3-30BA3B）转换而来，并在持续预训练中累积训练500B 个 token，以实现完整的扩散行为。作者同步开源了模型、训练配方、推理代码以及样例输出。

技术报告：Training Diffusion Language Models at Scale using Autoregressive Models
报告链接：https://www.radicalnumerics.ai/assets/rnd1_report.pdf
代码链接：https://github.com/RadicalNumerics/RND1
HuggingFace 链接：https://huggingface.co/radicalnumerics/RND1-Base-0910

这项研究的主要贡献包括：

系统性研究了大规模 A2D（Autoregressive-to-Diffusion）转换过程中的关键因素，如初始化策略、层级学习率和临界批大小。
识别出能够实现可扩展性与稳定性的关键因素，并证明当这些因素与成熟的自回归预训练方法结合时，简单的技术组合也能催生可扩展的 DLM。
推出了迄今为止最大的基础扩散语言模型RND1-30B，展示了将自回归预训练经验科学化转换后可在多项基准测试中取得卓越表现。

具体来说，研究者在推理（MMLU、ARC-C、RACE、BBH）、STEM（GSM8K）以及代码生成（MBPP）等通用基准测试中测试了 RND1。结果显示，它在所有评测中均稳定超越现有 Dream-7B 和 LLaDA-8B，同时保持了其自回归基础模型的强大性能。

这些结果表明，将扩散语言模型规模扩展到 80 亿参数以上不仅可行，而且切实有效。A2D 转换可能是训练 DLM 更优的策略。RND1 也是首个在此规模上成功展示扩散模型训练的开源项目。

不过，需要指出的是，研究者并未将 RND1 与 Llada 系列的最新模型 ——LLaDA-MoE-7B-A1B 进行对比。从部分指标来看，RND1 并未超越 LLaDA-MoE-7B-A1B 的表现。两个模型哪个更强还需要进一步 PK。

图源：https://arxiv.org/pdf/2509.24389

简单持续预训练（SCP）

从一个自回归检查点训练扩散语言模型，会引出两个核心问题：

第一，如何在一个原本仅支持因果注意力（causal attention）的架构中引入双向上下文？

第二，如何在转换过程中保留 AR 模型从数万亿 token 预训练中获得的语言与事实知识？

早期研究提出了多阶段复杂流程，例如注意力掩码退火（attention mask annealing），通过逐步放松因果掩码实现双向注意力；或嫁接法（grafting），即系统性修改模型结构，用双向注意力替换因果注意力。

这些方法在小规模模型上有效，但往往引入额外设计选择（如掩码变化策略、退火 / 嫁接调度），难以稳定地推广至大规模。

相较之下，作者发现了一种更简单的方法 ——简单持续预训练（SCP），能够达到与这些复杂 A2D 转换流程相当的性能。

其配方极为直接：

从一个强大的 AR 检查点开始；
在初始化时将因果掩码替换为双向掩码；
在掩码扩散目标下继续预训练，并采用学习率预热。

通过层级学习率保留 AR 预训练知识

A2D 转换面临的主要风险之一是灾难性遗忘：模型可能在转换过程中丢失原有的事实知识。既有研究表明，Transformer 类语言模型中的知识（尤其是事实关联）主要编码在FFN/MLP 层中。基于这一认识，他们在不同参数组间采用了分层学习率策略：

在转换期间，注意力层使用更高的学习率以便快速适应双向上下文，而非注意力层（如 MLP 与嵌入层）使用较低学习率，以最大程度保留 AR 预训练知识。

A2D 转换在大 batch size 训练下表现更佳

自回归训练与扩散训练的一个细微但关键的区别在于：每个批次提供的监督信号量不同。在 AR 模型中，每个 token 都会参与损失计算；而在扩散训练中，只有序列中被掩盖的位置会参与监督。在标准掩码扩散目标下，平均掩码比例约为 50%，也就是说只有一半的 token 参与学习。这种较弱的学习信号意味着，用于 scale batch size 和学习率的标准自回归启发式方法不一定适用于扩散训练。

为更好理解这一点，作者估计了临界批大小（Critical Batch Size, CBS）—— 即当数据并行度继续增大时，损失改进收益开始递减的阈值。按照其他论文中的方法，他们通过分支训练实验来实证确定该点。

从一个在 SCP 配方下已训练 600 亿 token 的 40 亿参数模型检查点出发，作者启动了四个仅在全局批量大小上不同的并行训练分支。他们调整学习率、保持优化器设置与权重衰减不变，并在 token 空间上对齐预热与衰减调度。每个分支再训练额外 50 亿 token。

实验结果表明，在40 亿参数规模下，随着批量增大，扩散损失持续单调下降，直到约 800 万 token 仍有收益。换句话说，扩散语言模型在持续预训练阶段能够有效利用更大的 batch size—— 这对大规模训练是一个积极信号。

为什么要改造自回归模型？

RND1 展示了如何在不推倒重来的情况下，高效探索新架构与新训练范式。

这种效率体现了 Radical Numerics 核心理念的本质 ——构建一个能够递归自我改进的自动化 AI 研究平台，让 AI 系统帮助设计和优化下一代 AI。

通过自动化实验循环，他们能够更快地遍历搜索空间，验证更大胆的想法。RND1 正是这一理念的首个具体成果之一。

Radical Numerics 的创始成员来自 DeepMind、Meta、Liquid、Stanford 等顶级机构，偏好混合架构、Hyena 和 Evo 等技术。在一个社交媒体帖子中，公司创始人之一 Michael Poli 阐述了他们的信念和愿景。

感兴趣的读者可以查阅更多资料了解该公司。

参考链接：https://www.radicalnumerics.ai/blog/rnd1

上一篇 : 「微调已死」再添筹码，谷歌扩展AI自我进化范式，成败双向学习下一篇 : 一周AI大事：谷歌Gemini学会“接管”你的电脑、马斯克机器人被手卡住了

预约演示

Qwen3 变身扩散语言模型？不从零训练也能跑，30B参数创纪录