强化学习(RL)已成为提升大语言模型能力的关键方法。然而,在混合专家(MoE)模型中,路由机制常常引发训练不稳定,甚至导致灾难性的强化学习训练崩溃。我们分析了MoE模型在训练与推理阶段的路由一致性问题,发现这两个阶段的路由行为存在显著差异。此外,即使在完全相同的条件下,路由框架在多次前向传播中也可能产生不同的专家选择结果。为解决这一根本性不一致问题,我们提出了“ rollout路由回放”(Rollout Routing Replay, R3)方法,该方法记录推理引擎中的路由分布,并在训练过程中进行回放。R3显著降低了训练与推理策略之间的KL散度,有效缓解了极端偏差,同时不会牺牲训练速度。在多种实验设置下的大量实验结果表明,R3能够成功稳定强化学习训练过程,避免训练崩溃,并优于GSPO和TIS等现有方法。我们认为,本研究为稳定MoE模型中的强化学习提供了一种新的解决方案。