训练MoE足足提速70% 华为只用了3招

访客 2025-06-03 16:10:03 149880

默认

摘要： Scaling Law之下，MoE（混合专家）如今已经成为各大模型厂商扩展模型能力的制胜法宝。不过，在高效实现模型参数规模化的同时，MoE的训练难题也日益凸显：训练效率不足，甚...

Scaling Law之下，MoE（混合专家）如今已经成为各大模型厂商扩展模型能力的制胜法宝。

不过，在高效实现模型参数规模化的同时，MoE的训练难题也日益凸显：

训练效率不足，甚至一半以上训练时间都浪费在等待上。

现在，为了突破MoE的训练瓶颈，华为出手了：

构建了一套名为Adaptive Pipe & EDPB的优化方案，开启上帝视角，让MoE面临交通拥堵的训练集群，实现无等待流畅运行。

MoE大规模训练难题：一半以上的训练时间在等待？

实践已经表明，MoE模型训练集群的效率面临两方面挑战：

首先，是专家并行引入了计算和通信等待。

当模型规模较大时，需要切分专家到不同设备形成并行（EP），这就引入额外All-to-All通信。

与此同时，MoE层绝大部分EP通信与计算存在时序依赖关系，一般的串行执行模式会导致大量计算单元空闲，等待通信。

其次，负载不均会引入计算和计算等待。

MoE算法核心是有能者居之，在训练过程中会出现部分热专家被频繁调用，而冷专家使用率较低的情况。

同时，真实训练数据的长度不一，不同的模型层（如稀疏层、嵌入层等）的计算量也存在明显差异，造成不同卡之间计算也在互相等待。

用一个形象点的说法就是，MoE训练系统就像一个存在局部交通阻塞的城区，面临两大核心问题：

-人车混行阻塞：所有车辆（计算）与行人（通信）在红绿灯交替通行，互相等待。

-车道分配僵化：固定划分的直行、左转车道就像静态的专家分配，导致热门车道（热专家）大排长龙，而冷门车道（冷专家）闲置。

针对以上问题，华为团队打造了智慧化交通设施：

首先，建造行人地下通道（通信掩盖技术），彻底分离人车动线，使计算不再等待通信。

其次，部署智能可变车道（动态专家路由），根据实时车流（数据分布）动态调整车道功能，让闲置的左转车道也能分担直行压力，实现负载均衡。

这套组合方案既解决了资源分配不均的问题，又消除了通信阻塞的瓶颈，就像为城市交通装上了智慧大脑，让每个方向的通行效率都得到最大化提升。

DeployMind仿真平台，小时级自动并行寻优

具体来说，华为首先构建了名为DeployMind的仿真平台，它是一个基于昇腾硬件训练系统的数字孪生平台，通过计算/通信/内存三维度的多层级建模、昇腾硬件系统的高精度映射、全局化算法加速运行等技术，能在1小时内模拟百万次训练场景，实现MoE模型多样化训练负载的快速分析和自动找到与集群硬件规格匹配的最优策略选择。

在训练实践验证中，该建模框架可达到90%精度指标，实现低成本且高效的最优并行选择。

针对Pangu Ultra MoE 718B模型，在单卡内存使用约束下，华为通过DeployMind以训练性能为目标找到了TP8/PP16/VPP2/EP32（其中TP只作用于Attention），这一最适合昇腾集群硬件规格的并行方案，综合实现计算、通信、内存的最佳平衡。

通信掩盖>98%，让计算不再等待通信

华为还提出了一套名为Adaptive Pipe的通信掩盖框架。在DeployMind仿真平台自动求解最优并行的基础上，采用层次化All-to-All降低机间通信和自适应细粒度前反向掩盖，实现通信几乎零暴露。

层次化专家并行通信

针对不同服务器之间通信带宽低，但机内通信带宽高的特点，华为创新地将通信过程拆成了两步走：

第一步，让各个机器上位置相同的计算单元联手，快速地从所有机器上收集完整的数据块（Token）；

第二步，每台机器内部先对数据块进行整理，然后利用机器内部的高速通道，快速完成互相交换。

这种分层设计的巧妙之处在于，它把每个数据块最多的复制分发操作都限制在单台机器内部的高速网络上完成，而在跨机器传输时，每个数据块只需要发送一份拷贝，相比传统All-to-All通信加速1倍。

也就是说，有效通过减少跨机通信，提升了集群的通信速度。

自适应细粒度前反向掩盖

在DualPipe掩盖框架的基础上，华为基于虚拟流水线并行技术，实现了更精密的调度，即Adaptive Pipe。