Efficient Large-Scale Language Model Training on GPU Clusters Using Megatron-LM
最大1 trillionパラメータのtransformerを3000GPUs規模で分散学習する方法について模索するNVIDIAの論文
方法
- data parallelism……各ワーカーが同じモデルを持ち違うデータに対してfwd/bwdをして勾配を計算し、勾配をallreduceする
- model parallelism……各ワーカーがモデルの別の部分を担当する
その他、activation recomputation(gradient checkpointing)なども使う。