2023-03-21から1日間の記事一覧

2023-03-21

Efficient Large-Scale Language Model Training on GPU Clusters Using Megatron-LM

LLM

arxiv.org 最大1 trillionパラメータのtransformerを3000GPUs規模で分散学習する方法について模索するNVIDIAの論文方法 data parallelism……各ワーカーが同じモデルを持ち違うデータに対してfwd/bwdをして勾配を計算し、勾配をallreduceする model paralleli…

iwiwi 備忘録

学んだことを殴り書きます。自分向けのメモです。

2023-03-21から1日間の記事一覧

Efficient Large-Scale Language Model Training on GPU Clusters Using Megatron-LM