iwiwi 備忘録

学んだことを殴り書きます。自分向けのメモです。

2023-03-24から1日間の記事一覧

ZeRO: Memory Optimizations Toward Training Trillion Parameter Models

LLM

arxiv.org クソでかモデルでGPUがメモリ足りない時のための手法。ZeRO-DPとZeRO-Rがある。 ZeRO-DP DP=data parallel。optimizerのstate(momentumなど)、gradient、paramを分散して持てば良い。 stateを分散して持つ場合、各担当ワーカーくんがparamを更新…