iwiwi 備忘録

学んだことを殴り書きます。自分向けのメモです。

2023-03-25から1日間の記事一覧

ZeRO-Infinity: Breaking the GPU Memory Wall for Extreme Scale Deep Learning

LLM

arxiv.org host memoryやNVMeを使ったout-of-coreの実装を真面目にクソ頑張ることで、より大きなtransformerを高い実行効率を維持しながら学習できるようにする話。 手法 基本的には各種データ(param, optimizer stats, activationなど)のアクセスパターン…