2023-03-25から1日間の記事一覧
arxiv.org host memoryやNVMeを使ったout-of-coreの実装を真面目にクソ頑張ることで、より大きなtransformerを高い実行効率を維持しながら学習できるようにする話。 手法 基本的には各種データ(param, optimizer stats, activationなど)のアクセスパターン…
arxiv.org host memoryやNVMeを使ったout-of-coreの実装を真面目にクソ頑張ることで、より大きなtransformerを高い実行効率を維持しながら学習できるようにする話。 手法 基本的には各種データ(param, optimizer stats, activationなど)のアクセスパターン…