iwiwi 備忘録

学んだことを殴り書きます。自分向けのメモです。

2023-04-02から1日間の記事一覧

An Empirical Model of Large-Batch Training

arxiv.org OpenAIのLLMの論文がbatchsize関連の議論で頻繁に引用している論文なので見てみた。 理解が正しいかあんま自信ない。 実験的な話 critical batch sizeとは、「そのバッチサイズまでなら上げても効率的」というバッチサイズである。 「効率的」とい…