Scaling Laws for Neural Language Models

transformerのLMがいわゆるscaling lawに従うという話。

一番大事で有名な結論は、モデルサイズと学習ステップ数を両方増やしていくのが一番効率的だよ、ということだろうか。なるべく定量的に関係を推定しており、具体的な指針となるようになってる。

他にもかなり色々な実験や主張があり、とりあえず図をどんどん見ていくのが楽しいと思う。学習のハイパラに迷ったら開くと良さそう。

具体的な指針にする際には、後続論文で反論もあることに注意（例：chinchilla scaling）。

iwiwi 備忘録