2023-04-01から1日間の記事一覧
arxiv.org transformerのLMがいわゆるscaling lawに従うという話。 一番大事で有名な結論は、モデルサイズと学習ステップ数を両方増やしていくのが一番効率的だよ、ということだろうか。なるべく定量的に関係を推定しており、具体的な指針となるようになって…
arxiv.org transformerのLMがいわゆるscaling lawに従うという話。 一番大事で有名な結論は、モデルサイズと学習ステップ数を両方増やしていくのが一番効率的だよ、ということだろうか。なるべく定量的に関係を推定しており、具体的な指針となるようになって…