RoFormer: Enhanced Transformer with Rotary Position Embedding

LLM

arxiv.org GPT-NeoX等で使われているposition embedding。そもそも三角関数足す元祖のposition embeddingしか知らなかったので、relative position embeddingがどういうものかも知れてよかった。この手法自体は足す(additive)んじゃなくて回転させる(multic…

2023-04-02

An Empirical Model of Large-Batch Training

arxiv.org OpenAIのLLMの論文がbatchsize関連の議論で頻繁に引用している論文なので見てみた。理解が正しいかあんま自信ない。実験的な話 critical batch sizeとは、「そのバッチサイズまでなら上げても効率的」というバッチサイズである。「効率的」とい…

2023-04-01

Scaling Laws for Neural Language Models

LLM

arxiv.org transformerのLMがいわゆるscaling lawに従うという話。一番大事で有名な結論は、モデルサイズと学習ステップ数を両方増やしていくのが一番効率的だよ、ということだろうか。なるべく定量的に関係を推定しており、具体的な指針となるようになって…

iwiwi 備忘録

学んだことを殴り書きます。自分向けのメモです。

2023-04-01から1ヶ月間の記事一覧

RoFormer: Enhanced Transformer with Rotary Position Embedding

An Empirical Model of Large-Batch Training

Scaling Laws for Neural Language Models