2023-04-03 RoFormer: Enhanced Transformer with Rotary Position Embedding LLM arxiv.org GPT-NeoX等で使われているposition embedding。 そもそも三角関数足す元祖のposition embeddingしか知らなかったので、relative position embeddingがどういうものかも知れてよかった。この手法自体は足す(additive)んじゃなくて回転させる(multicative)で、一見かなりアグレッシブな気もしたけど、足すのもまぁまぁやべーし良いかという気持ちになった。内積の大きさを制御したいと思えば全然普通かもしれない。