iwiwi 備忘録

学んだことを殴り書きます。自分向けのメモです。

RoFormer: Enhanced Transformer with Rotary Position Embedding

arxiv.org

GPT-NeoX等で使われているposition embedding。

そもそも三角関数足す元祖のposition embeddingしか知らなかったので、relative position embeddingがどういうものかも知れてよかった。この手法自体は足す(additive)んじゃなくて回転させる(multicative)で、一見かなりアグレッシブな気もしたけど、足すのもまぁまぁやべーし良いかという気持ちになった。内積の大きさを制御したいと思えば全然普通かもしれない。