iwiwi 備忘録

学んだことを殴り書きます。自分向けのメモです。

Generating Long Sequences with Sparse Transformers

arxiv.org

GPT-3で使われているという噂の、sparse attentionの論文。

説明が楽なので一旦causalityを忘れることにする。n tokensあるとする。普通のattentionでは、各tokenに対して、全n tokenにattendできる。sparse attentionでは、各tokenに対し、各headでのattend出来る場所を√n箇所に絞る。

例えば、直近√n個にattendできるheadと、√n個飛ばしでの√n個にattendできるheadがあれば、その2つを両方経由すれば任意のtokenの情報が取れる。そんな感じ。