Generating Long Sequences with Sparse Transformers
GPT-3で使われているという噂の、sparse attentionの論文。
説明が楽なので一旦causalityを忘れることにする。n tokensあるとする。普通のattentionでは、各tokenに対して、全n tokenにattendできる。sparse attentionでは、各tokenに対し、各headでのattend出来る場所を√n箇所に絞る。
例えば、直近√n個にattendできるheadと、√n個飛ばしでの√n個にattendできるheadがあれば、その2つを両方経由すれば任意のtokenの情報が取れる。そんな感じ。