iwiwi 備忘録

学んだことを殴り書きます。自分向けのメモです。

2023-03-28から1日間の記事一覧

Generating Long Sequences with Sparse Transformers

LLM

arxiv.org GPT-3で使われているという噂の、sparse attentionの論文。 説明が楽なので一旦causalityを忘れることにする。n tokensあるとする。普通のattentionでは、各tokenに対して、全n tokenにattendできる。sparse attentionでは、各tokenに対し、各head…