iwiwi 備忘録

学んだことを殴り書きます。自分向けのメモです。

2023-05-01から1日間の記事一覧

Scaling Vision Transformers to 22 Billion Parameters

LLM

arxiv.org Google Research Introduction LLMは10B〜540Bって感じだけど、Vision Transformerは4Bとかしか見たことないから頑張るわ ちょっと発散しないためとか工夫必要だったわ 性能良かったわ Model Architecture GPT-J風のparallel layer QK normalizati…