2023-05-01から1日間の記事一覧
arxiv.org Google Research Introduction LLMは10B〜540Bって感じだけど、Vision Transformerは4Bとかしか見たことないから頑張るわ ちょっと発散しないためとか工夫必要だったわ 性能良かったわ Model Architecture GPT-J風のparallel layer QK normalizati…
arxiv.org Google Research Introduction LLMは10B〜540Bって感じだけど、Vision Transformerは4Bとかしか見たことないから頑張るわ ちょっと発散しないためとか工夫必要だったわ 性能良かったわ Model Architecture GPT-J風のparallel layer QK normalizati…