2023-03-26から1日間の記事一覧
arxiv.org GPT3の論文。 いろいろ アーキテクチャ、dense attentionとsparse attentionが交互?Sparse Transformerを読まないといけない scaling lawの元論文、パラメタ数同じぐらいだったら多少のアーキテクチャ(ヘッド数、レイヤー数、チャンネル数など)…
arxiv.org GPT3の論文。 いろいろ アーキテクチャ、dense attentionとsparse attentionが交互?Sparse Transformerを読まないといけない scaling lawの元論文、パラメタ数同じぐらいだったら多少のアーキテクチャ(ヘッド数、レイヤー数、チャンネル数など)…