Language Models are Few-Shot Learners

GPT3の論文。

いろいろ

アーキテクチャ、dense attentionとsparse attentionが交互？Sparse Transformerを読まないといけない
scaling lawの元論文、パラメタ数同じぐらいだったら多少のアーキテクチャ（ヘッド数、レイヤー数、チャンネル数など）の影響が大きくないって話も乗ってるらしい KMH+20
勾配のノイズを見ながらバッチサイズの選択をしたらしい？ MKAT18
データセット: Common Crawl, WebText2, Books 1, Books 2, Wikipedia

Contaminationの分析

Section 4, Appendix Cにcontaminationに関する議論・分析がある。基本的には問題ではないという主張で、それをサポートするための議論が以下。

実験としては、「benchmark datasetをそのまま使って評価した場合」と「benchmark datasetから、contaminationの可能性が少しでもあるexampleを全て削除したclean datasetを作成し、それで評価した場合」を比較する。これで性能が全然変わらないからヨシ！だってお。

他の議論。

GPT2でも問題ではなかった。ましてやパラメタ数も増えたとはいえデータももっと増えてるから覚えられるわけないじゃん。
学習曲線みてよ。trainとvalの差小さいからそんなoverfitしてないんだって。

具体的なclean化は、13 gramで一致があれば削除、みたいな感じ。この実験はやろうと思えばできそう。

おまけ

Unfortunately, a bug in the filtering caused us to ignore some overlaps, and due to the cost of training it was not feasible to retrain the model.

草、正直でよろしい

iwiwi 備忘録

学んだことを殴り書きます。自分向けのメモです。

Language Models are Few-Shot Learners

いろいろ

Contaminationの分析

おまけ