Language Models are Few-Shot Learners
GPT3の論文。
いろいろ
- アーキテクチャ、dense attentionとsparse attentionが交互?Sparse Transformerを読まないといけない
- scaling lawの元論文、パラメタ数同じぐらいだったら多少のアーキテクチャ(ヘッド数、レイヤー数、チャンネル数など)の影響が大きくないって話も乗ってるらしい KMH+20
- 勾配のノイズを見ながらバッチサイズの選択をしたらしい? MKAT18
- データセット: Common Crawl, WebText2, Books 1, Books 2, Wikipedia
Contaminationの分析
Section 4, Appendix Cにcontaminationに関する議論・分析がある。基本的には問題ではないという主張で、それをサポートするための議論が以下。
実験としては、「benchmark datasetをそのまま使って評価した場合」と「benchmark datasetから、contaminationの可能性が少しでもあるexampleを全て削除したclean datasetを作成し、それで評価した場合」を比較する。これで性能が全然変わらないからヨシ!だってお。
他の議論。
- GPT2でも問題ではなかった。ましてやパラメタ数も増えたとはいえデータももっと増えてるから覚えられるわけないじゃん。
- 学習曲線みてよ。trainとvalの差小さいからそんなoverfitしてないんだって。
具体的なclean化は、13 gramで一致があれば削除、みたいな感じ。この実験はやろうと思えばできそう。
おまけ
Unfortunately, a bug in the filtering caused us to ignore some overlaps, and due to the cost of training it was not feasible to retrain the model.
草、正直でよろしい