iwiwi 備忘録

学んだことを殴り書きます。自分向けのメモです。

Language Models are Few-Shot Learners

arxiv.org

GPT3の論文。

いろいろ

  • アーキテクチャ、dense attentionとsparse attentionが交互?Sparse Transformerを読まないといけない
  • scaling lawの元論文、パラメタ数同じぐらいだったら多少のアーキテクチャ(ヘッド数、レイヤー数、チャンネル数など)の影響が大きくないって話も乗ってるらしい KMH+20
  • 勾配のノイズを見ながらバッチサイズの選択をしたらしい? MKAT18
  • データセット: Common Crawl, WebText2, Books 1, Books 2, Wikipedia

Contaminationの分析

Section 4, Appendix Cにcontaminationに関する議論・分析がある。基本的には問題ではないという主張で、それをサポートするための議論が以下。

実験としては、「benchmark datasetをそのまま使って評価した場合」と「benchmark datasetから、contaminationの可能性が少しでもあるexampleを全て削除したclean datasetを作成し、それで評価した場合」を比較する。これで性能が全然変わらないからヨシ!だってお。

他の議論。

  • GPT2でも問題ではなかった。ましてやパラメタ数も増えたとはいえデータももっと増えてるから覚えられるわけないじゃん。
  • 学習曲線みてよ。trainとvalの差小さいからそんなoverfitしてないんだって。

具体的なclean化は、13 gramで一致があれば削除、みたいな感じ。この実験はやろうと思えばできそう。

おまけ

Unfortunately, a bug in the filtering caused us to ignore some overlaps, and due to the cost of training it was not feasible to retrain the model.

草、正直でよろしい