iwiwi 備忘録

学んだことを殴り書きます。自分向けのメモです。

Deduplicating Training Data Makes Language Models Better

arxiv.org

Google Research、ACL2022

学習データのdeduplicationを頑張る方法とその結果について

モチベ・利点

  • umpromptedで出す文字列、データセットで繰り返されまくってた文字列を記憶してるらしく、それを減らせる。
  • train test overlapによる評価の誤りを直せる。
  • データを減らすことで学習時間が減らせる。20%データが減ったらしい。
  • その割にモデルは悪くならない、なんならたまに性能よくなる。

手法

  • exact: データセット全体で、2回以上現れる50 PBE tokens以上の部分文字列を削除して1回にする。suffix arrayを使えば線形時間。
  • approx: 文章ごとで、5-gramがの一致率(Jaccard similarity)が高い文章対を検出し削除する。MinHashを使う。