iwiwi 備忘録

学んだことを殴り書きます。自分向けのメモです。

Deduplicating Training Data Makes Language Models Better

LLM

Google Research、ACL2022

学習データのdeduplicationを頑張る方法とその結果について

モチベ・利点

umpromptedで出す文字列、データセットで繰り返されまくってた文字列を記憶してるらしく、それを減らせる。
train test overlapによる評価の誤りを直せる。
データを減らすことで学習時間が減らせる。20%データが減ったらしい。
その割にモデルは悪くならない、なんならたまに性能よくなる。

手法

exact: データセット全体で、2回以上現れる50 PBE tokens以上の部分文字列を削除して1回にする。suffix arrayを使えば線形時間。
approx: 文章ごとで、5-gramがの一致率(Jaccard similarity)が高い文章対を検出し削除する。MinHashを使う。