iwiwi 備忘録

学んだことを殴り書きます。自分向けのメモです。

Emergent Abilities of Large Language Models

arxiv.org

基本的には、既存の文献から"Emergent"な現象をまとめる、という感じの論文だった。現象自体は面白いと思うので、有用な文献だと思う。ただし、本文は、あんま面白くない議論が長々と続いており、「JMLRに通すためのレビュワー対策で色々入れたんだろうなぁ」と邪推してしまう。

本文に掲載されている物理学者Philip Andersonの"Emergence"の定義:

Emergence is when quantitative changes in a system result in qualitative changes in behavior.

それに基づくこの論文の"Emergent"の定義:

An ability is emergent if it is not present in smaller models but is present in larger models.

これを満たすタスクと具体的な実験結果がいっぱい載ってる。

実験結果は全て、x軸がmodel scale、縦軸がscore。model scaleはtraining FLOPsとしている。他にも、パラメタ数や、データセットのサイズなどが要素としては有るが、パラメタ数が上がればFLOPsは上がるし、みたいな考えでFLOPsに統一している。