Emergent Abilities of Large Language Models

基本的には、既存の文献から"Emergent"な現象をまとめる、という感じの論文だった。現象自体は面白いと思うので、有用な文献だと思う。ただし、本文は、あんま面白くない議論が長々と続いており、「JMLRに通すためのレビュワー対策で色々入れたんだろうなぁ」と邪推してしまう。

本文に掲載されている物理学者Philip Andersonの"Emergence"の定義：

Emergence is when quantitative changes in a system result in qualitative changes in behavior.

それに基づくこの論文の"Emergent"の定義：

An ability is emergent if it is not present in smaller models but is present in larger models.

これを満たすタスクと具体的な実験結果がいっぱい載ってる。

実験結果は全て、x軸がmodel scale、縦軸がscore。model scaleはtraining FLOPsとしている。他にも、パラメタ数や、データセットのサイズなどが要素としては有るが、パラメタ数が上がればFLOPsは上がるし、みたいな考えでFLOPsに統一している。

iwiwi 備忘録