Solving Quantitative Reasoning Problems with Language Models

Google Research

数学っぽい文章で学習したら数学っぽい問題解けるようになったという話。主に、数学っぽい学習データセットを作ったという話と、評価の話。

データセットはWebとarxiv。うちLLaMaでも使われているarxiv datasetの作り方は以下の通り。

複数のTeXファイルに分かれている場合、連結する
コメントを削除する
最初のsection header以前、及びappendix/bibliography header以降を削除する
タイトル・アブストラクトをarXiv metadataから追加する
低品質なものを削除、具体的には
- longer than 75k tokens
- had on average more than 0.6 tokens per character
- had no \section headers
- or ended up being empty after processing
ユーザーが書いたdefinitionやmacroを展開（Googleの論文にはこの記載はないがLLaMaの論文には書かれている）

iwiwi 備忘録