Solving Quantitative Reasoning Problems with Language Models
Google Research
数学っぽい文章で学習したら数学っぽい問題解けるようになったという話。主に、数学っぽい学習データセットを作ったという話と、評価の話。
データセットはWebとarxiv。うちLLaMaでも使われているarxiv datasetの作り方は以下の通り。
- 複数のTeXファイルに分かれている場合、連結する
- コメントを削除する
- 最初のsection header以前、及びappendix/bibliography header以降を削除する
- タイトル・アブストラクトをarXiv metadataから追加する
- 低品質なものを削除、具体的には
- longer than 75k tokens
- had on average more than 0.6 tokens per character
- had no \section headers
- or ended up being empty after processing
- ユーザーが書いたdefinitionやmacroを展開(Googleの論文にはこの記載はないがLLaMaの論文には書かれている)