iwiwi 備忘録

学んだことを殴り書きます。自分向けのメモです。

2023-05-12から1日間の記事一覧

lm-eval-harnessでよく使われている評価タスク (LAMBADA, HellaSwag, WinoGrande, PIQA, CoQA)

LLM

https://docs.google.com/spreadsheets/d/1kT4or6b0Fedd-W_jMwYpb63e1ZR3aePczz3zlbJW-Y4/edit#gid=0 とりあえずこのシートで使われてるタスクを理解する。 The LAMBADA dataset: Word prediction requiring a broad discourse context https://github.com/E…