iwiwi 備忘録

学んだことを殴り書きます。自分向けのメモです。

Lecture 11: Prompting, Instruction Finetuning, and RLHF (CS224n)

Stanfordの講義スライド。

内容

  • prompting
  • LLMに指示して色々させる
    • zero-shot learning
      • LLMくんに聞く
    • few-shot learning (= in-context learning)
      • LLMくんに聞く前に例示してあげる
    • chain-of-thought (CoT)
      • "Let's think step by step" って言ってあげると言われたとおり順々に考えてくれて答えが正確になる
      • モデルが滅茶デカにならないとこの現象(この指示を出したほうが正確になるということ)は起こらない。
  • instruction finetuning
  • RLHF
    • 人間がより望む回答をしてくれるよう、RLする。
    • 方策ベースのRLで点が高くなるように。ただし人間に点を直接つけさせると微妙なので、比較させる方がいいらしい。

歴史や実例を交えながら説明されてて良いなと思いました。

その他

P.33のこれがおもろかったw diffusion modelにmasterpieceとかpixiv 10000とか言うと良いのは知ってたけど、それと全く同じやんけ。