Lecture 11: Prompting, Instruction Finetuning, and RLHF (CS224n)

Since prompting, instruction tuning, RLHF, ChatGPT etc are such new and fast-moving topics, I haven't seen many university course lectures covering this content.

So we made some new slides for this year's CS224n: NLP w/ Deep Learning course at @Stanford!https://t.co/TwSgCr63QA pic.twitter.com/89fiECyW7A
— Jesse Mu (@jayelmnop) 2023年2月16日

Stanfordの講義スライド。

内容

prompting
LLMに指示して色々させる
- zero-shot learning
  - LLMくんに聞く
- few-shot learning (= in-context learning)
  - LLMくんに聞く前に例示してあげる
- chain-of-thought (CoT)
  - "Let's think step by step" って言ってあげると言われたとおり順々に考えてくれて答えが正確になる
  - モデルが滅茶デカにならないとこの現象（この指示を出したほうが正確になるということ）は起こらない。
instruction finetuning
- promptに対して望ましい回答をするようfinetune。望ましい回答を用意し、普通に教師あり学習。
- task方向に汎化して欲しいので、unseen taskで評価する。
- taskの数が凄い。例えば Super-NaturalInstructions datasetというのでは1.6k tasks、3M+ examples。
  - GitHub - allenai/natural-instructions: Expanding natural instructions
RLHF
- 人間がより望む回答をしてくれるよう、RLする。
- 方策ベースのRLで点が高くなるように。ただし人間に点を直接つけさせると微妙なので、比較させる方がいいらしい。

歴史や実例を交えながら説明されてて良いなと思いました。

その他

P.33のこれがおもろかったｗ　diffusion modelにmasterpieceとかpixiv 10000とか言うと良いのは知ってたけど、それと全く同じやんけ。

iwiwi 備忘録

学んだことを殴り書きます。自分向けのメモです。

Lecture 11: Prompting, Instruction Finetuning, and RLHF (CS224n)

内容

その他