Lecture 11: Prompting, Instruction Finetuning, and RLHF (CS224n)
Since prompting, instruction tuning, RLHF, ChatGPT etc are such new and fast-moving topics, I haven't seen many university course lectures covering this content.
— Jesse Mu (@jayelmnop) 2023年2月16日
So we made some new slides for this year's CS224n: NLP w/ Deep Learning course at @Stanford!https://t.co/TwSgCr63QA pic.twitter.com/89fiECyW7A
Stanfordの講義スライド。
内容
- prompting
- LLMに指示して色々させる
- zero-shot learning
- LLMくんに聞く
- few-shot learning (= in-context learning)
- LLMくんに聞く前に例示してあげる
- chain-of-thought (CoT)
- "Let's think step by step" って言ってあげると言われたとおり順々に考えてくれて答えが正確になる
- モデルが滅茶デカにならないとこの現象(この指示を出したほうが正確になるということ)は起こらない。
- zero-shot learning
- instruction finetuning
- RLHF
- 人間がより望む回答をしてくれるよう、RLする。
- 方策ベースのRLで点が高くなるように。ただし人間に点を直接つけさせると微妙なので、比較させる方がいいらしい。
歴史や実例を交えながら説明されてて良いなと思いました。
その他
P.33のこれがおもろかったw diffusion modelにmasterpieceとかpixiv 10000とか言うと良いのは知ってたけど、それと全く同じやんけ。