iwiwi 備忘録

学んだことを殴り書きます。自分向けのメモです。

LLM

GPT-NeoXをとりあえず動かす

LLM

環境 基本requirementsをインストールしていくんだけど、問題がいくつか best_downloadというライブラリがrequests経由でurllib3を使っているが、 method_whitelist という古い引数名を使っており、そこで落ちる。ダウングレードする手もありそうだが、一旦 …

lm-eval-harnessでよく使われている評価タスク (LAMBADA, HellaSwag, WinoGrande, PIQA, CoQA)

LLM

https://docs.google.com/spreadsheets/d/1kT4or6b0Fedd-W_jMwYpb63e1ZR3aePczz3zlbJW-Y4/edit#gid=0 とりあえずこのシートで使われてるタスクを理解する。 The LAMBADA dataset: Word prediction requiring a broad discourse context https://github.com/E…

GPTs are GPTs: An Early Look at the Labor Market Impact Potential of Large Language Models

LLM

arxiv.org openai.com generative pretrained transformersがgeneral-purpose technologiesだよ、って言いたい論文。様々な職種における作業へのインパクトを見積もる。 結論 80%の職種で、作業の10%がLLMにより効率化される 20%の職種で、作業の50%がLLMに…

Emergent Abilities of Large Language Models

LLM

arxiv.org 基本的には、既存の文献から"Emergent"な現象をまとめる、という感じの論文だった。現象自体は面白いと思うので、有用な文献だと思う。ただし、本文は、あんま面白くない議論が長々と続いており、「JMLRに通すためのレビュワー対策で色々入れたん…

Scaling Vision Transformers to 22 Billion Parameters

LLM

arxiv.org Google Research Introduction LLMは10B〜540Bって感じだけど、Vision Transformerは4Bとかしか見たことないから頑張るわ ちょっと発散しないためとか工夫必要だったわ 性能良かったわ Model Architecture GPT-J風のparallel layer QK normalizati…

RoFormer: Enhanced Transformer with Rotary Position Embedding

LLM

arxiv.org GPT-NeoX等で使われているposition embedding。 そもそも三角関数足す元祖のposition embeddingしか知らなかったので、relative position embeddingがどういうものかも知れてよかった。この手法自体は足す(additive)んじゃなくて回転させる(multic…

Scaling Laws for Neural Language Models

LLM

arxiv.org transformerのLMがいわゆるscaling lawに従うという話。 一番大事で有名な結論は、モデルサイズと学習ステップ数を両方増やしていくのが一番効率的だよ、ということだろうか。なるべく定量的に関係を推定しており、具体的な指針となるようになって…

Self-attention Does Not Need O(n2) Memory

LLM

arxiv.org xformers.ops.memory_efficient_attentionはこれを実装してると引用してる。 K*Q全部一旦計算する必要なくてある場所のattention計算するためにはその行列のその行だけでいいから各場所について1つずつ計算すれば必要メモリはO(n)って話。 √nって…

Deduplicating Training Data Makes Language Models Better

LLM

arxiv.org Google Research、ACL2022 学習データのdeduplicationを頑張る方法とその結果について モチベ・利点 umpromptedで出す文字列、データセットで繰り返されまくってた文字列を記憶してるらしく、それを減らせる。 train test overlapによる評価の誤り…

Pythia: A Suite for Analyzing Large Language Models Across Training and Scaling

LLM

arxiv.org EleutherAIの人たちが、学習完了したLLMだけでなく、学習過程の分析をしたい人のために、スナップショットを一杯公開したよ、という話だと理解した。 コードとかも色々あるので参考になるかも。

Generating Long Sequences with Sparse Transformers

LLM

arxiv.org GPT-3で使われているという噂の、sparse attentionの論文。 説明が楽なので一旦causalityを忘れることにする。n tokensあるとする。普通のattentionでは、各tokenに対して、全n tokenにattendできる。sparse attentionでは、各tokenに対し、各head…

Solving Quantitative Reasoning Problems with Language Models

LLM

arxiv.org Google Research 数学っぽい文章で学習したら数学っぽい問題解けるようになったという話。主に、数学っぽい学習データセットを作ったという話と、評価の話。 データセットはWebとarxiv。うちLLaMaでも使われているarxiv datasetの作り方は以下の通…

Language Models are Few-Shot Learners

LLM

arxiv.org GPT3の論文。 いろいろ アーキテクチャ、dense attentionとsparse attentionが交互?Sparse Transformerを読まないといけない scaling lawの元論文、パラメタ数同じぐらいだったら多少のアーキテクチャ(ヘッド数、レイヤー数、チャンネル数など)…

ZeRO-Infinity: Breaking the GPU Memory Wall for Extreme Scale Deep Learning

LLM

arxiv.org host memoryやNVMeを使ったout-of-coreの実装を真面目にクソ頑張ることで、より大きなtransformerを高い実行効率を維持しながら学習できるようにする話。 手法 基本的には各種データ(param, optimizer stats, activationなど)のアクセスパターン…

ZeRO: Memory Optimizations Toward Training Trillion Parameter Models

LLM

arxiv.org クソでかモデルでGPUがメモリ足りない時のための手法。ZeRO-DPとZeRO-Rがある。 ZeRO-DP DP=data parallel。optimizerのstate(momentumなど)、gradient、paramを分散して持てば良い。 stateを分散して持つ場合、各担当ワーカーくんがparamを更新…

Flamingo: a Visual Language Model for Few-Shot Learning

LLM

arxiv.org DeepMindの、VLM(Visual Language Model) / LMM(Large Multimodal Model)の論文。文中に画像が現れてるようなものを読んで、画像と文章の両方を加味した文章生成ができる。例えばin-context learningを通じてVisual QAなどができる。 アプローチ e…

Efficient Large-Scale Language Model Training on GPU Clusters Using Megatron-LM

LLM

arxiv.org 最大1 trillionパラメータのtransformerを3000GPUs規模で分散学習する方法について模索するNVIDIAの論文 方法 data parallelism……各ワーカーが同じモデルを持ち違うデータに対してfwd/bwdをして勾配を計算し、勾配をallreduceする model paralleli…

Learning Transferable Visual Models From Natural Language Supervision

arxiv.org 概要 CLIPの論文。CLIPのtext encoderがstable diffusionでも使われている。 画像認識の基盤モデルを作る試み。膨大な(image, text)ペアから事前学習し、ImageNet1kを含む様々なタスクをゼロショットで(classに対応するtext指定するだけで)めち…

GPT-4 Technical Report

LLM

発表生放送 www.youtube.com https://t.co/oAGLHrFe4tGPT-4の発表生放送をとりあえず観てみたがおもろかった。リアルタイムでGPT-4にdiscordのbot書かせてデバッグもさせて、そのbot経由で視聴者から投稿してもらった画像をGPT-4に見せたり。説得力えぐ。で…

Lecture 11: Prompting, Instruction Finetuning, and RLHF (CS224n)

Since prompting, instruction tuning, RLHF, ChatGPT etc are such new and fast-moving topics, I haven't seen many university course lectures covering this content.So we made some new slides for this year's CS224n: NLP w/ Deep Learning course…