iwiwi 備忘録

学んだことを殴り書きます。自分向けのメモです。

Learning Transferable Visual Models From Natural Language Supervision

arxiv.org

概要

CLIPの論文。CLIPのtext encoderがstable diffusionでも使われている。

画像認識の基盤モデルを作る試み。膨大な(image, text)ペアから事前学習し、ImageNet1kを含む様々なタスクをゼロショットで(classに対応するtext指定するだけで)めちゃ良い性能出せる。

方法

画像をembeddingにencodeするモデル(CNN or ViT)と、テキストをembeddingにencodeするモデル(transformer)を使う。

膨大な(image, text)ペアから、contrastive learningする。

こんな感じで、n sampleからなるミニバッチ内で、n × n のあれこれをする。embedding同士のdotを計算し、それでsoftmax cross entropyする。なんか説明がむずいな。

400 million examplesだって。