Learning Transferable Visual Models From Natural Language Supervision

概要

CLIPの論文。CLIPのtext encoderがstable diffusionでも使われている。

画像認識の基盤モデルを作る試み。膨大な(image, text)ペアから事前学習し、ImageNet1kを含む様々なタスクをゼロショットで（classに対応するtext指定するだけで）めちゃ良い性能出せる。

画像をembeddingにencodeするモデル(CNN or ViT)と、テキストをembeddingにencodeするモデル(transformer)を使う。

膨大な(image, text)ペアから、contrastive learningする。

こんな感じで、n sampleからなるミニバッチ内で、n × n のあれこれをする。embedding同士のdotを計算し、それでsoftmax cross entropyする。なんか説明がむずいな。

400 million examplesだって。