Learning Transferable Visual Models From Natural Language Supervision
概要
CLIPの論文。CLIPのtext encoderがstable diffusionでも使われている。
画像認識の基盤モデルを作る試み。膨大な(image, text)ペアから事前学習し、ImageNet1kを含む様々なタスクをゼロショットで(classに対応するtext指定するだけで)めちゃ良い性能出せる。
方法
画像をembeddingにencodeするモデル(CNN or ViT)と、テキストをembeddingにencodeするモデル(transformer)を使う。
膨大な(image, text)ペアから、contrastive learningする。
こんな感じで、n sampleからなるミニバッチ内で、n × n のあれこれをする。embedding同士のdotを計算し、それでsoftmax cross entropyする。なんか説明がむずいな。
400 million examplesだって。